본문 바로가기
오늘의 자연어 처리

[2023-08-26] 오늘의 자연어처리

by 지환이아빠 2023. 8. 26.
반응형

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?

 

The multimedia community has shown a significant interest in perceiving and representing the physical world with multimodal pretrained neural network models, and among them, the visual-language pertaining (VLP) is, currently, the most captivating topic. However, there have been few endeavors dedicated to the exploration of 1) whether essential linguistic knowledge (e.g., semantics and syntax) can be extracted during VLP, and 2) how such linguistic knowledge impact or enhance the multimodal alignment. In response, here we aim to elucidate the impact of comprehensive linguistic knowledge, including semantic expression and syntactic structure, on multimodal alignment. Specifically, we design and release the SNARE, the first large-scale multimodal alignment probing benchmark, to detect the vital linguistic components, e.g., lexical, semantic, and syntax knowledge, containing four tasks: Semantic structure, Negation logic, Attribute ownership, and Relationship composition. Based on our proposed probing benchmarks, our holistic analyses of five advanced VLP models illustrate that the VLP model: i) shows insensitivity towards complex syntax structures and relies on content words for sentence comprehension; ii) demonstrates limited comprehension of combinations between sentences and negations; iii) faces challenges in determining the presence of actions or spatial relationships within visual information and struggles with verifying the correctness of triple combinations. We make our benchmark and code available at \url{this https URL}.

 

멀티미디어 커뮤니티는 지각하는 것에 상당한 관심을 보였다 다중 모드 사전 훈련 신경망으로 물리적 세계를 표현합니다 모델, 그리고 그 중에서, 시각 언어 관련(VLP)은, 현재 가장 매혹적인 주제. 그러나, 그것을 위해 헌신한 노력은 거의 없었다 1) 필수적인 언어 지식(예: 의미론 및 구문)은 VLP 동안 추출될 수 있으며, 2) 그러한 언어적 지식은 어떻게 추출될 수 있는가 멀티모달 정렬에 영향을 미치거나 향상시킵니다. 이에 대응하여, 여기서 우리는 의미론을 포함한 포괄적인 언어 지식의 영향을 설명하다 표현 및 구문 구조, 멀티모달 정렬. 구체적으로 저희가 최초의 대규모 멀티모달 정렬인 SNARE 설계 및 출시 탐색 벤치마크, 어휘와 같은 중요한 언어 구성 요소를 감지합니다, 의미론적 지식과 구문적 지식은 다음과 같은 네 가지 과제를 포함한다: 의미 구조, 부정 논리, 속성 소유권 및 관계 구성. 우리의 기준으로 제안된 탐색 벤치마크, 다섯 가지 고급 VLP 모델에 대한 우리의 전체적인 분석 VLP 모델: i) 복잡한 구문에 대한 둔감함을 보여주는 것을 설명합니다 문장 이해를 위해 구조와 내용 단어에 의존; ii) 문장 간의 조합에 대한 제한된 이해를 보여준다 부정; iii) 조치의 존재를 결정하는 데 있어 어려움에 직면한다 스파시각적 정보 내의 tial 관계와 검증에 어려움을 겪습니다 삼중 결합의 정확성. 우리는 벤치마크와 코드를 만듭니다 \url{this https URL}에서 사용할 수 있습니다. 

 

 

MultiPA: a multi-task speech pronunciation assessment system for a closed and open response scenario

 

The design of automatic speech pronunciation assessment can be categorized into closed and open response scenarios, each with strengths and limitations. A system with the ability to function in both scenarios can cater to diverse learning needs and provide a more precise and holistic assessment of pronunciation skills. In this study, we propose a Multi-task Pronunciation Assessment model called MultiPA. MultiPA provides an alternative to Kaldi-based systems in that it has simpler format requirements and better compatibility with other neural network models. Compared with previous open response systems, MultiPA provides a wider range of evaluations, encompassing assessments at both the sentence and word-level. Our experimental results show that MultiPA achieves comparable performance when working in closed response scenarios and maintains more robust performance when directly used for open responses.

 

음성발음 자동평가의 설계를 분류할 수 있다 각각의 강점과 한계가 있는 폐쇄적이고 개방적인 반응 시나리오로. a 두 시나리오 모두에서 기능할 수 있는 시스템은 다양한 서비스를 제공할 수 있습니다 학습 요구와 보다 정확하고 총체적인 평가를 제공한다 발음 기술. 본 연구에서는 다중 작업 발음을 제안한다 MultiPA라는 평가 모델입니다. MultiPA는 Kaldi 기반의 대안을 제공합니다 포맷 요구사항이 더 간단하고 호환성이 더 좋다는 점에서 시스템 다른 신경망 모델과 함께. 이전의 개방형 응답 시스템과 비교하면, MultiPA는 두 가지 평가를 모두 포함하여 더 넓은 범위의 평가를 제공합니다 문장과 단어 수준. 우리의 실험 결과는 MultiPA가 폐쇄 응답 시나리오에서 작업할 때와 유사한 성능을 달성합니다 개방형 응답에 직접 사용할 경우 더욱 강력한 성능을 유지합니다. 

 

 

Mind vs. Mouth: On Measuring Re-judge Inconsistency of Social Bias in Large Language Models

 

Recent researches indicate that Pre-trained Large Language Models (LLMs) possess cognitive constructs similar to those observed in humans, prompting researchers to investigate the cognitive aspects of LLMs. This paper focuses on explicit and implicit social bias, a distinctive two-level cognitive construct in psychology. It posits that individuals' explicit social bias, which is their conscious expression of bias in the statements, may differ from their implicit social bias, which represents their unconscious bias. We propose a two-stage approach and discover a parallel phenomenon in LLMs known as "re-judge inconsistency" in social bias. In the initial stage, the LLM is tasked with automatically completing statements, potentially incorporating implicit social bias. However, in the subsequent stage, the same LLM re-judges the biased statement generated by itself but contradicts it. We propose that this re-judge inconsistency can be similar to the inconsistency between human's unaware implicit social bias and their aware explicit social bias. Experimental investigations on ChatGPT and GPT-4 concerning common gender biases examined in psychology corroborate the highly stable nature of the re-judge inconsistency. This finding may suggest that diverse cognitive constructs emerge as LLMs' capabilities strengthen. Consequently, leveraging psychological theories can provide enhanced insights into the underlying mechanisms governing the expressions of explicit and implicit constructs in LLMs.

 

최근의 연구에 따르면 사전 훈련된 큰 언어 모델(LLM)이 있다 인간에서 관찰되는 것과 유사한 인지 구조를 가지고 있어, 유발한다 LLM의 인지적 측면을 조사하기 위한 연구자들. 이 논문은 에 초점을 맞춘다 명시적이고 암묵적인 사회적 편견, 독특한 2단계 인지 구조 심리학에 있어서. 그것은 개인의 명백한 사회적 편견, 즉 그들의 것을 상정한다 진술에서 편견의 의식적 표현은 암묵적인 것과 다를 수 있다 그들의 무의식적인 편견을 나타내는 사회적 편견. 우리는 2단계를 제안한다 "재판단"으로 알려진 LLM에서 유사한 현상을 발견하고 접근한다 사회적 편견의 비일관성" 초기 단계에서 LLM은 다음과 같은 임무를 수행합니다 자동으로 진술을 완료하고 잠재적으로 암묵적인 사회적 관계를 통합합니다 편견. 그러나 다음 단계에서는 동일한 LLM이 편향된 사람을 다시 판단합니다 문장은 자체적으로 생성되지만 모순됩니다. 우리는 이 재판을 다시 할 것을 제안한다 불일치는 인간의 인식하지 못하는 것 사이의 불일치와 유사할 수 있다 암묵적인 사회적 편견과 그들의 인식하는 명백한 사회적 편견. 실험적 일반적인 성 편견에 대한 ChatGPT 및 GPT-4에 대한 조사 심리학은 반복적인 불일치의 매우 안정적인 특성을 확증한다. 이 연구결과는 다양한 인지구조가 LLMs로 나타남을 시사할 수 있다 역량이 강화되다. 결과적으로 심리학 이론을 활용하면 그것을 지배하는 근본적인 메커니즘에 대한 향상된 통찰력을 제공한다 LLM의 명시적 및 암묵적 구성의 표현식입니다. 

 

 

반응형

댓글