본문 바로가기
오늘의 자연어 처리

[2023-10-20] 오늘의 자연어처리

by 지환이아빠 2023. 10. 20.
반응형

Evaluating the Symbol Binding Ability of Large Language Models for Multiple-Choice Questions in Vietnamese General Education

 

Abstract:In this paper, we evaluate the ability of large language models (LLMs) to perform multiple choice symbol binding (MCSB) for multiple choice question answering (MCQA) tasks in zero-shot, one-shot, and few-shot settings. We focus on Vietnamese, with fewer challenging MCQA datasets than in English. The two existing datasets, ViMMRC 1.0 and ViMMRC 2.0, focus on literature. Recent research in Vietnamese natural language processing (NLP) has focused on the Vietnamese National High School Graduation Examination (VNHSGE) from 2019 to 2023 to evaluate ChatGPT. However, these studies have mainly focused on how ChatGPT solves the VNHSGE step by step. We aim to create a novel and high-quality dataset by providing structured guidelines for typing LaTeX formulas for mathematics, physics, chemistry, and biology. This dataset can be used to evaluate the MCSB ability of LLMs and smaller language models (LMs) because it is typed in a strict LaTeX style. We focus on predicting the character (A, B, C, or D) that is the most likely answer to a question, given the context of the question. Our evaluation of six well-known LLMs, namely BLOOMZ-7.1B-MT, LLaMA-2-7B, LLaMA-2-70B, GPT-3, GPT-3.5, and GPT-4.0, on the ViMMRC 1.0 and ViMMRC 2.0 benchmarks and our proposed dataset shows promising results on the MCSB ability of LLMs for Vietnamese. The dataset is available for research purposes only.

 

초록:본 논문에서는 제로샷, 원샷 및 퓨샷 설정에서 다중 선택 질문 응답(MCQA) 작업에 대한 다중 선택 기호 바인딩(MCSB)을 수행할 수 있는 대형 언어 모델(LLM)의 능력을 평가한다. 우리는 영어보다 도전적인 MCQA 데이터 세트가 적은 베트남어에 초점을 맞춘다. 기존의 두 데이터 세트인 ViMMRC 1.0과 ViMMRC 2.0은 문헌에 초점을 맞추고 있다. 최근의 베트남 자연어 처리(NLP) 연구는 ChatGPT을 평가하기 위해 2019년부터 2023년까지의 베트남 고등학교 졸업시험(VNHSGE)에 초점을 맞추고 있다. 그러나 이러한 연구들은 주로 ChatGPT가 VNHSGE를 단계적으로 해결하는 방법에 초점을 맞추어 왔다. 수학, 물리학, 화학 및 생물학에 대한 LaTeX 공식을 입력하기 위한 구조화된 지침을 제공하여 새롭고 고품질 데이터 세트를 만드는 것을 목표로 한다. 이 데이터 세트는 엄격한 LaTeX 스타일로 타이핑되기 때문에 LLM 및 더 작은 언어 모델(LM)의 MCSB 능력을 평가하는 데 사용될 수 있다. 우리는 질문의 맥락을 고려할 때 질문에 대한 가장 가능성이 높은 대답인 문자(A, B, C 또는 D)를 예측하는 데 초점을 맞춘다. ViMMRC 1.0 및 ViMMRC 2.0 벤치마크에서 BLOMZ-7.1B-MT, LLAMA-2-7B, LLAMA-2-70B, GPT-3.5 및 GPT-4.0 등 6개의 잘 알려진 LLM에 대한 평가와 제안된 데이터 세트는 베트남어에 대한 LLM의 MCSB 능력에 대한 유망한 결과를 보여준다. 이 데이터 세트는 연구 목적으로만 사용할 수 있다. 

 

 

Concept-Guided Chain-of-Thought Prompting for Pairwise Comparison Scaling of Texts with Large Language Models

 

Abstract:Existing text scaling methods often require a large corpus, struggle with short texts, or require labeled data. We develop a text scaling method that leverages the pattern recognition capabilities of generative large language models (LLMs). Specifically, we propose concept-guided chain-of-thought (CGCoT), which uses prompts designed to summarize ideas and identify target parties in texts to generate concept-specific breakdowns, in many ways similar to guidance for human coder content analysis. CGCoT effectively shifts pairwise text comparisons from a reasoning problem to a pattern recognition problem. We then pairwise compare concept-specific breakdowns using an LLM. We use the results of these pairwise comparisons to estimate a scale using the Bradley-Terry model. We use this approach to scale affective speech on Twitter. Our measures correlate more strongly with human judgments than alternative approaches like Wordfish. Besides a small set of pilot data to develop the CGCoT prompts, our measures require no additional labeled data and produce binary predictions comparable to a RoBERTa-Large model fine-tuned on thousands of human-labeled tweets. We demonstrate how combining substantive knowledge with LLMs can create state-of-the-art measures of abstract concepts.

 

초록:기존의 텍스트 스케일링 방법들은 종종 큰 코퍼스를 필요로 하거나, 짧은 텍스트와 씨름하거나, 라벨링된 데이터를 필요로 한다. 생성 대형 언어 모델(LLM)의 패턴 인식 기능을 활용하는 텍스트 스케일링 방법을 개발한다. 구체적으로, 우리는 인간 코더 콘텐츠 분석을 위한 지침과 유사한 방식으로, 아이디어를 요약하고 텍스트에서 대상 당사자를 식별하도록 설계된 프롬프트를 사용하여 개념별 분해를 생성하는 개념 유도 사고 사슬(CGCoT)을 제안한다. CGCoT는 쌍별 텍스트 비교를 추론 문제에서 패턴 인식 문제로 효과적으로 전환한다. 그런 다음 LLM을 사용하여 개념별 분해를 쌍별로 비교한다. 이러한 쌍대 비교 결과를 이용하여 Bradley-Terry 모형을 이용하여 규모를 추정한다. 우리는 이 접근법을 사용하여 트위터에서 정의적 발언을 확장한다. 우리의 조치는 워드피쉬와 같은 대안적 접근보다 인간의 판단과 더 강하게 연관된다. CGCoT 프롬프트를 개발하기 위한 작은 파일럿 데이터 세트 외에도, 우리의 조치는 추가 레이블링된 데이터가 필요 없으며 수천 개의 인간 레이블링된 트윗에 미세 조정된 Roberta-Large 모델에 버금가는 이진 예측을 생성한다. 우리는 실질적인 지식을 LLM과 결합하면 추상적 개념의 최첨단 측정을 만들 수 있다는 것을 보여준다. 

 

 

Grounded and Well-rounded: A Methodological Approach to the Study of Cross-modal and Cross-lingual Grounding

 

Abstract:Grounding has been argued to be a crucial component towards the development of more complete and truly semantically competent artificial intelligence systems. Literature has divided into two camps: While some argue that grounding allows for qualitatively different generalizations, others believe it can be compensated by mono-modal data quantity. Limited empirical evidence has emerged for or against either position, which we argue is due to the methodological challenges that come with studying grounding and its effects on NLP systems. In this paper, we establish a methodological framework for studying what the effects are - if any - of providing models with richer input sources than text-only. The crux of it lies in the construction of comparable samples of populations of models trained on different input modalities, so that we can tease apart the qualitative effects of different input sources from quantifiable model performances. Experiments using this framework reveal qualitative differences in model behavior between cross-modally grounded, cross-lingually grounded, and ungrounded models, which we measure both at a global dataset level as well as for specific word representations, depending on how concrete their semantics is.

 

초록:보다 완벽하고 의미론적으로 유능한 인공지능 시스템을 개발하기 위한 중요한 요소가 기초라고 주장되어 왔다. 문학은 두 개의 진영으로 나뉜다: 어떤 이들은 접지가 질적으로 다른 일반화를 허용한다고 주장하지만, 다른 이들은 그것이 모노-모달 데이터 양으로 보상될 수 있다고 믿는다. 두 입장 중 하나에 대한 제한된 경험적 증거가 나타났는데, 이는 접지 연구와 NLP 시스템에 미치는 영향에 따른 방법론적 난제 때문이라고 주장한다. 본 논문에서는 텍스트 전용보다 더 풍부한 입력 소스를 제공하는 모델의 효과(있는 경우)를 연구하기 위한 방법론적 프레임워크를 설정한다. 그것의 핵심은 우리가 정량화 가능한 모델 성능에서 다른 입력 소스의 질적 효과를 구분할 수 있도록 다른 입력 양식에 대해 훈련된 모델 모집단의 비교 가능한 샘플을 구성하는 데 있다. 이 프레임워크를 사용한 실험은 모델의 의미론이 얼마나 구체적인지에 따라 전역 데이터 세트 수준뿐만 아니라 특정 단어 표현의 경우에도 측정하는 교차 모델, 교차 언어 접지 모델 및 비접지 모델 간의 모델 행동의 질적 차이를 보여준다. 

 

 

반응형

댓글