본문 바로가기
오늘의 자연어 처리

[2023-10-26] 오늘의 자연어처리

by 지환이아빠 2023. 10. 26.
반응형

MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning

 

Abstract:While large language models (LLMs) equipped with techniques like chain-of-thought prompting have demonstrated impressive capabilities, they still fall short in their ability to reason robustly in complex settings. However, evaluating LLM reasoning is challenging because system capabilities continue to grow while benchmark datasets for tasks like logical deduction have remained static. We introduce MuSR, a dataset for evaluating language models on multistep soft reasoning tasks specified in a natural language narrative. This dataset has two crucial features. First, it is created through a novel neurosymbolic synthetic-to-natural generation algorithm, enabling the construction of complex reasoning instances that challenge GPT-4 (e.g., murder mysteries roughly 1000 words in length) and which can be scaled further as more capable LLMs are released. Second, our dataset instances are free text narratives corresponding to real-world domains of reasoning; this makes it simultaneously much more challenging than other synthetically-crafted benchmarks while remaining realistic and tractable for human annotators to solve with high accuracy. We evaluate a range of LLMs and prompting techniques on this dataset and characterize the gaps that remain for techniques like chain-of-thought to perform robust reasoning.

 

초록:연쇄 사고 촉진과 같은 기술을 갖춘 대형 언어 모델(LLM)이 인상적인 능력을 보여주었지만, 복잡한 환경에서 강력한 추론 능력에는 여전히 미치지 못한다. 그러나 논리적 추론과 같은 작업에 대한 벤치마크 데이터 세트는 정적으로 유지된 반면 시스템 기능은 계속 증가하기 때문에 LLM 추론을 평가하는 것은 어렵다. 자연어 서술에 명시된 다단계 소프트 추론 작업에 대한 언어 모델 평가 데이터 세트인 MuSR을 소개한다. 이 데이터 세트에는 두 가지 중요한 특징이 있다. 첫째, 새로운 신경기호 합성-자연 생성 알고리즘을 통해 개발되어 GPT-4에 도전하는 복잡한 추론 인스턴스(예: 살인 미스터리의 길이가 약 1000단어)의 구축이 가능하며, 보다 유능한 LLM이 출시될수록 더욱 확장될 수 있다. 둘째, 우리의 데이터 세트 인스턴스는 실제 추론 영역에 해당하는 자유로운 텍스트 서술이다. 이는 인간 주석자가 높은 정확도로 해결하기에 현실적이고 다루기 쉬운 상태를 유지하면서 합성적으로 제작된 다른 벤치마크보다 훨씬 더 도전적이다. 우리는 이 데이터 세트에서 다양한 LLM과 촉진 기술을 평가하고 강력한 추론을 수행하기 위해 연쇄적 사고와 같은 기술에 대해 남아 있는 공백을 특성화한다. 

 

 

BLESS: Benchmarking Large Language Models on Sentence Simplification

 

Abstract:We present BLESS, a comprehensive performance benchmark of the most recent state-of-the-art large language models (LLMs) on the task of text simplification (TS). We examine how well off-the-shelf LLMs can solve this challenging task, assessing a total of 44 models, differing in size, architecture, pre-training methods, and accessibility, on three test sets from different domains (Wikipedia, news, and medical) under a few-shot setting. Our analysis considers a suite of automatic metrics as well as a large-scale quantitative investigation into the types of common edit operations performed by the different models. Furthermore, we perform a manual qualitative analysis on a subset of model outputs to better gauge the quality of the generated simplifications. Our evaluation indicates that the best LLMs, despite not being trained on TS, perform comparably with state-of-the-art TS baselines. Additionally, we find that certain LLMs demonstrate a greater range and diversity of edit operations. Our performance benchmark will be available as a resource for the development of future TS methods and evaluation metrics.

 

초록:텍스트 단순화(TS) 작업에 대한 최신 최첨단 대형 언어 모델(LLM)의 포괄적 성능 벤치마크인 BLESS를 제시한다. 우리는 다양한 도메인(위키피디아, 뉴스 및 의료)의 세 가지 테스트 세트에서 크기, 아키텍처, 사전 교육 방법 및 접근성이 다른 총 44개 모델을 평가하여 기성 LLM이 이 어려운 작업을 얼마나 잘 해결할 수 있는지 조사한다. 우리의 분석은 다양한 모델이 수행하는 공통 편집 작업 유형에 대한 대규모 정량적 조사뿐만 아니라 자동 메트릭 세트를 고려한다. 또한 생성된 단순화의 품질을 더 잘 측정하기 위해 모델 출력의 하위 집합에 대해 수동 정성 분석을 수행한다. 우리의 평가는 TS에서 훈련되지 않았음에도 불구하고 최고의 LLM이 최첨단 TS 기준선과 동등한 성능을 발휘한다는 것을 보여준다. 또한, 우리는 특정 LLM이 편집 작업의 더 큰 범위와 다양성을 보여준다는 것을 발견했다. 우리의 성능 벤치마크는 향후 TS 방법 및 평가 지표 개발을 위한 자원으로 이용 가능할 것이다. 

 

 

This is not a Dataset: A Large Negation Benchmark to Challenge Large Language Models

 

Abstract:Although large language models (LLMs) have apparently acquired a certain level of grammatical knowledge and the ability to make generalizations, they fail to interpret negation, a crucial step in Natural Language Processing. We try to clarify the reasons for the sub-optimal performance of LLMs understanding negation. We introduce a large semi-automatically generated dataset of circa 400,000 descriptive sentences about commonsense knowledge that can be true or false in which negation is present in about 2/3 of the corpus in different forms. We have used our dataset with the largest available open LLMs in a zero-shot approach to grasp their generalization and inference capability and we have also fine-tuned some of the models to assess whether the understanding of negation can be trained. Our findings show that, while LLMs are proficient at classifying affirmative sentences, they struggle with negative sentences and lack a deep understanding of negation, often relying on superficial cues. Although fine-tuning the models on negative sentences improves their performance, the lack of generalization in handling negation is persistent, highlighting the ongoing challenges of LLMs regarding negation understanding and generalization. The dataset and code are publicly available.

 

초록:대형 언어 모델(LLM)은 일정 수준의 문법 지식과 일반화 능력을 습득한 것으로 보이지만 자연어 처리의 중요한 단계인 부정을 해석하는 데 실패한다. 부정을 이해하는 LLM의 최적 성능이 떨어지는 이유를 명확히 하려고 한다. 우리는 다양한 형태로 코퍼스의 약 2/3에 부정이 존재하는 참이거나 거짓일 수 있는 상식적 지식에 대한 약 400,000개의 반자동 생성된 대규모 데이터 세트를 소개한다. 우리는 사용 가능한 개방형 LLM이 가장 큰 데이터 세트를 제로샷 접근 방식으로 사용하여 일반화 및 추론 능력을 파악했으며, 또한 일부 모델을 미세 조정하여 부정에 대한 이해를 훈련할 수 있는지 여부를 평가했다. 우리의 연구 결과는 LLM이 긍정적인 문장을 분류하는 데 능숙하지만 부정적인 문장에 어려움을 겪고 부정에 대한 깊은 이해가 부족하며 종종 표면적인 단서에 의존한다는 것을 보여준다. 부정적인 문장에 대한 모델의 미세 조정은 성능을 향상시키지만, 부정을 처리하는 데 있어 일반화의 부족은 지속적이며, 부정 이해 및 일반화와 관련된 LLM의 지속적인 과제를 강조한다. 데이터 세트와 코드는 공개적으로 이용할 수 있다. 

 

 

반응형

댓글