본문 바로가기
오늘의 자연어 처리

[2023-12-02] 오늘의 자연어처리

by 지환이아빠 2023. 12. 2.
반응형

CoRec: An Easy Approach for Coordination Recognition

 

Abstract:In this paper, we observe and address the challenges of the coordination recognition task. Most existing methods rely on syntactic parsers to identify the coordinators in a sentence and detect the coordination boundaries. However, state-of-the-art syntactic parsers are slow and suffer from errors, especially for long and complicated sentences. To better solve the problems, we propose a pipeline model COordination RECognizer (CoRec). It consists of two components: coordinator identifier and conjunct boundary detector. The experimental results on datasets from various domains demonstrate the effectiveness and efficiency of the proposed method. Further experiments show that CoRec positively impacts downstream tasks, improving the yield of state-of-the-art Open IE models.

 

추상화:본 논문에서는 조정 인식 작업의 과제를 관찰하고 해결한다. 기존의 대부분의 방법은 구문 분석기에 의존하여 문장 내의 코디네이터를 식별하고 조정 경계를 탐지한다. 그러나 최첨단 구문 구문 분석기는 느리고 특히 길고 복잡한 문장의 경우 오류를 겪는다. 문제를 더 잘 해결하기 위해 파이프라인 모델 CORATION Recognizer(CoRec)를 제안한다. 코디네이터 식별자와 결합 경계 검출기의 두 가지 구성 요소로 구성되어 있습니다. 다양한 도메인의 데이터 세트에 대한 실험 결과는 제안된 방법의 효과와 효율성을 보여준다. 추가 실험은 CoRec이 다운스트림 작업에 긍정적인 영향을 미쳐 최첨단 Open IE 모델의 수율을 향상시킨다는 것을 보여준다. 

 

 

CritiqueLLM: Scaling LLM-as-Critic for Effective and Explainable Evaluation of Large Language Model Generation

 

Abstract:Since the natural language processing (NLP) community started to make large language models (LLMs), such as GPT-4, act as a critic to evaluate the quality of generated texts, most of them only train a critique generation model of a specific scale on specific datasets. We argue that a comprehensive investigation on the key factor of LLM-based evaluation models, such as scaling properties, is lacking, so that it is still inconclusive whether these models have potential to replace GPT-4's evaluation in practical scenarios. In this paper, we propose a new critique generation model called CritiqueLLM, which includes a dialogue-based prompting method for high-quality referenced / reference-free evaluation data. Experimental results show that our model can achieve comparable evaluation performance to GPT-4 especially in system-level correlations, and even outperform GPT-4 in 3 out of 8 tasks in a challenging reference-free setting. We conduct detailed analysis to show promising scaling properties of our model in the quality of generated critiques. We also demonstrate that our generated critiques can act as scalable feedback to directly improve the generation quality of LLMs.

 

추상화:자연어처리(NLP) 커뮤니티는 GPT-4와 같은 대형 언어 모델(LLM)을 생성된 텍스트의 품질을 평가하는 비평가 역할을 하기 시작했기 때문에 대부분 특정 데이터 세트에 대해 특정 규모의 비평 생성 모델만을 훈련시킨다. 스케일링 특성과 같은 LLM 기반 평가 모델의 핵심 요소에 대한 포괄적인 조사가 부족하여 이 모델들이 실제 시나리오에서 GPT-4의 평가를 대체할 가능성이 있는지 여부는 여전히 결론이 나지 않는다고 주장한다. 본 논문에서는 고품질의 참조/무참조 평가 데이터에 대한 대화 기반 촉구 방법을 포함하는 Critic LLM이라는 새로운 비평 생성 모델을 제안한다. 실험 결과는 우리 모델이 특히 시스템 수준 상관 관계에서 GPT-4와 유사한 평가 성능을 달성할 수 있으며, 까다로운 참조 없는 설정에서 8개 작업 중 3개 작업에서 GPT-4를 능가할 수 있음을 보여준다. 생성된 비판의 품질에서 모델의 유망한 스케일링 특성을 보여주기 위해 상세한 분석을 수행한다. 또한 생성된 비판이 LLM의 생성 품질을 직접적으로 향상시키기 위해 확장 가능한 피드백으로 작용할 수 있음을 보여준다. 

 

 

Evaluating the Rationale Understanding of Critical Reasoning in Logical Reading Comprehension

 

Abstract:To precisely evaluate a language model's capability for logical reading comprehension, we present a dataset for testing the understanding of the rationale behind critical reasoning. For questions taken from an existing multiplechoice logical reading comprehension dataset, we crowdsource rationale texts that explain why we should select or eliminate answer options, resulting in 3,003 multiple-choice subquestions that are associated with 943 main questions. Experiments on our dataset show that recent large language models (e.g., InstructGPT) struggle to answer the subquestions even if they are able to answer the main questions correctly. We find that the models perform particularly poorly in answering subquestions written for the incorrect options of the main questions, implying that the models have a limited capability for explaining why incorrect alternatives should be eliminated. These results suggest that our dataset encourages further investigation into the critical reasoning ability of language models while focusing on the elimination process of relevant alternatives.

 

추상화:언어 모델의 논리적 독해 능력을 정확하게 평가하기 위해 비판적 추론의 근거에 대한 이해를 검증하기 위한 데이터 세트를 제시한다. 기존의 객관식 논리 독해 데이터 세트에서 가져온 질문의 경우, 우리가 답변 옵션을 선택하거나 제거해야 하는 이유를 설명하는 근거 텍스트를 크라우드소싱하여 943개의 주요 질문과 관련된 3,003개의 객관식 하위 질문을 생성한다. 데이터 세트에 대한 실험은 최근의 대규모 언어 모델(예: InstructGPT)이 주요 질문에 정확하게 대답할 수 있더라도 하위 질문에 답하는 데 어려움을 겪는다는 것을 보여준다. 우리는 모델이 주요 질문의 잘못된 옵션에 대해 작성된 하위 질문에 답하는 데 특히 저조한 성능을 보인다는 것을 발견했으며, 이는 모델이 잘못된 대안을 제거해야 하는 이유를 설명하는 데 제한된 기능을 가지고 있음을 의미한다. 이러한 결과는 우리의 데이터 세트가 관련 대안의 제거 과정에 초점을 맞추면서 언어 모델의 중요한 추론 능력에 대한 추가 조사를 장려한다는 것을 시사한다. 

 

 

반응형

댓글