본문 바로가기
오늘의 자연어 처리

[2023-12-17] 오늘의 자연어처리

by 지환이아빠 2023. 12. 17.
반응형

ChatGPT for Arabic Grammatical Error Correction

 

Abstract:Recently, large language models (LLMs) fine-tuned to follow human instruction have exhibited significant capabilities in various English NLP tasks. However, their performance in grammatical error correction (GEC) tasks, particularly in non-English languages, remains significantly unexplored. In this paper, we delve into abilities of instruction fine-tuned LLMs in Arabic GEC, a task made complex due to Arabic's rich morphology. Our findings suggest that various prompting methods, coupled with (in-context) few-shot learning, demonstrate considerable effectiveness, with GPT-4 achieving up to $65.49$ F\textsubscript{1} score under expert prompting (approximately $5$ points higher than our established baseline). This highlights the potential of LLMs in low-resource settings, offering a viable approach for generating useful synthetic data for model training. Despite these positive results, we find that instruction fine-tuned models, regardless of their size, significantly underperform compared to fully fine-tuned models of significantly smaller sizes. This disparity highlights a substantial room for improvements for LLMs. Inspired by methods from low-resource machine translation, we also develop a method exploiting synthetic data that significantly outperforms previous models on two standard Arabic benchmarks. Our work sets new SoTA for Arabic GEC, with $72.19\%$ and $73.26$ F$_{1}$ on the 2014 and 2015 QALB datasets, respectively.

 

추상화:최근에는 인간의 지시를 따르도록 미세 조정된 대형 언어 모델(LLM)이 다양한 영어 NLP 작업에서 상당한 능력을 발휘하고 있다. 그러나 문법 오류 수정(GEC) 작업, 특히 영어 이외의 언어에서 그들의 성능은 크게 미개척 상태로 남아 있다. 본 논문에서는 아랍어의 풍부한 형태학으로 인해 복잡해진 과제인 아랍어 GEC에서 미세 조정된 LLM을 지시하는 능력에 대해 알아보았다. 우리의 연구 결과는 (맥락 내) 퓨샷 학습과 함께 다양한 프롬프트 방법이 상당한 효과를 보여주며, GPT-4는 전문가 프롬프트(우리의 확립된 기준선보다 약 $5$ 포인트 높음) 하에서 최대 $65.49$ F\textsubscript{1} 점수를 달성한다는 것을 시사한다. 이는 저자원 환경에서 LLM의 가능성을 강조하여 모델 학습에 유용한 합성 데이터를 생성하기 위한 실행 가능한 접근 방식을 제공한다. 이러한 긍정적인 결과에도 불구하고, 우리는 크기에 관계없이 명령 미세 조정 모델이 상당히 작은 크기의 완전 미세 조정 모델에 비해 성능이 현저히 낮다는 것을 발견했다. 이러한 차이는 LLM에 대한 개선의 여지가 크다는 점을 강조한다. 또한 두 개의 표준 아랍어 벤치마크에서 기존 모델보다 훨씬 우수한 합성 데이터를 활용하는 방법을 개발하고, 저자원 기계 번역의 방법을 기반으로 한다. 우리의 연구는 2014년과 2015년 QALB 데이터 세트에서 각각 $72.19\%$와 $73.26$ F$_{1}$로 아랍어 GEC에 대한 새로운 SoTA를 설정한다. 

 

 

Unraveling Key Factors of Knowledge Distillation

 

Abstract:Knowledge distillation, a technique for model compression and performance enhancement, has gained significant traction in Neural Machine Translation (NMT). However, existing research primarily focuses on empirical applications, and there is a lack of comprehensive understanding of how student model capacity, data complexity, and decoding strategies collectively influence distillation effectiveness. Addressing this gap, our study conducts an in-depth investigation into these factors, particularly focusing on their interplay in word-level and sequence-level distillation within NMT. Through extensive experimentation across datasets like IWSLT13 En$\rightarrow$Fr, IWSLT14 En$\rightarrow$De, and others, we empirically validate hypotheses related to the impact of these factors on knowledge distillation. Our research not only elucidates the significant influence of model capacity, data complexity, and decoding strategies on distillation effectiveness but also introduces a novel, optimized distillation approach. This approach, when applied to the IWSLT14 de$\rightarrow$en translation task, achieves state-of-the-art performance, demonstrating its practical efficacy in advancing the field of NMT.

 

추상화:NMT(Neural Machine Translation)는 모델 압축 및 성능 향상을 위한 기술인 지식 증류(knowledge distruption)를 통해 상당한 견인력을 얻었다. 그러나 기존의 연구는 주로 실증적인 응용에 초점을 맞추고 있으며, 학생 모델 용량, 데이터 복잡도, 디코딩 전략이 증류 효과에 집단적으로 어떤 영향을 미치는지에 대한 포괄적인 이해가 부족하다. 이러한 격차를 해결하기 위해 본 연구는 특히 NMT 내에서 단어 수준 및 시퀀스 수준 증류에서의 상호 작용에 초점을 맞추어 이러한 요인에 대한 심층 조사를 수행한다. IWSLT13 En$\rightarrow$Fr, IWSLT14 En$\rightarrow$De 등의 데이터 세트 전반에 걸친 광범위한 실험을 통해, 우리는 이러한 요인들이 지식 증류에 미치는 영향과 관련된 가설들을 실증적으로 검증한다. 우리의 연구는 모델 용량, 데이터 복잡성 및 디코딩 전략이 증류 효과에 미치는 중요한 영향을 설명할 뿐만 아니라 새로운 최적화된 증류 접근법을 소개한다. 이 접근법은 IWSLT14 de$\rightarrow$en 번역 작업에 적용될 때 최첨단 성능을 달성하여 NMT 분야를 발전시키는 데 실질적인 효과를 보여준다. 

 

 

The Earth is Flat because...: Investigating LLMs' Belief towards Misinformation via Persuasive Conversation

 

Abstract:Large Language Models (LLMs) encapsulate vast amounts of knowledge but still remain vulnerable to external misinformation. Existing research mainly studied this susceptibility behavior in a single-turn setting. However, belief can change during a multi-turn conversation, especially a persuasive one. Therefore, in this study, we delve into LLMs' susceptibility to persuasive conversations, particularly on factual questions that they can answer correctly. We first curate the Farm (i.e., Fact to Misinform) dataset, which contains factual questions paired with systematically generated persuasive misinformation. Then, we develop a testing framework to track LLMs' belief changes in a persuasive dialogue. Through extensive experiments, we find that LLMs' correct beliefs on factual knowledge can be easily manipulated by various persuasive strategies.

 

추상화:LLM(Large Language Model)은 방대한 양의 지식을 캡슐화하지만 여전히 외부의 잘못된 정보에 취약하다. 기존 연구들은 주로 이러한 감수성 행동을 1회성 환경에서 연구하였다. 그러나 믿음은 특히 설득력 있는 대화, 멀티 턴 대화 중에 바뀔 수 있다. 이에 본 연구에서는 LLM들이 설득력 있는 대화, 특히 그들이 정답을 제시할 수 있는 사실적 질문에 대한 감수성을 탐구한다. 우리는 먼저 체계적으로 생성된 설득력 있는 잘못된 정보와 쌍을 이루는 사실적 질문을 포함하는 Farm(즉, Fact to Ofn) 데이터 세트를 선별한다. 그런 다음 설득력 있는 대화에서 LLM의 믿음 변화를 추적하기 위한 테스트 프레임워크를 개발한다. 광범위한 실험을 통해 사실적 지식에 대한 LLM의 올바른 신념이 다양한 설득 전략에 의해 쉽게 조작될 수 있음을 발견한다. 

 

 

반응형

댓글