본문 바로가기
오늘의 자연어 처리

[2023-12-16] 오늘의 자연어처리

by 지환이아빠 2023. 12. 16.
반응형

ChatGPT for Arabic Grammatical Error Correction

 

Abstract:Recently, large language models (LLMs) fine-tuned to follow human instruction have exhibited significant capabilities in various English NLP tasks. However, their performance in grammatical error correction (GEC) tasks, particularly in non-English languages, remains significantly unexplored. In this paper, we delve into abilities of instruction fine-tuned LLMs in Arabic GEC, a task made complex due to Arabic's rich morphology. Our findings suggest that various prompting methods, coupled with (in-context) few-shot learning, demonstrate considerable effectiveness, with GPT-4 achieving up to $65.49$ F\textsubscript{1} score under expert prompting (approximately $5$ points higher than our established baseline). This highlights the potential of LLMs in low-resource settings, offering a viable approach for generating useful synthetic data for model training. Despite these positive results, we find that instruction fine-tuned models, regardless of their size, significantly underperform compared to fully fine-tuned models of significantly smaller sizes. This disparity highlights a substantial room for improvements for LLMs. Inspired by methods from low-resource machine translation, we also develop a method exploiting synthetic data that significantly outperforms previous models on two standard Arabic benchmarks. Our work sets new SoTA for Arabic GEC, with $72.19\%$ and $73.26$ F$_{1}$ on the 2014 and 2015 QALB datasets, respectively.

 

추상화:최근에는 인간의 지시를 따르도록 미세 조정된 대형 언어 모델(LLM)이 다양한 영어 NLP 작업에서 상당한 능력을 발휘하고 있다. 그러나 문법 오류 수정(GEC) 작업, 특히 영어 이외의 언어에서 그들의 성능은 크게 미개척 상태로 남아 있다. 본 논문에서는 아랍어의 풍부한 형태학으로 인해 복잡해진 과제인 아랍어 GEC에서 미세 조정된 LLM을 지시하는 능력에 대해 알아보았다. 우리의 연구 결과는 (맥락 내) 퓨샷 학습과 함께 다양한 프롬프트 방법이 상당한 효과를 보여주며, GPT-4는 전문가 프롬프트(우리의 확립된 기준선보다 약 $5$ 포인트 높음) 하에서 최대 $65.49$ F\textsubscript{1} 점수를 달성한다는 것을 시사한다. 이는 저자원 환경에서 LLM의 가능성을 강조하여 모델 학습에 유용한 합성 데이터를 생성하기 위한 실행 가능한 접근 방식을 제공한다. 이러한 긍정적인 결과에도 불구하고, 우리는 크기에 관계없이 명령 미세 조정 모델이 상당히 작은 크기의 완전 미세 조정 모델에 비해 성능이 현저히 낮다는 것을 발견했다. 이러한 차이는 LLM에 대한 개선의 여지가 크다는 점을 강조한다. 또한 두 개의 표준 아랍어 벤치마크에서 기존 모델보다 훨씬 우수한 합성 데이터를 활용하는 방법을 개발하고, 저자원 기계 번역의 방법을 기반으로 한다. 우리의 연구는 2014년과 2015년 QALB 데이터 세트에서 각각 $72.19\%$와 $73.26$ F$_{1}$로 아랍어 GEC에 대한 새로운 SoTA를 설정한다. 

 

 

TinyGSM: achieving >80% on GSM8k with small language models

 

Abstract:Small-scale models offer various computational advantages, and yet to which extent size is critical for problem-solving abilities remains an open question. Specifically for solving grade school math, the smallest model size so far required to break the 80\% barrier on the GSM8K benchmark remains to be 34B. Our work studies how high-quality datasets may be the key for small language models to acquire mathematical reasoning. We introduce \texttt{TinyGSM}, a synthetic dataset of 12.3M grade school math problems paired with Python solutions, generated fully by GPT-3.5. After finetuning on \texttt{TinyGSM}, we find that a duo of a 1.3B generation model and a 1.3B verifier model can achieve 81.5\% accuracy, outperforming existing models that are orders of magnitude larger. This also rivals the performance of the GPT-3.5 ``teacher'' model (77.4\%), from which our model's training data is generated. Our approach is simple and has two key components: 1) the high-quality dataset \texttt{TinyGSM}, 2) the use of a verifier, which selects the final outputs from multiple candidate generations.

 

추상화:소규모 모델은 다양한 계산적 이점을 제공하지만, 문제 해결 능력에 어느 정도 크기가 중요한지는 여전히 미해결 문제로 남아 있다. 특히 초등학교 수학을 해결하기 위해 GSM8K 벤치마크의 80\% 장벽을 깨는 데 필요한 지금까지 가장 작은 모델 크기는 34B입니다. 우리의 연구는 고품질 데이터 세트가 작은 언어 모델이 수학적 추론을 획득하는 열쇠가 될 수 있는 방법을 연구한다. 우리는 \texttt을 소개합니다12개의 합성 데이터 세트인 {TinyGSM}.Python 솔루션과 짝을 이루는 3M 학년 수학 문제, GPT-3.5에 의해 완전히 생성되었다. \texttt에서 미세 조정한 후{TinyGSM}, 저희는 1.3B 생성 모델과 1.3B 검증 모델의 듀오가 81.5\%의 정확도를 달성할 수 있으며, 기존 모델보다 훨씬 더 큰 모델을 능가한다는 것을 발견했습니다. 이는 또한 우리 모델의 훈련 데이터가 생성되는 GPT-3.5 "교사" 모델(77.4\%)의 성능과 필적한다. 우리의 접근 방식은 간단하고 두 가지 주요 구성 요소를 가지고 있다: 1) 고품질 데이터 세트 \texttt{TinyGSM}, 2) 검증기를 사용하여 여러 후보 세대에서 최종 출력을 선택한다. 

 

 

Zebra: Extending Context Window with Layerwise Grouped Local-Global Attention

 

Abstract:This paper introduces a novel approach to enhance the capabilities of Large Language Models (LLMs) in processing and understanding extensive text sequences, a critical aspect in applications requiring deep comprehension and synthesis of large volumes of information. Recognizing the inherent challenges in extending the context window for LLMs, primarily built on Transformer architecture, we propose a new model architecture, referred to as Zebra. This architecture efficiently manages the quadratic time and memory complexity issues associated with full attention in the Transformer by employing grouped local-global attention layers. Our model, akin to a zebra's alternating stripes, balances local and global attention layers, significantly reducing computational requirements and memory consumption. Comprehensive experiments, including pretraining from scratch, continuation of long context adaptation training, and long instruction tuning, are conducted to evaluate the Zebra's performance. The results show that Zebra achieves comparable or superior performance on both short and long sequence benchmarks, while also enhancing training and inference efficiency.

 

추상화:이 논문은 대용량 정보의 깊은 이해와 합성이 필요한 응용 분야에서 중요한 측면인 광범위한 텍스트 시퀀스를 처리하고 이해하는 데 있어 LLM(Large Language Model)의 능력을 향상시키기 위한 새로운 접근 방식을 소개한다. 주로 트랜스포머 아키텍처를 기반으로 구축된 LLM의 컨텍스트 창을 확장하는 데 내재된 어려움을 인식하여 지브라(Zebra)라고 하는 새로운 모델 아키텍처를 제안한다. 이 아키텍처는 그룹화된 로컬-글로벌 어텐션 계층을 사용함으로써 트랜스포머에서 완전한 어텐션과 관련된 2차 시간 및 메모리 복잡성 문제를 효율적으로 관리한다. 얼룩말의 교대 줄무늬와 유사한 우리의 모델은 로컬 및 글로벌 주의 계층의 균형을 유지하여 계산 요구 사항과 메모리 소비를 크게 줄입니다. 지브라의 성능을 평가하기 위해 처음부터 사전 훈련, 긴 맥락 적응 훈련의 지속, 긴 지시 튜닝을 포함한 종합적인 실험을 실시한다. 결과는 지브라가 짧은 시퀀스 벤치마크와 긴 시퀀스 벤치마크 모두에서 유사하거나 우수한 성능을 달성하는 동시에 훈련 및 추론 효율성을 향상시킨다는 것을 보여준다. 

 

 

반응형

댓글