Zebra: Extending Context Window with Layerwise Grouped Local-Global Attention
Abstract:This paper introduces a novel approach to enhance the capabilities of Large Language Models (LLMs) in processing and understanding extensive text sequences, a critical aspect in applications requiring deep comprehension and synthesis of large volumes of information. Recognizing the inherent challenges in extending the context window for LLMs, primarily built on Transformer architecture, we propose a new model architecture, referred to as Zebra. This architecture efficiently manages the quadratic time and memory complexity issues associated with full attention in the Transformer by employing grouped local-global attention layers. Our model, akin to a zebra's alternating stripes, balances local and global attention layers, significantly reducing computational requirements and memory consumption. Comprehensive experiments, including pretraining from scratch, continuation of long context adaptation training, and long instruction tuning, are conducted to evaluate the Zebra's performance. The results show that Zebra achieves comparable or superior performance on both short and long sequence benchmarks, while also enhancing training and inference efficiency.
추상화:이 논문은 대용량 정보의 깊은 이해와 합성이 필요한 응용 분야에서 중요한 측면인 광범위한 텍스트 시퀀스를 처리하고 이해하는 데 있어 LLM(Large Language Model)의 능력을 향상시키기 위한 새로운 접근 방식을 소개한다. 주로 트랜스포머 아키텍처를 기반으로 구축된 LLM의 컨텍스트 창을 확장하는 데 내재된 어려움을 인식하여 지브라(Zebra)라고 하는 새로운 모델 아키텍처를 제안한다. 이 아키텍처는 그룹화된 로컬-글로벌 어텐션 계층을 사용함으로써 트랜스포머에서 완전한 어텐션과 관련된 2차 시간 및 메모리 복잡성 문제를 효율적으로 관리한다. 얼룩말의 교대 줄무늬와 유사한 우리의 모델은 로컬 및 글로벌 주의 계층의 균형을 유지하여 계산 요구 사항과 메모리 소비를 크게 줄입니다. 지브라의 성능을 평가하기 위해 처음부터 사전 훈련, 긴 맥락 적응 훈련의 지속, 긴 지시 튜닝을 포함한 종합적인 실험을 실시한다. 결과는 지브라가 짧은 시퀀스 벤치마크와 긴 시퀀스 벤치마크 모두에서 유사하거나 우수한 성능을 달성하는 동시에 훈련 및 추론 효율성을 향상시킨다는 것을 보여준다.
TinyGSM: achieving >80% on GSM8k with small language models
Abstract:Small-scale models offer various computational advantages, and yet to which extent size is critical for problem-solving abilities remains an open question. Specifically for solving grade school math, the smallest model size so far required to break the 80\% barrier on the GSM8K benchmark remains to be 34B. Our work studies how high-quality datasets may be the key for small language models to acquire mathematical reasoning. We introduce \texttt{TinyGSM}, a synthetic dataset of 12.3M grade school math problems paired with Python solutions, generated fully by GPT-3.5. After finetuning on \texttt{TinyGSM}, we find that a duo of a 1.3B generation model and a 1.3B verifier model can achieve 81.5\% accuracy, outperforming existing models that are orders of magnitude larger. This also rivals the performance of the GPT-3.5 ``teacher'' model (77.4\%), from which our model's training data is generated. Our approach is simple and has two key components: 1) the high-quality dataset \texttt{TinyGSM}, 2) the use of a verifier, which selects the final outputs from multiple candidate generations.
추상화:소규모 모델은 다양한 계산적 이점을 제공하지만, 문제 해결 능력에 어느 정도 크기가 중요한지는 여전히 미해결 문제로 남아 있다. 특히 초등학교 수학을 해결하기 위해 GSM8K 벤치마크의 80\% 장벽을 깨는 데 필요한 지금까지 가장 작은 모델 크기는 34B입니다. 우리의 연구는 고품질 데이터 세트가 작은 언어 모델이 수학적 추론을 획득하는 열쇠가 될 수 있는 방법을 연구한다. 우리는 \texttt을 소개합니다12개의 합성 데이터 세트인 {TinyGSM}.Python 솔루션과 짝을 이루는 3M 학년 수학 문제, GPT-3.5에 의해 완전히 생성되었다. \texttt에서 미세 조정한 후{TinyGSM}, 저희는 1.3B 생성 모델과 1.3B 검증 모델의 듀오가 81.5\%의 정확도를 달성할 수 있으며, 기존 모델보다 훨씬 더 큰 모델을 능가한다는 것을 발견했습니다. 이는 또한 우리 모델의 훈련 데이터가 생성되는 GPT-3.5 "교사" 모델(77.4\%)의 성능과 필적한다. 우리의 접근 방식은 간단하고 두 가지 주요 구성 요소를 가지고 있다: 1) 고품질 데이터 세트 \texttt{TinyGSM}, 2) 검증기를 사용하여 여러 후보 세대에서 최종 출력을 선택한다.
The Earth is Flat because...: Investigating LLMs' Belief towards Misinformation via Persuasive Conversation
Abstract:Large Language Models (LLMs) encapsulate vast amounts of knowledge but still remain vulnerable to external misinformation. Existing research mainly studied this susceptibility behavior in a single-turn setting. However, belief can change during a multi-turn conversation, especially a persuasive one. Therefore, in this study, we delve into LLMs' susceptibility to persuasive conversations, particularly on factual questions that they can answer correctly. We first curate the Farm (i.e., Fact to Misinform) dataset, which contains factual questions paired with systematically generated persuasive misinformation. Then, we develop a testing framework to track LLMs' belief changes in a persuasive dialogue. Through extensive experiments, we find that LLMs' correct beliefs on factual knowledge can be easily manipulated by various persuasive strategies.
추상화:LLM(Large Language Model)은 방대한 양의 지식을 캡슐화하지만 여전히 외부의 잘못된 정보에 취약하다. 기존 연구들은 주로 이러한 감수성 행동을 1회성 환경에서 연구하였다. 그러나 믿음은 특히 설득력 있는 대화, 멀티 턴 대화 중에 바뀔 수 있다. 이에 본 연구에서는 LLM들이 설득력 있는 대화, 특히 그들이 정답을 제시할 수 있는 사실적 질문에 대한 감수성을 탐구한다. 우리는 먼저 체계적으로 생성된 설득력 있는 잘못된 정보와 쌍을 이루는 사실적 질문을 포함하는 Farm(즉, Fact to Ofn) 데이터 세트를 선별한다. 그런 다음 설득력 있는 대화에서 LLM의 믿음 변화를 추적하기 위한 테스트 프레임워크를 개발한다. 광범위한 실험을 통해 사실적 지식에 대한 LLM의 올바른 신념이 다양한 설득 전략에 의해 쉽게 조작될 수 있음을 발견한다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-12-20] 오늘의 자연어처리 (0) | 2023.12.20 |
---|---|
[2023-12-19] 오늘의 자연어처리 (0) | 2023.12.19 |
[2023-12-17] 오늘의 자연어처리 (1) | 2023.12.17 |
[2023-12-16] 오늘의 자연어처리 (0) | 2023.12.16 |
[2023-12-13] 오늘의 자연어처리 (0) | 2023.12.13 |
댓글