본문 바로가기
오늘의 자연어 처리

[2023-12-31] 오늘의 자연어처리

by 지환이아빠 2023. 12. 31.
반응형

Spike No More: Stabilizing the Pre-training of Large Language Models

 

Abstract:The loss spike often occurs during pre-training of a large language model. The spikes degrade the performance of a large language model, and sometimes ruin the pre-training. Since the pre-training needs a vast computational budget, we should avoid such spikes. To investigate a cause of loss spikes, we focus on gradients of internal layers in this study. Through theoretical analyses, we introduce two causes of the exploding gradients, and provide requirements to prevent the explosion. In addition, we introduce the combination of the initialization method and a simple modification to embeddings as a method to satisfy the requirements. We conduct various experiments to verify our theoretical analyses empirically. Experimental results indicate that the combination is effective in preventing spikes during pre-training.

 

추상화:손실 스파이크는 종종 큰 언어 모델의 사전 훈련 중에 발생한다. 스파이크는 큰 언어 모델의 성능을 저하시키고, 때때로 사전 훈련을 망친다. 사전 교육에는 방대한 계산 예산이 필요하기 때문에, 우리는 그러한 급증을 피해야 한다. 손실 스파이크의 원인을 조사하기 위해 본 연구에서는 내부 레이어의 구배에 초점을 맞춘다. 이론적 분석을 통해 폭발 구배의 두 가지 원인을 소개하고 폭발을 방지하기 위한 요구 사항을 제공한다. 또한 요구사항을 만족시키기 위한 방법으로 초기화 방법과 임베딩에 대한 간단한 수정의 조합을 소개한다. 우리는 이론적 분석을 실증적으로 검증하기 위해 다양한 실험을 수행한다. 실험 결과는 이 조합이 사전 훈련 시 스파이크를 예방하는 데 효과적임을 나타낸다. 

 

 

Length Extrapolation of Transformers: A Survey from the Perspective of Position Encoding

 

Abstract:Transformer has taken the natural language processing (NLP) field by storm since birth, owing to its superior ability to model complex dependencies in sequences. Despite the great success of pretrained language models (PLMs) based on Transformer across almost all NLP tasks, they all suffer from a preset length limit and thus can hardly extend this success to longer sequences beyond seen data, namely the length extrapolation problem. Length extrapolation has aroused great interest among researchers, as it is the core feature of human language capacity. To enhance length extrapolation of Transformers, a plethora of methods have been proposed, mostly focusing on extrapolatable position encodings. In this article, we provide an organized and systematical review of these research efforts in a unified notation from a position encoding perspective, aiming to enable the reader to gain a deep understanding of existing methods and provide stimuli for future research.

 

추상화:트랜스포머는 시퀀스의 복잡한 종속성을 모델링할 수 있는 우수한 능력 때문에 태어나면서부터 자연어 처리(NLP) 분야를 개척해 왔다. 거의 모든 NLP 작업에서 트랜스포머 기반 사전 훈련 언어 모델(PLM)의 큰 성공에도 불구하고, 이들은 모두 미리 설정된 길이 제한으로 인해 어려움을 겪기 때문에 이러한 성공을 보이는 데이터 이상의 더 긴 시퀀스, 즉 길이 외삽 문제로 확장할 수 없다. 길이 외삽법은 인간 언어 능력의 핵심적인 특징이기 때문에 연구자들 사이에 큰 관심을 불러일으켰다. 트랜스포머의 길이 외삽을 향상시키기 위해, 대부분 외삽 가능한 위치 부호화에 초점을 맞춘 많은 방법들이 제안되었다. 이 글에서는 이러한 연구 노력을 위치 인코딩 관점에서 통일된 표기로 체계적이고 체계적으로 검토하여 독자가 기존 방법에 대한 깊은 이해를 얻고 향후 연구를 위한 자극을 제공하는 것을 목표로 한다. 

 

 

Improving In-context Learning via Bidirectional Alignment

 

Abstract:Large language models (LLMs) have shown impressive few-shot generalization on many tasks via in-context learning (ICL). Despite their success in showing such emergent abilities, the scale and complexity of larger models also lead to unprecedentedly high computational demands and deployment challenges. In reaction, researchers explore transferring the powerful capabilities of larger models to more efficient and compact models by typically aligning the output of smaller models with that of larger models. Existing methods either train smaller models on the generated outputs of larger models or to imitate their token-level probability distributions. However, these distillation methods pay little to no attention to the input part, which also plays a crucial role in ICL. Based on the finding that the performance of ICL is highly sensitive to the selection of demonstration examples, we propose Bidirectional Alignment (BiAlign) to fully leverage the models' preferences for ICL examples to improve the ICL abilities of smaller models. Specifically, we introduce the alignment of input preferences between smaller and larger models by incorporating a novel ranking loss, in addition to aligning the token-level output distribution. With extensive experiments and analysis, we demonstrate that BiAlign can consistently outperform existing baselines on a variety of tasks including language understanding, reasoning, and coding.

 

추상화:대형 언어 모델(LLM)은 컨텍스트 학습(ICL)을 통해 많은 작업에서 인상적인 퓨샷 일반화를 보여주었다. 이러한 새로운 능력을 보여주는 데 성공했음에도 불구하고, 더 큰 모델의 규모와 복잡성은 전례 없이 높은 계산 요구와 배치 문제를 야기한다. 이에 대응하여 연구자들은 일반적으로 소형 모델의 출력을 대형 모델의 출력과 일치시킴으로써 대형 모델의 강력한 기능을 보다 효율적이고 소형 모델로 이전하는 것을 모색한다. 기존의 방법은 더 큰 모델의 생성된 출력에 대해 더 작은 모델을 훈련시키거나 토큰 수준의 확률 분포를 모방한다. 그러나, 이러한 증류 방법들은 ICL에서도 중요한 역할을 하는 투입 부분에 거의 관심을 기울이지 않다. ICL의 성능이 시연 예제 선택에 매우 민감하다는 결과를 바탕으로, 우리는 더 작은 모델의 ICL 능력을 향상시키기 위해 ICL 예제에 대한 모델의 선호도를 충분히 활용하기 위해 양방향 정렬(BiAlign)을 제안한다. 특히 토큰 수준의 출력 분포를 정렬하는 것 외에도 새로운 순위 손실을 통합하여 더 작은 모델과 더 큰 모델 간의 입력 선호도 정렬을 소개한다. 광범위한 실험과 분석을 통해 BiAlign이 언어 이해, 추론 및 코딩을 포함한 다양한 작업에서 기존 기준선을 지속적으로 능가할 수 있음을 입증한다. 

 

 

반응형

댓글