본문 바로가기
오늘의 자연어 처리

[2023-10-04] 오늘의 자연어처리

by 지환이아빠 2023. 10. 4.
반응형

UltraFeedback: Boosting Language Models with High-quality Feedback

 

Abstract:Reinforcement learning from human feedback (RLHF) has become a pivot technique in aligning large language models (LLMs) with human preferences. In RLHF practice, preference data plays a crucial role in bridging human proclivity and LLMs. However, the scarcity of diverse, naturalistic datasets of human preferences on LLM outputs at scale poses a great challenge to RLHF as well as feedback learning research within the open-source community. Current preference datasets, either proprietary or limited in size and prompt variety, result in limited RLHF adoption in open-source models and hinder further exploration. In this study, we propose ULTRAFEEDBACK, a large-scale, high-quality, and diversified preference dataset designed to overcome these limitations and foster RLHF development. To create ULTRAFEEDBACK, we compile a diverse array of instructions and models from multiple sources to produce comparative data. We meticulously devise annotation instructions and employ GPT-4 to offer detailed feedback in both numerical and textual forms. ULTRAFEEDBACK establishes a reproducible and expandable preference data construction pipeline, serving as a solid foundation for future RLHF and feedback learning research. Utilizing ULTRAFEEDBACK, we train various models to demonstrate its effectiveness, including the reward model UltraRM, chat language model UltraLM-13B-PPO, and critique model UltraCM. Experimental results indicate that our models outperform existing open-source models, achieving top performance across multiple benchmarks. Our data and models are available at this https URL.

 

초록:인간 피드백(RLHF)으로부터의 강화 학습은 대형 언어 모델(LLM)을 인간의 선호도에 맞추는 피벗 기법이 되었다. RLHF 실무에서 선호도 데이터는 인간의 성향과 LLM을 연결하는 데 중요한 역할을 한다. 그러나 규모 면에서 LLM 출력에 대한 인간 선호도의 다양하고 자연주의적인 데이터 세트의 희소성은 RLHF와 오픈 소스 커뮤니티 내 피드백 학습 연구에 큰 도전이 된다. 독점적이거나 크기와 신속한 다양성이 제한된 현재 선호 데이터 세트는 오픈 소스 모델에서 RLHF 채택이 제한되고 추가 탐색을 방해한다. 본 연구에서는 UltraFEEDB을 제안한다이러한 한계를 극복하고 RLHF 개발을 촉진하기 위해 설계된 대규모, 고품질, 다양화된 선호 데이터 세트인 ACK. UltraFEEDB를 만들려면ACK, 우리는 비교 데이터를 생성하기 위해 여러 소스의 다양한 명령어 배열과 모델을 컴파일한다. 우리는 주석 지침을 세심하게 고안하고 GPT-4를 사용하여 숫자 및 텍스트 형태로 상세한 피드백을 제공한다. 울트라피드비ACK는 재현 가능하고 확장 가능한 선호 데이터 구축 파이프라인을 구축하여 향후 RLHF 및 피드백 학습 연구를 위한 견고한 기반이 된다. UltraFEEDB 활용ACK는 보상 모델 UltraRM, 채팅 언어 모델 UltraLM-13B-PPO, 비평 모델 UltraCM 등 다양한 모델을 훈련시켜 효과를 입증한다. 실험 결과는 우리의 모델이 기존 오픈 소스 모델보다 성능이 뛰어나 여러 벤치마크에서 최고 성능을 달성한다는 것을 보여준다. 우리의 데이터와 모델은 이 https URL에서 이용 가능합니다. 

 

 

Text Data Augmentation in Low-Resource Settings via Fine-Tuning of Large Language Models

 

Abstract:The in-context learning ability of large language models (LLMs) enables them to generalize to novel downstream tasks with relatively few labeled examples. However, they require enormous computational resources to be deployed. Alternatively, smaller models can solve specific tasks if fine-tuned with enough labeled examples. These examples, however, are expensive to obtain. In pursuit of the best of both worlds, we study the annotation and generation of fine-tuning training data via fine-tuned teacher LLMs to improve the downstream performance of much smaller models. In four text classification and two text generation tasks, we find that both data generation and annotation dramatically improve the respective downstream model's performance, occasionally necessitating only a minor fraction of the original training dataset.

 

초록:대형 언어 모델(LLM)의 맥락 내 학습 능력을 통해 상대적으로 레이블이 지정된 예제가 적은 새로운 다운스트림 작업으로 일반화할 수 있다. 그러나 이들은 배치되는 데 막대한 계산 자원이 필요하다. 대안적으로, 더 작은 모델들은 충분한 라벨이 부착된 예들로 미세 조정될 경우 특정 작업들을 해결할 수 있다. 그러나 이러한 예들은 구하기가 비싸다. 두 세계의 최고를 추구하기 위해, 우리는 훨씬 더 작은 모델의 다운스트림 성능을 향상시키기 위해 미세 조정된 교사 LLM을 통해 미세 조정 훈련 데이터의 주석 및 생성을 연구한다. 4개의 텍스트 분류와 2개의 텍스트 생성 작업에서 데이터 생성과 주석 모두 각각의 다운스트림 모델의 성능을 크게 향상시켜 때로는 원래 훈련 데이터 세트의 극히 일부만 필요로 한다는 것을 발견했다. 

 

 

Learning Deductive Reasoning from Synthetic Corpus based on Formal Logic

 

Abstract:We study a synthetic corpus-based approach for language models (LMs) to acquire logical deductive reasoning ability. The previous studies generated deduction examples using specific sets of deduction rules. However, these rules were limited or otherwise arbitrary. This can limit the generalizability of acquired deductive reasoning ability. We rethink this and adopt a well-grounded set of deduction rules based on formal logic theory, which can derive any other deduction rules when combined in a multistep way. We empirically verify that LMs trained on the proposed corpora, which we name $\textbf{FLD}$ ($\textbf{F}$ormal $\textbf{L}$ogic $\textbf{D}$eduction), acquire more generalizable deductive reasoning ability. Furthermore, we identify the aspects of deductive reasoning ability on which deduction corpora can enhance LMs and those on which they cannot. Finally, on the basis of these results, we discuss the future directions for applying deduction corpora or other approaches for each aspect. We release the code, data, and models.

 

초록:논리적 연역 추론 능력을 얻기 위해 언어 모델(LM)에 대한 합성 코퍼스 기반 접근법을 연구한다. 선행 연구들은 특정한 공제 규칙 집합들을 이용하여 공제 예시들을 생성하였다. 그러나 이 규칙들은 제한적이거나 자의적이었다. 이는 획득된 연역 추론 능력의 일반화 가능성을 제한할 수 있다. 우리는 이를 재고하고 형식 논리 이론에 기초한 근거 있는 공제 규칙 집합을 채택하며, 이는 다단계 방식으로 결합될 때 다른 공제 규칙을 도출할 수 있다. 우리는 $\textbf{라고 하는 제안된 말뭉치에 대해 LM이 훈련되었는지 경험적으로 검증한다FLD}$($\textbf{)F}$일반 $\textbf{L}$ogic $\textbf{D}$공제), 보다 일반화 가능한 연역적 추론 능력을 습득한다. 또한 공제 말뭉치가 LM을 향상시킬 수 있는 연역적 추론 능력과 그렇지 않은 추론 능력의 측면을 파악한다. 마지막으로 이러한 결과를 바탕으로 공제 말뭉치 또는 각 측면별 다른 접근방법을 적용하기 위한 향후 방향에 대해 논의한다. 우리는 코드, 데이터, 모델을 공개한다. 

 

 

반응형

댓글