본문 바로가기
오늘의 자연어 처리

[2023-10-11] 오늘의 자연어처리

by 지환이아빠 2023. 10. 11.
반응형

The Program Testing Ability of Large Language Models for Code

 

Abstract:Recent development of large language models (LLMs) for code like CodeX and CodeT5+ demonstrates tremendous promise in achieving code intelligence. Their ability of synthesizing code that completes a program for performing a pre-defined task has been intensively tested and verified on benchmark datasets including HumanEval and MBPP. Yet, evaluation of these LLMs from more perspectives (than just program synthesis) is also anticipated, considering their broad scope of applications in software engineering. In this paper, we explore the ability of LLMs for testing programs/code. By performing thorough analyses of recent LLMs for code in program testing, we show a series of intriguing properties of these models and demonstrate how program testing ability of LLMs can be improved. Following recent work which utilizes generated test cases to enhance program synthesis, we further leverage our findings in improving the quality of the synthesized programs and show +11.77% and +4.22% higher code pass rates on HumanEval+ comparing with the GPT-3.5-turbo baseline and the recent state-of-the-art, respectively.

 

초록:CodeX 및 CodeT5+와 같은 코드를 위한 LLM(Large Language Model)의 최근 개발은 코드 인텔리전스를 달성하는 데 있어 엄청난 가능성을 보여준다. 미리 정의된 작업을 수행하기 위한 프로그램을 완성하는 코드를 합성하는 능력은 HumanEval과 MBPP를 포함한 벤치마크 데이터 세트에서 집중적으로 테스트되고 검증되었다. 그러나, 소프트웨어 공학에서의 적용 범위가 넓다는 점을 고려할 때, (단순히 프로그램 합성이 아닌) 더 많은 관점에서 이러한 LLM에 대한 평가도 기대된다. 본 논문에서는 프로그램/코드 테스트를 위한 LLM의 능력을 탐구한다. 프로그램 테스트에서 코드에 대한 최근 LLM의 철저한 분석을 수행함으로써 이러한 모델의 일련의 흥미로운 특성을 보여주고 LLM의 프로그램 테스트 능력이 어떻게 향상될 수 있는지 보여준다. 생성된 테스트 사례를 활용하여 프로그램 합성을 향상시킨 최근의 연구에 이어, 우리는 합성된 프로그램의 품질을 향상시키는 데 우리의 연구 결과를 더욱 활용하고, GPT-3.5 터보 기준 및 최신 기술과 비교하여 HumanEval+에서 각각 +11.77%와 +4.22% 더 높은 코드 통과율을 보여준다. 

 

 

Aligning Language Models with Human Preferences via a Bayesian Approach

 

Abstract:In the quest to advance human-centric natural language generation (NLG) systems, ensuring alignment between NLG models and human preferences is crucial. For this alignment, current popular methods leverage a reinforcement learning (RL) approach with a reward model trained on feedback from humans. However, inherent disagreements due to the subjective nature of human preferences pose a significant challenge for training the reward model, resulting in a deterioration of the NLG performance. To tackle this issue, previous approaches typically rely on majority voting or averaging to consolidate multiple inconsistent preferences into a merged one. Although straightforward to understand and execute, such methods suffer from an inability to capture the nuanced degrees of disaggregation among humans and may only represent a specialized subset of individuals, thereby lacking the ability to quantitatively disclose the universality of human preferences. To address this challenge, this paper proposes a novel approach, which employs a Bayesian framework to account for the distribution of disagreements among human preferences as training a preference model, and names it as d-PM. Besides, considering the RL strategy's inefficient and complex training process over the training efficiency, we further propose utilizing the contrastive learning strategy to train the NLG model with the preference scores derived from the d-PM model. Extensive experiments on two human-centric NLG tasks, i.e., emotional support conversation and integrity "Rule-of-Thumb" generation, show that our method consistently exceeds previous SOTA models in both automatic and human evaluations.

 

초록:인간 중심의 자연어 생성(NLG) 시스템을 발전시키기 위한 시도에서 NLG 모델과 인간 선호도 간의 정렬을 보장하는 것은 중요하다. 이러한 정렬을 위해, 현재 인기 있는 방법은 인간의 피드백에 대해 훈련된 보상 모델과 함께 강화 학습(RL) 접근법을 활용한다. 그러나 인간 선호의 주관적 특성으로 인한 내재적 불일치는 보상 모델을 훈련하는 데 상당한 도전이 되어 NLG 성능의 저하를 초래한다. 이 문제를 해결하기 위해, 기존의 방법들은 일반적으로 다수결 또는 평균화에 의존하여 다수의 불일치 선호를 병합된 선호로 통합한다. 이해하고 실행하기에는 간단하지만, 이러한 방법은 인간 사이의 미묘한 차이를 포착할 수 없고 개인의 특화된 하위 집합만을 나타낼 수 있으므로 인간 선호의 보편성을 정량적으로 나타내는 능력이 부족하다. 이러한 문제를 해결하기 위해 본 논문에서는 베이지안 프레임워크를 사용하여 인간 선호도 간의 불일치 분포를 교육 선호 모델로 설명하고 이를 d-PM이라고 명명하는 새로운 접근법을 제안한다. 또한 훈련 효율성에 대한 RL 전략의 비효율적이고 복잡한 훈련 과정을 고려하여 d-PM 모델에서 도출된 선호 점수로 NLG 모델을 훈련하는 대조 학습 전략을 활용할 것을 추가로 제안한다. 인간 중심의 두 가지 NLG 작업, 즉 감정 지원 대화와 무결성 "Rule-of-Thumb" 세대에 대한 광범위한 실험은 우리의 방법이 자동 및 인간 평가 모두에서 이전의 SOTA 모델을 지속적으로 능가한다는 것을 보여준다. 

 

 

NEFTune: Noisy Embeddings Improve Instruction Finetuning

 

Abstract:We show that language model finetuning can be improved, sometimes dramatically, with a simple augmentation. NEFTune adds noise to the embedding vectors during training. Standard finetuning of LLaMA-2-7B using Alpaca achieves 29.79% on AlpacaEval, which rises to 64.69% using noisy embeddings. NEFTune also improves over strong baselines on modern instruction datasets. Models trained with Evol-Instruct see a 10% improvement, with ShareGPT an 8% improvement, and with OpenPlatypus an 8% improvement. Even powerful models further refined with RLHF such as LLaMA-2-Chat benefit from additional training with NEFTune.

 

초록:우리는 언어 모델 미세 조정이 간단한 확대로 때로는 극적으로 개선될 수 있음을 보여준다. NEFTune은 훈련 중 임베딩 벡터에 노이즈를 추가한다. Alpaca를 사용한 LlaMA-2-7B의 표준 미세 조정은 AlpacaEval에서 29.79%를 달성하며, 노이즈 임베딩을 사용하면 64.69%로 증가한다. NEFTune은 또한 현대적인 명령어 데이터 세트에 대한 강력한 기준선보다 향상된다. Evol-Instrument로 훈련된 모델은 10%, ShareGPT는 8%, OpenPlatypus는 8% 향상되었습니다. LaMA-2-Chat과 같은 RLHF로 더욱 정제된 강력한 모델도 NEF Tune과의 추가 훈련의 혜택을 받는다. 

 

 

반응형

댓글