본문 바로가기
오늘의 자연어 처리

[2023-11-09] 오늘의 자연어처리

by 지환이아빠 2023. 11. 9.
반응형

Beyond Imitation: Leveraging Fine-grained Quality Signals for Alignment

 

Abstract:Alignment with human preference is a desired property of large language models (LLMs). Currently, the main alignment approach is based on reinforcement learning from human feedback (RLHF). Despite the effectiveness of RLHF, it is intricate to implement and train, thus recent studies explore how to develop alternative alignment approaches based on supervised fine-tuning (SFT). A major limitation of SFT is that it essentially does imitation learning, which cannot fully understand what are the expected behaviors. To address this issue, we propose an improved alignment approach named FIGA. Different from prior methods, we incorporate fine-grained (i.e., token or phrase level) quality signals that are derived by contrasting good and bad responses. Our approach has made two major contributions. Firstly, we curate a refined alignment dataset that pairs initial responses and the corresponding revised ones. Secondly, we devise a new loss function can leverage fine-grained quality signals to instruct the learning of LLMs for alignment. Extensive experiments have demonstrated the effectiveness of our approaches by comparing a number of competitive baselines.

 

초록:인간 선호도와의 정렬은 대형 언어 모델(LLM)의 바람직한 특성이다. 현재, 주요 정렬 접근법은 인간 피드백(RLHF)으로부터의 강화 학습을 기반으로 한다. RLHF의 효과에도 불구하고, 구현하고 훈련하는 것은 복잡하므로, 최근의 연구들은 지도 미세 조정(SFT)에 기초한 대체 정렬 접근법을 개발하는 방법을 탐구한다. SFT의 주요 한계는 기본적으로 모방 학습을 한다는 것인데, 이는 예상되는 행동이 무엇인지 완전히 이해할 수 없다는 것이다. 이러한 문제를 해결하기 위해 FIGA라는 개선된 정렬 방법을 제안한다. 이전의 방법과 달리, 우리는 좋은 반응과 나쁜 반응을 대조하여 도출된 미세한(즉, 토큰 또는 구 수준) 품질 신호를 통합한다. 우리의 접근 방식은 크게 두 가지 기여를 했다. 첫째, 초기 응답과 해당 수정된 응답을 쌍으로 구성하는 정제된 정렬 데이터 세트를 큐레이션한다. 둘째로, 우리는 정렬을 위한 LLM의 학습을 지시하기 위해 세분화된 품질 신호를 활용할 수 있는 새로운 손실 함수를 고안한다. 광범위한 실험을 통해 여러 경쟁 기준선을 비교함으로써 접근 방식의 효과를 입증했다. 

 

 

An Analysis of Dialogue Repair in Voice Assistants

 

Abstract:Spoken dialogue systems have transformed human-machine interaction by providing real-time responses to queries. However, misunderstandings between the user and system persist. This study explores the significance of interactional language in dialogue repair between virtual assistants and users by analyzing interactions with Google Assistant and Siri, focusing on their utilization and response to the other-initiated repair strategy "huh?" prevalent in human-human interaction. Findings reveal several assistant-generated strategies but an inability to replicate human-like repair strategies such as "huh?". English and Spanish user acceptability surveys show differences in users' repair strategy preferences and assistant usage, with both similarities and disparities among the two surveyed languages. These results shed light on inequalities between interactional language in human-human interaction and human-machine interaction, underscoring the need for further research on the impact of interactional language in human-machine interaction in English and beyond.

 

초록:음성 대화 시스템은 질의에 실시간 응답을 제공함으로써 인간과 기계의 상호 작용을 변화시켰다. 그러나 사용자와 시스템 간의 오해가 지속되고 있다. 본 연구는 구글 어시스턴트와 시리와의 상호작용을 분석함으로써 가상어시스턴트와 사용자 간의 대화수리에서 상호작용언어가 갖는 의미를 탐색한 것으로, 인간과 인간의 상호작용에 널리 퍼져 있는 타인-개시 수리전략 '응?'에 대한 사용과 대응을 중심으로 분석하였다. 연구 결과에 따르면 보조자가 만든 몇 가지 전략이 있지만 "어?"와 같은 인간과 같은 수리 전략을 복제할 수 없다는 것을 알 수 있습니다. 영어와 스페인어 사용자 수용성 조사에서는 사용자의 수리전략 선호도와 어시스턴트 활용도에 차이가 있으며, 두 조사 언어는 유사성과 차이가 있다. 이러한 결과는 인간과 인간의 상호작용에서 상호작용 언어와 인간과 기계의 상호작용 사이의 불평등을 조명하며, 영어와 그 이상에서 인간과 기계의 상호작용에서 상호작용 언어의 영향에 대한 추가 연구의 필요성을 강조한다. 

 

 

Improving Korean NLP Tasks with Linguistically Informed Subword Tokenization and Sub-character Decomposition

 

Abstract:We introduce a morpheme-aware subword tokenization method that utilizes sub-character decomposition to address the challenges of applying Byte Pair Encoding (BPE) to Korean, a language characterized by its rich morphology and unique writing system. Our approach balances linguistic accuracy with computational efficiency in Pre-trained Language Models (PLMs). Our evaluations show that this technique achieves good performances overall, notably improving results in the syntactic task of NIKL-CoLA. This suggests that integrating morpheme type information can enhance language models' syntactic and semantic capabilities, indicating that adopting more linguistic insights can further improve performance beyond standard morphological analysis.

 

초록:풍부한 형태론과 독특한 쓰기 시스템을 특징으로 하는 언어인 한글에 BPE(Byte Pair Encoding)를 적용하는 문제를 해결하기 위해 하위 문자 분해를 활용하는 형태소 인식 하위 단어 토큰화 방법을 소개한다. 우리의 접근 방식은 사전 훈련된 언어 모델(PLM)에서 언어적 정확성과 계산 효율성의 균형을 맞춘다. 우리의 평가에 따르면 이 기술은 전반적으로 우수한 성능을 달성하며, 특히 NIKL-CoLA의 구문 작업에서 결과를 개선한다. 이는 형태소 유형의 정보를 통합하면 언어모델의 통사적, 의미적 역량이 향상될 수 있음을 시사하며, 보다 많은 언어적 통찰력을 채택하면 표준 형태소 분석을 넘어 성능이 더욱 향상될 수 있음을 보여준다. 

 

 

반응형

댓글