본문 바로가기
오늘의 자연어 처리

[2024-01-07] 오늘의 자연어처리

by 지환이아빠 2024. 1. 7.
반응형

A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity

 

Abstract:While alignment algorithms are now commonly used to tune pre-trained language models towards a user's preferences, we lack explanations for the underlying mechanisms in which models become ``aligned'', thus making it difficult to explain phenomena like jailbreaks. In this work we study a popular algorithm, direct preference optimization (DPO), and the mechanisms by which it reduces toxicity. Namely, we first study how toxicity is represented and elicited in a pre-trained language model, GPT2-medium. We then apply DPO with a carefully crafted pairwise dataset to reduce toxicity. We examine how the resulting model averts toxic outputs, and find that capabilities learned from pre-training are not removed, but rather bypassed. We use this insight to demonstrate a simple method to un-align the model, reverting it back to its toxic behavior.

 

추상화:정렬 알고리즘은 현재 일반적으로 사전 훈련된 언어 모델을 사용자의 선호도로 조정하는 데 사용되지만 모델이 "정렬"되는 기본 메커니즘에 대한 설명이 부족하여 탈옥과 같은 현상을 설명하기가 어렵다. 이 연구에서 우리는 대중적인 알고리즘인 직접 선호 최적화(DPO)와 그것이 독성을 줄이는 메커니즘을 연구한다. 즉, 우리는 먼저 사전 훈련된 언어 모델인 GPT2-medium에서 독성이 어떻게 표현되고 유발되는지 연구한다. 그런 다음 독성을 줄이기 위해 신중하게 만들어진 쌍별 데이터 세트와 함께 DPO를 적용한다. 우리는 결과 모델이 독성 출력을 어떻게 방지하는지 조사하고, 사전 훈련에서 배운 기능이 제거되는 것이 아니라 우회된다는 것을 발견했다. 우리는 이 통찰력을 사용하여 모델의 정렬을 해제하고 독성 행동으로 되돌리는 간단한 방법을 보여준다. 

 

 

Rethinking Response Evaluation from Interlocutor's Eye for Open-Domain Dialogue Systems

 

Abstract:Open-domain dialogue systems have started to engage in continuous conversations with humans. Those dialogue systems are required to be adjusted to the human interlocutor and evaluated in terms of their perspective. However, it is questionable whether the current automatic evaluation methods can approximate the interlocutor's judgments. In this study, we analyzed and examined what features are needed in an automatic response evaluator from the interlocutor's perspective. The first experiment on the Hazumi dataset revealed that interlocutor awareness plays a critical role in making automatic response evaluation correlate with the interlocutor's judgments. The second experiment using massive conversations on X (formerly Twitter) confirmed that dialogue continuity prediction can train an interlocutor-aware response evaluator without human feedback while revealing the difficulty in evaluating generated responses compared to human responses.

 

추상화:오픈 도메인 대화 시스템은 인간과 지속적인 대화에 참여하기 시작했다. 이러한 대화 시스템은 인간의 대화자에 맞게 조정되고 그 관점에서 평가될 것이 요구된다. 그러나 현재의 자동평가 방법들이 대화자의 판단을 근사화할 수 있을지는 의문이다. 본 연구에서는 자동응답평가기에 어떤 특징이 필요한지를 대화자의 관점에서 분석하고 살펴보았다. Hazumi 데이터 세트에 대한 첫 번째 실험은 자동 응답 평가가 대화자의 판단과 연관되도록 하는 데 대화자 인식이 중요한 역할을 한다는 것을 보여주었다. X(구 트위터)에 대한 대규모 대화를 이용한 두 번째 실험은 대화 연속성 예측이 인간의 피드백 없이 대화자 인식 반응 평가자를 훈련시킬 수 있음을 확인하는 동시에 생성된 반응을 인간의 반응에 비해 평가하는 데 어려움을 드러냈다. 

 

 

Understanding LLMs: A Comprehensive Overview from Training to Inference

 

Abstract:The introduction of ChatGPT has led to a significant increase in the utilization of Large Language Models (LLMs) for addressing downstream tasks. There's an increasing focus on cost-efficient training and deployment within this context. Low-cost training and deployment of LLMs represent the future development trend. This paper reviews the evolution of large language model training techniques and inference deployment technologies aligned with this emerging trend. The discussion on training includes various aspects, including data preprocessing, training architecture, pre-training tasks, parallel training, and relevant content related to model fine-tuning. On the inference side, the paper covers topics such as model compression, parallel computation, memory scheduling, and structural optimization. It also explores LLMs' utilization and provides insights into their future development.

 

추상화:ChatGPT의 도입으로 인해 다운스트림 작업을 처리하기 위한 LLM(Large Language Model)의 활용도가 크게 증가했다. 이러한 맥락에서 비용 효율적인 교육 및 구축에 초점이 맞춰지고 있습니다. LLM의 저비용 훈련 및 배치는 미래의 발전 추세를 나타낸다. 본 논문은 이러한 새로운 추세에 맞춰 대형 언어 모델 훈련 기법과 추론 배치 기술의 진화를 검토한다. 훈련에 대한 논의는 데이터 전처리, 훈련 아키텍처, 사전 훈련 작업, 병렬 훈련 및 모델 미세 조정과 관련된 관련 내용을 포함하는 다양한 측면을 포함한다. 추론 측면에서, 이 논문은 모델 압축, 병렬 계산, 메모리 스케줄링 및 구조 최적화와 같은 주제를 다룬다. 또한 LLM의 활용도를 탐색하고 향후 발전에 대한 통찰력을 제공합니다. 

 

 

반응형

댓글