본문 바로가기
오늘의 자연어 처리

[2023-10-05] 오늘의 자연어처리

by 지환이아빠 2023. 10. 5.
반응형

Unveiling the Pitfalls of Knowledge Editing for Large Language Models

 

Abstract:As the cost associated with fine-tuning Large Language Models (LLMs) continues to rise, recent research efforts have pivoted towards developing methodologies to edit implicit knowledge embedded within LLMs. Yet, there's still a dark cloud lingering overhead -- will knowledge editing trigger butterfly effect? since it is still unclear whether knowledge editing might introduce side effects that pose potential risks or not. This paper pioneers the investigation into the potential pitfalls associated with knowledge editing for LLMs. To achieve this, we introduce new benchmark datasets and propose innovative evaluation metrics. Our results underline two pivotal concerns: (1) Knowledge Conflict: Editing groups of facts that logically clash can magnify the inherent inconsistencies in LLMs-a facet neglected by previous methods. (2) Knowledge Distortion: Altering parameters with the aim of editing factual knowledge can irrevocably warp the innate knowledge structure of LLMs. Experimental results vividly demonstrate that knowledge editing might inadvertently cast a shadow of unintended consequences on LLMs, which warrant attention and efforts for future works. Code will be released at this https URL.

 

초록:LLM(Large Language Models) 미세 조정과 관련된 비용이 계속해서 상승함에 따라, 최근의 연구 노력은 LLM에 포함된 암묵적 지식을 편집하는 방법론을 개발하는 데 중심을 두고 있다. 그러나 여전히 어두운 구름이 남아 있다 -- 지식 편집이 나비 효과를 유발할 것인가? 지식 편집이 잠재적인 위험을 초래하는 부작용을 초래할 수 있는지 여부가 여전히 불분명하기 때문이다. 본 논문은 LLM에 대한 지식 편집과 관련된 잠재적 함정에 대한 조사를 개척한다. 이를 달성하기 위해 새로운 벤치마크 데이터 세트를 도입하고 혁신적인 평가 지표를 제안한다. 우리의 결과는 두 가지 중추적인 관심사인 (1) 지식 갈등을 강조합니다: 논리적으로 충돌하는 사실들의 그룹들을 편집하는 것은 이전의 방법들에 의해 무시된 측면인 LLM들에 내재된 불일치를 확대시킬 수 있다. (2) 지식 왜곡: 사실적 지식을 편집할 목적으로 매개변수를 변경하면 LLM의 타고난 지식 구조가 되돌릴 수 없게 왜곡될 수 있다. 실험 결과는 지식 편집이 LLM에 의도하지 않은 결과의 그림자를 드리울 수 있음을 생생하게 보여주며, 이는 향후 작업에 대한 관심과 노력을 요구한다. 코드는 이 https URL에서 공개됩니다. 

 

 

Think before you speak: Training Language Models With Pause Tokens

 

Abstract:Language models generate responses by producing a series of tokens in immediate succession: the $(K+1)^{th}$ token is an outcome of manipulating $K$ hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, $K+10$ hidden vectors, before it outputs the $(K+1)^{th}$ token? We operationalize this idea by performing training and inference on language models with a (learnable) $\textit{pause}$ token, a sequence of which is appended to the input prefix. We then delay extracting the model's outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate $\textit{pause-training}$ on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of $18\%$ EM score on the QA task of SQuAD, $8\%$ on CommonSenseQA and $1\%$ accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm.

 

초록:언어 모델은 일련의 토큰을 즉시 연속으로 생성하여 응답을 생성한다. $(K+1)^{th}$ 토큰은 계층당 $K$ 은닉 벡터를 조작한 결과이며, 이전 토큰당 하나의 벡터이다. 대신 모델이 $(K+1)^{th}$ 토큰을 출력하기 전에 $K+10$ 은닉 벡터를 조작하도록 하면 어떨까? 입력 접두사에 시퀀스가 추가된 (학습 가능한) $\textit{pause}$ 토큰으로 언어 모델에 대한 훈련과 추론을 수행하여 이 아이디어를 운영한다. 그런 다음 마지막 일시 중지 토큰이 보일 때까지 모델의 출력을 추출하는 것을 지연시켜 모델이 답변을 약속하기 전에 추가 계산을 처리할 수 있게 한다. 우리는 C4에 대한 인과 사전 훈련을 통해 1B 및 130M 매개 변수의 디코더 전용 모델과 추론, 질문-응답, 일반 이해 및 사실 회상을 다루는 다운스트림 작업에 대해 $\textit{pause-training}$을 경험적으로 평가한다. 우리의 주요 연구 결과는 추론 시간 지연이 모델이 사전 훈련되고 지연으로 미세 조정될 때 이득을 나타낸다는 것이다. 1B 모델의 경우 9개 작업 중 8개 작업에서 이득을 얻었으며, 가장 눈에 띄는 것은 SquaAD의 QA 작업에서 18\%$ EM 점수, CommonSenseQA에서 8\%$, GSM8k의 추론 작업에서 1\%$ 정확도를 얻었다. 우리의 연구는 지연된 차기 토큰 예측을 널리 적용 가능한 새로운 패러다임으로 만드는 것에 대한 다양한 개념적이고 실제적인 향후 연구 문제를 제기한다. 

 

 

Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View

 

Abstract:As Natural Language Processing (NLP) systems are increasingly employed in intricate social environments, a pressing query emerges: Can these NLP systems mirror human-esque collaborative intelligence, in a multi-agent society consisting of multiple large language models (LLMs)? This paper probes the collaboration mechanisms among contemporary NLP systems by melding practical experiments with theoretical insights. We fabricate four unique `societies' comprised of LLM agents, where each agent is characterized by a specific `trait' (easy-going or overconfident) and engages in collaboration with a distinct `thinking pattern' (debate or reflection). Evaluating these multi-agent societies on three benchmark datasets, we discern that LLM agents navigate tasks by leveraging diverse social behaviors, from active debates to introspective reflections. Notably, certain collaborative strategies only optimize efficiency (using fewer API tokens), but also outshine previous top-tier approaches. Moreover, our results further illustrate that LLM agents manifest human-like social behaviors, such as conformity or majority rule, mirroring foundational Social Psychology theories. In conclusion, we integrate insights from Social Psychology to contextualize the collaboration of LLM agents, inspiring further investigations into the collaboration mechanism for LLMs. We commit to sharing our code and datasets (already submitted in supplementary materials), hoping to catalyze further research in this promising avenue (All code and data are available at \url{this https URL}.).

 

초록:NLP(Natural Language Processing) 시스템이 복잡한 사회 환경에서 점점 더 많이 사용됨에 따라 다음과 같은 긴급한 질문이 등장한다: 이러한 NLP 시스템은 다중 대형 언어 모델(LLM)로 구성된 다중 에이전트 사회에서 인간과 같은 협력 지능을 반영할 수 있는가? 본 논문은 이론적 통찰과 함께 실용적인 실험을 혼합함으로써 현대 NLP 시스템 간의 협업 메커니즘을 탐구한다. 우리는 LLM 에이전트로 구성된 네 개의 독특한 '학회'를 제작하는데, 각 에이전트는 특정한 '특성'(쉬운 성격 또는 과신)을 특징으로 하며 뚜렷한 '사고 패턴'(토론 또는 성찰)과 협력한다. 세 가지 벤치마크 데이터 세트에서 이러한 다중 에이전트 사회를 평가하면, 우리는 LLM 에이전트가 활발한 토론에서 내성적 성찰에 이르기까지 다양한 사회적 행동을 활용하여 작업을 탐색한다는 것을 식별한다. 특히, 특정 협업 전략은 효율성을 최적화할 뿐만 아니라(더 적은 API 토큰을 사용함), 이전의 상위 계층 접근 방식을 능가한다. 또한, 우리의 결과는 LLM 에이전트가 기본 사회 심리학 이론을 반영하여 적합성 또는 다수결 규칙과 같은 인간과 같은 사회적 행동을 나타낸다는 것을 추가로 보여준다. 결론적으로, 우리는 LLM 에이전트의 협업을 맥락화하기 위해 사회 심리학의 통찰력을 통합하여 LLM을 위한 협업 메커니즘에 대한 추가 조사에 영감을 준다. 우리는 이 유망한 길(All code)에서 추가 연구를 촉진하기를 바라며 코드와 데이터 세트(이미 보충 자료로 제출)를 공유하기로 약속한다 및 데이터는 \url{this https URL}에서 사용할 수 있습니다. 

 

 

반응형

댓글