본문 바로가기
오늘의 자연어 처리

[2023-11-05] 오늘의 자연어처리

by 지환이아빠 2023. 11. 5.
반응형

Revisiting the Knowledge Injection Frameworks

 

In recent years, large language models (LLMs), such as GPTs, have attained great impact worldwide. However, how to adapt these LLMs to better suit the vertical domain-specific tasks by utilizing external knowledge remains not completely solved. Indeed, there have emerged a few works on this line where most of them rely on an alignment heuristic that is built to inject the corresponding knowledge tuple into the associated text sample. However, despite the promise, we identify a pivotal problem in this work ubiquitously. Simply put, we find that injecting unaligned (i.e., random) knowledge tuple into the LLMs achieves comparable (and sometimes better) results than the aligned knowledge being injected. We therefore take a thorough investigation of this frustrating finding on a variety of related prior work and further provide a chain of potential interpretations for the phenomenon. Based on all that, we offer a simple remediated technique. Briefly, the core of this technique is rooted in an ideological emphasis on the pruning and purification of the external knowledge base to be injected into LLMs. At last, we show that by integrating this technique into most (if not all) knowledge injection frameworks and recent LLMs, it manages to overcome the aforementioned sanity problem and further pushes the boundary of the performance of the domain-adaptive LLMs.

 

최근 몇 년 동안, GPT와 같은 대형 언어 모델(LLM)이 달성되었다 세계적으로 큰 영향을 끼쳤습니다. 그러나 이러한 LLM을 보다 적합하게 조정하는 방법 외부 지식을 활용한 수직 도메인별 작업은 여전히 그렇지 않습니다 완전히 풀렸다. 실제로, 이 라인에 몇몇 작품들이 등장했다 그들 중 대부분은 주입하기 위해 만들어진 정렬 휴리스틱에 의존한다 관련 지식을 관련 텍스트 샘플에 연결합니다. 그러나 약속에도 불구하고, 우리는 이 작업에서 중추적인 문제를 발견한다 어디에나. 간단히 말해서, 우리는 주사가 정렬되지 않았다는 것을 발견한다 지식을 LLM에 연결하여 유사한 (그리고 때로는 더 나은) 성과를 달성합니다 일치된 지식이 주입되는 것보다 결과가 더 많습니다. 그러므로 우리는 철저히 조사한다 다양한 관련 선행 연구에 대한 이 실망스러운 발견의 조사 그리고 더 나아가 현상에 대한 잠재적 해석의 연쇄를 제공한다. 이 모든 것을 바탕으로 간단한 교정 기법을 제공한다. 간단히 말해서, 의 핵심은 이 기술은 가지치기에 대한 이념적 강조에 뿌리를 두고 있다 LLM에 주입될 외부 지식 기반의 정화. 마침내, 우리는 이 기술을 대부분의 (전부는 아닐지라도) 지식에 통합함으로써 보여준다 주입 프레임워크 및 최근 LLM, 그것은 앞서 언급한 것을 극복할 수 있다 제정신 문제와 더 나아가 그것의 수행의 경계를 밀어낸다 도메인 적응형 LLM. 

 

 

Implicit Chain of Thought Reasoning via Knowledge Distillation

 

To augment language models with the ability to reason, researchers usually prompt or finetune them to produce chain of thought reasoning steps before producing the final answer. However, although people use natural language to reason effectively, it may be that LMs could reason more effectively with some intermediate computation that is not in natural language. In this work, we explore an alternative reasoning approach: instead of explicitly producing the chain of thought reasoning steps, we use the language model's internal hidden states to perform implicit reasoning. The implicit reasoning steps are distilled from a teacher model trained on explicit chain-of-thought reasoning, and instead of doing reasoning "horizontally" by producing intermediate words one-by-one, we distill it such that the reasoning happens "vertically" among the hidden states in different layers. We conduct experiments on a multi-digit multiplication task and a grade school math problem dataset and find that this approach enables solving tasks previously not solvable without explicit chain-of-thought, at a speed comparable to no chain-of-thought.

 

언어 모델을 추론하는 능력으로 증강시키기 위해, 연구자들은 보통 그들이 생각의 연쇄적인 추론 단계를 만들어 내도록 촉진하거나 미세 조정한다 최종적인 답을 내놓습니다. 하지만, 사람들이 자연어를 사용하더라도 효과적으로, 그것은 아마도 LM들이 일부를 가지고 더 효과적으로 추론할 수 있을 것이다 자연어로 되어 있지 않은 중간 계산. 이번 작업에서는 저희가 명확하게 다음을 생성하는 대신에 대안적인 추론 접근법을 탐구한다 사고 추론 단계의 연쇄, 우리는 언어 모델의 내부 숨겨진 것을 사용한다 암묵적인 추론을 수행하기 위한 상태. 암시적 추론 단계는 명확한 연쇄적 사고에 대한 훈련을 받은 교사 모델에서 증류된 것입니다, 그리고 중간 단어를 만들어 냄으로써 "horiz으로" 추론을 하는 대신 하나씩, 우리는 추론이 "수직적으로" 일어나도록 증류한다 각기 다른 층위의 숨겨진 상태들입니다. 우리는 여러 자리수의 실험을 한다 곱셈과제와 초등학교 수학문제 데이터셋을 구해서 이것을 찾는다 접근 방식은 명시적이지 않으면 이전에 해결할 수 없었던 과제를 해결할 수 있게 한다 연쇄적인 사고에 버금가는 속도로 말이죠. 

 

 

Revisiting the Knowledge Injection Frameworks

 

In recent years, large language models (LLMs), such as GPTs, have attained great impact worldwide. However, how to adapt these LLMs to better suit the vertical domain-specific tasks by utilizing external knowledge remains not completely solved. Indeed, there have emerged a few works on this line where most of them rely on an alignment heuristic that is built to inject the corresponding knowledge tuple into the associated text sample. However, despite the promise, we identify a pivotal problem in this work ubiquitously. Simply put, we find that injecting unaligned (i.e., random) knowledge tuple into the LLMs achieves comparable (and sometimes better) results than the aligned knowledge being injected. We therefore take a thorough investigation of this frustrating finding on a variety of related prior work and further provide a chain of potential interpretations for the phenomenon. Based on all that, we offer a simple remediated technique. Briefly, the core of this technique is rooted in an ideological emphasis on the pruning and purification of the external knowledge base to be injected into LLMs. At last, we show that by integrating this technique into most (if not all) knowledge injection frameworks and recent LLMs, it manages to overcome the aforementioned sanity problem and further pushes the boundary of the performance of the domain-adaptive LLMs.

 

최근 몇 년 동안, GPT와 같은 대형 언어 모델(LLM)이 달성되었다 세계적으로 큰 영향을 끼쳤습니다. 그러나 이러한 LLM을 보다 적합하게 조정하는 방법 외부 지식을 활용한 수직 도메인별 작업은 여전히 그렇지 않습니다 완전히 풀렸다. 실제로, 이 라인에 몇몇 작품들이 등장했다 그들 중 대부분은 주입하기 위해 만들어진 정렬 휴리스틱에 의존한다 관련 지식을 관련 텍스트 샘플에 연결합니다. 그러나 약속에도 불구하고, 우리는 이 작업에서 중추적인 문제를 발견한다 어디에나. 간단히 말해서, 우리는 주사가 정렬되지 않았다는 것을 발견한다 지식을 LLM에 연결하여 유사한 (그리고 때로는 더 나은) 성과를 달성합니다 일치된 지식이 주입되는 것보다 결과가 더 많습니다. 그러므로 우리는 철저히 조사한다 다양한 관련 선행 연구에 대한 이 실망스러운 발견의 조사 그리고 더 나아가 현상에 대한 잠재적 해석의 연쇄를 제공한다. 이 모든 것을 바탕으로 간단한 교정 기법을 제공한다. 간단히 말해서, 의 핵심은 이 기술은 가지치기에 대한 이념적 강조에 뿌리를 두고 있다 LLM에 주입될 외부 지식 기반의 정화. 마침내, 우리는 이 기술을 대부분의 (전부는 아닐지라도) 지식에 통합함으로써 보여준다 주입 프레임워크 및 최근 LLM, 그것은 앞서 언급한 것을 극복할 수 있다 제정신 문제와 더 나아가 그것의 수행의 경계를 밀어낸다 도메인 적응형 LLM. 

 

 

반응형

댓글