본문 바로가기
오늘의 자연어 처리

[2023-11-15] 오늘의 자연어처리

by 지환이아빠 2023. 11. 15.
반응형

Semi-automatic Data Enhancement for Document-Level Relation Extraction with Distant Supervision from Large Language Models

 

Abstract:Document-level Relation Extraction (DocRE), which aims to extract relations from a long context, is a critical challenge in achieving fine-grained structural comprehension and generating interpretable document representations. Inspired by recent advances in in-context learning capabilities emergent from large language models (LLMs), such as ChatGPT, we aim to design an automated annotation method for DocRE with minimum human effort. Unfortunately, vanilla in-context learning is infeasible for document-level relation extraction due to the plenty of predefined fine-grained relation types and the uncontrolled generations of LLMs. To tackle this issue, we propose a method integrating a large language model (LLM) and a natural language inference (NLI) module to generate relation triples, thereby augmenting document-level relation datasets. We demonstrate the effectiveness of our approach by introducing an enhanced dataset known as DocGNRE, which excels in re-annotating numerous long-tail relation types. We are confident that our method holds the potential for broader applications in domain-specific relation type definitions and offers tangible benefits in advancing generalized language semantic comprehension.

 

초록:긴 맥락에서 관계를 추출하는 것을 목표로 하는 문서 수준 관계 추출(DocRE)은 세분화된 구조 이해를 달성하고 해석 가능한 문서 표현을 생성하는 데 중요한 과제이다. ChatGPT와 같은 대규모 언어 모델(LLM)에서 발생한 context 내 학습 기능의 최근 발전에 영감을 받아 최소한의 인간의 노력으로 DocRE에 대한 자동 주석 방법을 설계하는 것을 목표로 한다. 그러나, 이러한 문제점을 해결하기 위해, 바닐라 인 컨텍스트 학습은 미리 정의된 세분화된 관계 타입들이 많고, LLM들의 제어되지 않는 세대들로 인해 문서 수준의 관계 추출을 위한 실행이 불가능하다, 대규모 언어 모델(LLM)과 자연어 추론(NLI) 모듈을 통합하여 관계 3배를 생성하여 문서 수준의 관계 데이터 세트를 증강하는 방법을 제안한다. DocGNRE로 알려진 향상된 데이터 세트를 도입하여 접근 방식의 효과를 입증하며, 이는 다양한 긴 꼬리 관계 유형을 다시 주석하는 데 탁월하다. 우리는 우리의 방법이 도메인별 관계 유형 정의에서 더 광범위한 응용 프로그램의 가능성을 가지고 있으며 일반화된 언어 의미 이해를 향상시키는 데 실질적인 이점을 제공한다고 확신한다. 

 

 

LM-Polygraph: Uncertainty Estimation for Language Models

 

Abstract:Recent advancements in the capabilities of large language models (LLMs) have paved the way for a myriad of groundbreaking applications in various fields. However, a significant challenge arises as these models often "hallucinate", i.e., fabricate facts without providing users an apparent means to discern the veracity of their statements. Uncertainty estimation (UE) methods are one path to safer, more responsible, and more effective use of LLMs. However, to date, research on UE methods for LLMs has been focused primarily on theoretical rather than engineering contributions. In this work, we tackle this issue by introducing LM-Polygraph, a framework with implementations of a battery of state-of-the-art UE methods for LLMs in text generation tasks, with unified program interfaces in Python. Additionally, it introduces an extendable benchmark for consistent evaluation of UE techniques by researchers, and a demo web application that enriches the standard chat dialog with confidence scores, empowering end-users to discern unreliable responses. LM-Polygraph is compatible with the most recent LLMs, including BLOOMz, LLaMA-2, ChatGPT, and GPT-4, and is designed to support future releases of similarly-styled LMs.

 

초록:최근 대형 언어 모델(LLM)의 기능이 발전함에 따라 다양한 분야에서 수많은 획기적인 응용 프로그램이 개발되었다. 그러나 이러한 모델은 사용자에게 진술의 정확성을 식별할 수 있는 명백한 수단을 제공하지 않고 사실을 조작하는 경우가 많기 때문에 중대한 문제가 발생한다. 불확실성 추정(UE) 방법은 LLM을 보다 안전하고, 보다 책임감 있고, 보다 효과적으로 사용할 수 있는 하나의 경로이다. 그러나, 현재까지 LLM에 대한 UE 방법에 대한 연구는 주로 공학적 기여보다는 이론적인 부분에 집중되어 왔다. 본 연구에서는 Python의 통합 프로그램 인터페이스를 사용하여 텍스트 생성 작업에서 LLM을 위한 최첨단 UE 방법의 배터리를 구현한 프레임워크인 LM-Polygraph를 도입하여 이 문제를 해결한다. 또한, UE 기법에 대한 연구자의 일관된 평가를 위한 확장 가능한 벤치마크와 신뢰도 점수로 표준 채팅 대화를 풍부하게 하여 최종 사용자가 신뢰할 수 없는 응답을 식별할 수 있도록 하는 데모 웹 애플리케이션을 도입한다. LM-Polygraph는 BLOMz, LLaMA-2, ChatGPT 및 GPT-4를 포함한 가장 최근의 LLM과 호환되며, 유사한 styled의 LM의 향후 출시를 지원하도록 설계되었다. 

 

 

LM-Polygraph: Uncertainty Estimation for Language Models

 

Abstract:Recent advancements in the capabilities of large language models (LLMs) have paved the way for a myriad of groundbreaking applications in various fields. However, a significant challenge arises as these models often "hallucinate", i.e., fabricate facts without providing users an apparent means to discern the veracity of their statements. Uncertainty estimation (UE) methods are one path to safer, more responsible, and more effective use of LLMs. However, to date, research on UE methods for LLMs has been focused primarily on theoretical rather than engineering contributions. In this work, we tackle this issue by introducing LM-Polygraph, a framework with implementations of a battery of state-of-the-art UE methods for LLMs in text generation tasks, with unified program interfaces in Python. Additionally, it introduces an extendable benchmark for consistent evaluation of UE techniques by researchers, and a demo web application that enriches the standard chat dialog with confidence scores, empowering end-users to discern unreliable responses. LM-Polygraph is compatible with the most recent LLMs, including BLOOMz, LLaMA-2, ChatGPT, and GPT-4, and is designed to support future releases of similarly-styled LMs.

 

초록:최근 대형 언어 모델(LLM)의 기능이 발전함에 따라 다양한 분야에서 수많은 획기적인 응용 프로그램이 개발되었다. 그러나 이러한 모델은 사용자에게 진술의 정확성을 식별할 수 있는 명백한 수단을 제공하지 않고 사실을 조작하는 경우가 많기 때문에 중대한 문제가 발생한다. 불확실성 추정(UE) 방법은 LLM을 보다 안전하고, 보다 책임감 있고, 보다 효과적으로 사용할 수 있는 하나의 경로이다. 그러나, 현재까지 LLM에 대한 UE 방법에 대한 연구는 주로 공학적 기여보다는 이론적인 부분에 집중되어 왔다. 본 연구에서는 Python의 통합 프로그램 인터페이스를 사용하여 텍스트 생성 작업에서 LLM을 위한 최첨단 UE 방법의 배터리를 구현한 프레임워크인 LM-Polygraph를 도입하여 이 문제를 해결한다. 또한, UE 기법에 대한 연구자의 일관된 평가를 위한 확장 가능한 벤치마크와 신뢰도 점수로 표준 채팅 대화를 풍부하게 하여 최종 사용자가 신뢰할 수 없는 응답을 식별할 수 있도록 하는 데모 웹 애플리케이션을 도입한다. LM-Polygraph는 BLOMz, LLaMA-2, ChatGPT 및 GPT-4를 포함한 가장 최근의 LLM과 호환되며, 유사한 styled의 LM의 향후 출시를 지원하도록 설계되었다. 

 

 

반응형

댓글