본문 바로가기
오늘의 자연어 처리

[2023-10-13] 오늘의 자연어처리

by 지환이아빠 2023. 10. 13.
반응형

Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity

 

Abstract:This survey addresses the crucial issue of factuality in Large Language Models (LLMs). As LLMs find applications across diverse domains, the reliability and accuracy of their outputs become vital. We define the Factuality Issue as the probability of LLMs to produce content inconsistent with established facts. We first delve into the implications of these inaccuracies, highlighting the potential consequences and challenges posed by factual errors in LLM outputs. Subsequently, we analyze the mechanisms through which LLMs store and process facts, seeking the primary causes of factual errors. Our discussion then transitions to methodologies for evaluating LLM factuality, emphasizing key metrics, benchmarks, and studies. We further explore strategies for enhancing LLM factuality, including approaches tailored for specific domains. We focus two primary LLM configurations standalone LLMs and Retrieval-Augmented LLMs that utilizes external data, we detail their unique challenges and potential enhancements. Our survey offers a structured guide for researchers aiming to fortify the factual reliability of LLMs.

 

초록:이 조사는 LLM(Large Language Models)의 사실성에 대한 중요한 문제를 다룬다. LLM이 다양한 도메인에 걸쳐 응용 프로그램을 찾음에 따라 출력의 신뢰성과 정확성이 중요해진다. 우리는 사실성 문제를 LLM이 확립된 사실과 일치하지 않는 내용을 생성할 확률로 정의한다. 우리는 먼저 LLM 출력의 사실 오류로 인해 발생할 수 있는 결과와 과제를 강조하면서 이러한 부정확성의 함의를 탐구한다. 이어서 LLM이 사실을 저장하고 처리하는 메커니즘을 분석하여 사실 오류의 주요 원인을 찾는다. 그런 다음 우리의 논의는 주요 메트릭, 벤치마크 및 연구를 강조하면서 LLM 사실성을 평가하는 방법론으로 전환한다. 우리는 특정 영역에 맞춘 접근법을 포함하여 LLM 사실성을 향상시키기 위한 전략을 추가로 탐구한다. 우리는 외부 데이터를 활용하는 두 가지 주요 LLM 구성 독립형 LLM과 검색-증강 LLM에 초점을 맞추고, 그들의 고유한 과제와 잠재적인 향상을 상세히 설명한다. 우리의 조사는 LLM의 사실적 신뢰성을 강화하는 것을 목표로 하는 연구자들을 위한 구조화된 지침을 제공한다. 

 

 

InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining

 

Abstract:Pretraining auto-regressive large language models (LLMs) with retrieval demonstrates better perplexity and factual accuracy by leveraging external databases. However, the size of existing pretrained retrieval-augmented LLM is still limited (e.g., Retro has 7.5B parameters), which limits the effectiveness of instruction tuning and zero-shot generalization. In this work, we introduce Retro 48B, the largest LLM pretrained with retrieval before instruction tuning. Specifically, we continue to pretrain the 43B GPT model on additional 100 billion tokens using the Retro augmentation method by retrieving from 1.2 trillion tokens. The obtained foundation model, Retro 48B, largely outperforms the original 43B GPT in terms of perplexity. After instruction tuning on Retro, InstructRetro demonstrates significant improvement over the instruction tuned GPT on zero-shot question answering (QA) tasks. Specifically, the average improvement of InstructRetro is 7% over its GPT counterpart across 8 short-form QA tasks, and 10% over GPT across 4 challenging long-form QA tasks. Surprisingly, we find that one can ablate the encoder from InstructRetro architecture and directly use its decoder backbone, while achieving comparable results. We hypothesize that pretraining with retrieval makes its decoder good at incorporating context for QA. Our results highlights the promising direction to obtain a better GPT decoder for QA through continued pretraining with retrieval before instruction tuning.

 

초록:검색을 통해 자동 회귀 대형 언어 모델(LLM)을 사전 교육하면 외부 데이터베이스를 활용하여 더 나은 혼란과 사실 정확성을 보여준다. 그러나, 기존의 사전 훈련된 검색-증강 LLM의 크기는 여전히 제한적이며(예를 들어, Retro는 7.5B 파라미터를 가지고 있으므로), 명령 조정 및 제로-샷 일반화의 효과가 제한된다. 본 연구에서는 명령 조정 전에 검색으로 사전 교육된 가장 큰 LLM인 Retro 48B를 소개한다. 구체적으로, 우리는 1조 2천억 개의 토큰에서 검색하여 Retrougmentation 방법을 사용하여 추가 1천억 개의 토큰에 대해 43B GPT 모델을 계속 사전 교육한다. 획득한 기초 모델인 Retro 48B는 당혹감 측면에서 원래의 43B GPT를 크게 능가한다. Retro의 명령 조정 후, InstructRetro는 제로샷 질문 응답(QA) 작업에 대한 명령 조정 GPT에 비해 크게 향상되었음을 보여준다. 구체적으로, InstructRetro의 평균 향상도는 8개의 숏폼 QA 작업에 걸쳐 GPT 상대보다 7%, 4개의 까다로운 롱폼 QA 작업에 걸쳐 GPT보다 10% 향상되었다. 놀랍게도, 우리는 인스트럭트레트로 아키텍처에서 인코더를 축소하고 디코더 백본을 직접 사용하면서도 유사한 결과를 얻을 수 있다는 것을 발견했다. 우리는 검색을 사용한 사전 훈련이 디코더가 QA에 대한 컨텍스트를 잘 통합하도록 만든다고 가정한다. 우리의 결과는 명령 조정 전에 검색을 통해 지속적인 사전 교육을 통해 QA에 대한 더 나은 GPT 디코더를 얻을 수 있는 유망한 방향을 강조한다. 

 

 

Accurate Use of Label Dependency in Multi-Label Text Classification Through the Lens of Causality

 

Abstract:Multi-Label Text Classification (MLTC) aims to assign the most relevant labels to each given text. Existing methods demonstrate that label dependency can help to improve the model's performance. However, the introduction of label dependency may cause the model to suffer from unwanted prediction bias. In this study, we attribute the bias to the model's misuse of label dependency, i.e., the model tends to utilize the correlation shortcut in label dependency rather than fusing text information and label dependency for prediction. Motivated by causal inference, we propose a CounterFactual Text Classifier (CFTC) to eliminate the correlation bias, and make causality-based predictions. Specifically, our CFTC first adopts the predict-then-modify backbone to extract precise label information embedded in label dependency, then blocks the correlation shortcut through the counterfactual de-bias technique with the help of the human causal graph. Experimental results on three datasets demonstrate that our CFTC significantly outperforms the baselines and effectively eliminates the correlation bias in datasets.

 

초록:MLTC(Multi-Label Text Classification)는 주어진 각 텍스트에 가장 관련성이 높은 라벨을 할당하는 것을 목표로 한다. 기존의 방법은 라벨 의존성이 모델의 성능을 향상시키는 데 도움이 될 수 있음을 보여준다. 그러나 라벨 의존성의 도입은 모델이 원치 않는 예측 편향을 겪게 할 수 있다. 본 연구에서는 모델의 라벨 의존성 오용에 대한 편향, 즉 모델은 예측을 위해 텍스트 정보와 라벨 의존성을 융합하기보다는 라벨 의존성에서 상관 바로가기를 활용하는 경향이 있다고 본다. 인과관계 추론에 동기를 부여하여 상관 편향을 제거하고 인과관계 기반 예측을 하기 위한 CounterFactual Text Classifier(CFTC)를 제안한다. 구체적으로, CFTC는 먼저 예측 후 수정 백본을 채택하여 레이블 종속성에 포함된 정확한 레이블 정보를 추출한 다음, 인간 인과 그래프의 도움을 받아 반사실적 탈편향 기법을 통해 상관 바로 가기를 차단한다. 세 개의 데이터 세트에 대한 실험 결과는 CFTC가 기준선을 크게 능가하고 데이터 세트의 상관 편향을 효과적으로 제거한다는 것을 보여준다. 

 

 

반응형

댓글