본문 바로가기
오늘의 자연어 처리

[2023-05-23] 오늘의 자연어처리

by 지환이아빠 2023. 5. 23.
반응형

HELMA: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models

 

Large language models (LLMs), such as ChatGPT, are prone to generate hallucinations, \ie content that conflicts with the source or cannot be verified by the factual knowledge. To understand what types of content and to which extent LLMs are apt to hallucinate, we introduce the Hallucination Evaluation for Large Language Models (HELMA) benchmark, a large collection of generated and human-annotated hallucinated samples for evaluating the performance of LLMs in recognizing and alleviating hallucination. To generate these samples, we propose a ChatGPT-based two-step framework, \ie sampling-then-filtering. Specifically, we first adopt two different sampling methods to generate hallucinated samples based on instructions, and then use an example-enhanced filtering method to select the best one. Furthermore, we also hire some human labelers to annotate the hallucinations in ChatGPT responses. The empirical results suggest that ChatGPT has some probabilities to generate hallucinations and existing LLMs face great challenges in recognizing the hallucinations in text. In addition, the performance can be improved by providing external knowledge or adding reasoning steps. Our benchmark can be accessed at this https URL.

 

ChatGPT와 같은 대규모 언어 모델(LLM)은 다음과 같이 생성되는 경향이 있습니다 환각, \"소스와 충돌하거나 그럴 수 없는 내용 사실에 입각한 지식으로 증명된. 내용 유형을 이해하고 다음 작업을 수행하려면 LLM들이 환각을 일으키기 쉬운 정도, 우리는 환각을 소개한다 대규모 언어 모델 평가(HELMA) 벤치마크, 대규모 데이터 수집 생성된 환각 샘플과 인간이 평가하기 위해 사용한 환각 샘플 환각을 인식하고 완화하는 LLM의 성능. 생성하려면 이 샘플들, 우리는 ChatGPT 기반의 2단계 프레임워크를 제안한다 추출 후 추출. 구체적으로, 우리는 먼저 두 가지 다른 샘플링을 채택한다 지시에 따라 환각 샘플을 생성한 다음 사용하는 방법 가장 적합한 필터링 방법을 선택하는 예제 필터링 방법입니다. 게다가, 우리는 또한 ChatGPT 반응의 환각에 주석을 달기 위해 인간 레이블러를 고용합니다. 경험적 결과는 ChatGPT가 생성할 수 있는 몇 가지 가능성이 있음을 시사한다 환각과 기존 LLM은 인식하는 데 큰 어려움에 직면해 있다 문자로 된 환각. 또한 성능은 다음과 같이 향상될 수 있습니다 외부 지식을 제공하거나 추론 단계를 추가합니다. 벤치마크는 다음과 같습니다 이 https URL에서 액세스할 수 있습니다. 

 

 

How to Prompt LLMs for Text-to-SQL: A Study in Zero-shot, Single-domain, and Cross-domain Settings

 

Large language models (LLMs) with in-context learning have demonstrated remarkable capability in the text-to-SQL task. Previous research has prompted LLMs with various demonstration-retrieval strategies and intermediate reasoning steps to enhance the performance of LLMs. However, those works often employ varied strategies when constructing the prompt text for text-to-SQL inputs, such as databases and demonstration examples. This leads to a lack of comparability in both the prompt constructions and their primary contributions. Furthermore, selecting an effective prompt construction has emerged as a persistent problem for future research. To address this limitation, we comprehensively investigate the impact of prompt constructions across various settings and provide insights for future work.

 

컨텍스트 내 학습이 있는 대규모 언어 모델(LLM)이 입증되었다 텍스트-SQL 작업에서 주목할 만한 기능을 제공합니다. 이전의 연구가 계기가 되었다 다양한 데모 검색 전략과 중간 추론을 가진 LLM LLM의 성능을 향상시키기 위한 단계. 그러나, 그 일들은 종종 고용한다 텍스트-SQL 입력에 대한 프롬프트 텍스트를 구성할 때 다양한 전략을 사용합니다, 예를 들어 데이터베이스 및 데모 예제. 이는 의 부족으로 이어진다 신속한 구성과 주요 기여의 비교 가능성. 또한, 효과적인 신속한 시공을 선택하는 것이 중요한 과제로 대두되고 있다 미래 연구를 위한 지속적인 문제. 이 한계를 해결하기 위해, 우리는 다양한 분야에 걸친 신속한 건설의 영향을 종합적으로 조사하다 설정 및 향후 작업에 대한 통찰력을 제공합니다. 

 

 

Pseudo-Label Training and Model Inertia in Neural Machine Translation

 

Like many other machine learning applications, neural machine translation (NMT) benefits from over-parameterized deep neural models. However, these models have been observed to be brittle: NMT model predictions are sensitive to small input changes and can show significant variation across re-training or incremental model updates. This work studies a frequently used method in NMT, pseudo-label training (PLT), which is common to the related techniques of forward-translation (or self-training) and sequence-level knowledge distillation. While the effect of PLT on quality is well-documented, we highlight a lesser-known effect: PLT can enhance a model's stability to model updates and input perturbations, a set of properties we call model inertia. We study inertia effects under different training settings and we identify distribution simplification as a mechanism behind the observed results.

 

다른 많은 기계 학습 애플리케이션처럼, 신경 기계 번역 (NMT)는 과도하게 매개 변수화된 심층 신경 모델의 이점을 누린다. 그러나, 이것들은 모델은 부서지기 쉬운 것으로 관찰되었다: NMT 모델 예측은 민감하다 작은 입력 변화와 재교육에 걸쳐 상당한 변화를 보일 수 있다 증분 모델 업데이트. 이 연구는 NMT에서 자주 사용되는 방법을 연구한다, 유사 레이블 훈련(PLT), 이는 관련 기술에 공통적이다 전방 유도(또는 자가 훈련) 및 시퀀스 레벨 지식 증류. PLT가 품질에 미치는 영향은 잘 문서화되어 있지만, 우리는 덜 알려진 효과 강조: PLT는 모델의 안정성을 향상시킬 수 있습니다 업데이트 및 입력 섭동, 우리가 모델 관성이라고 부르는 속성 집합. 우리가 서로 다른 훈련 환경에서 관성 효과를 연구하고 우리는 식별한다 관찰된 결과 뒤에 있는 메커니즘으로서의 분배 단순화. 

 

 

반응형

댓글