Are Large Language Models Reliable Judges? A Study on the Factuality Evaluation Capabilities of LLMs
Abstract:In recent years, Large Language Models (LLMs) have gained immense attention due to their notable emergent capabilities, surpassing those seen in earlier language models. A particularly intriguing application of LLMs is their role as evaluators for texts produced by various generative models. In this study, we delve into the potential of LLMs as reliable assessors of factual consistency in summaries generated by text-generation models. Initially, we introduce an innovative approach for factuality assessment using LLMs. This entails employing a singular LLM for the entirety of the question-answering-based factuality scoring process. Following this, we examine the efficacy of various LLMs in direct factuality scoring, benchmarking them against traditional measures and human annotations. Contrary to initial expectations, our results indicate a lack of significant correlations between factuality metrics and human evaluations, specifically for GPT-4 and PaLM-2. Notable correlations were only observed with GPT-3.5 across two factuality subcategories. These consistent findings across various factual error categories suggest a fundamental limitation in the current LLMs' capability to accurately gauge factuality. This version presents the information more concisely while maintaining the main points and findings of the original text.
초록:최근 몇 년 동안 LLM(Large Language Models)은 이전 언어 모델에서 볼 수 있었던 것을 능가하는 주목할 만한 신흥 기능으로 인해 엄청난 주목을 받았다. LLM의 특히 흥미로운 응용은 다양한 생성 모델에 의해 생성된 텍스트에 대한 평가자로서의 역할이다. 본 연구에서는 텍스트 생성 모델에 의해 생성된 요약에서 사실 일관성의 신뢰할 수 있는 평가자로서 LLM의 가능성을 조사한다. 먼저 LLM을 이용한 사실성 평가를 위한 혁신적인 접근법을 소개한다. 이는 질문-응답 기반 사실성 채점 과정 전반에 대해 단일 LLM을 사용하는 것을 의미한다. 이에 따라, 우리는 전통적인 측정법과 인간 주석에 대해 벤치마킹하여 다양한 LLM의 직접적인 사실 채점의 효과를 검토한다. 초기 예상과 달리, 우리의 결과는 특히 GPT-4와 PaLM-2에 대해 사실성 메트릭과 인간 평가 간의 유의한 상관 관계가 부족하다는 것을 나타낸다. 주목할 만한 상관 관계는 두 가지 사실성 하위 범주에 걸쳐 GPT-3.5에서만 관찰되었다. 이러한 다양한 사실오차 범주들에 걸친 일관된 결과는 기존 LLM들이 사실성을 정확하게 측정하는 데 있어 근본적인 한계를 시사한다. 이 버전은 원문의 요점과 발견을 유지하면서 정보를 좀 더 간결하게 제시한다.
Attention Alignment and Flexible Positional Embeddings Improve Transformer Length Extrapolation
Abstract:An ideal length-extrapolatable Transformer language model can handle sequences longer than the training length without any long sequence fine-tuning. Such long-context utilization capability highly relies on a flexible positional embedding design. Upon investigating the flexibility of existing large pre-trained Transformer language models, we find that the T5 family deserves a closer look, as its positional embeddings capture rich and flexible attention patterns. However, T5 suffers from the dispersed attention issue: the longer the input sequence, the flatter the attention distribution. To alleviate the issue, we propose two attention alignment strategies via temperature scaling. Our findings improve the long-context utilization capability of T5 on language modeling, retrieval, and multi-document question answering without any fine-tuning, suggesting that a flexible positional embedding design and attention alignment go a long way toward Transformer length extrapolation.\footnote{\url{this https URL}}
초록:이상적인 길이-외삽 가능한 트랜스포머 언어 모델은 긴 시퀀스 미세 조정 없이 훈련 길이보다 긴 시퀀스를 처리할 수 있다. 이러한 긴 컨텍스트 활용 능력은 유연한 위치 임베딩 설계에 크게 의존한다. 기존의 사전 교육된 대규모 트랜스포머 언어 모델의 유연성을 조사한 결과, T5 제품군은 위치 임베딩이 풍부하고 유연한 주의 패턴을 포착하기 때문에 자세히 살펴볼 가치가 있다. 그러나, T5는 분산된 어텐션 문제를 겪고 있는데, 입력 시퀀스가 길수록 어텐션 분포가 평탄해진다. 이러한 문제를 완화하기 위해 온도 스케일링을 통한 두 가지 주의 정렬 전략을 제안한다. 우리의 연구 결과는 미세 조정 없이 언어 모델링, 검색 및 다중 문서 질문 응답에 대한 T5의 긴 컨텍스트 활용 능력을 향상시키며, 유연한 위치 임베딩 설계와 주의 정렬이 트랜스포머 길이 외삽에 큰 도움이 된다는 것을 시사한다.\n주{\url{이 https URL}}
HARE: Explainable Hate Speech Detection with Step-by-Step Reasoning
Abstract:With the proliferation of social media, accurate detection of hate speech has become critical to ensure safety online. To combat nuanced forms of hate speech, it is important to identify and thoroughly explain hate speech to help users understand its harmful effects. Recent benchmarks have attempted to tackle this issue by training generative models on free-text annotations of implications in hateful text. However, we find significant reasoning gaps in the existing annotations schemes, which may hinder the supervision of detection models. In this paper, we introduce a hate speech detection framework, HARE, which harnesses the reasoning capabilities of large language models (LLMs) to fill these gaps in explanations of hate speech, thus enabling effective supervision of detection models. Experiments on SBIC and Implicit Hate benchmarks show that our method, using model-generated data, consistently outperforms baselines, using existing free-text human annotations. Analysis demonstrates that our method enhances the explanation quality of trained models and improves generalization to unseen datasets. Our code is available at this https URL.
초록:소셜 미디어가 확산되면서 온라인상에서 안전을 확보하기 위해서는 혐오 발언의 정확한 탐지가 중요해졌다. 미묘한 형태의 혐오 발언을 방지하기 위해서는 혐오 발언의 유해성을 사용자가 이해할 수 있도록 식별하고 철저하게 설명하는 것이 중요하다. 최근의 벤치마크는 혐오스러운 텍스트의 의미에 대한 자유 텍스트 주석에 대한 생성 모델을 훈련함으로써 이 문제를 해결하려고 시도했다. 그러나 기존 주석 체계에서 상당한 추론 격차가 발견되어 탐지 모델의 감독을 방해할 수 있다. 본 논문에서는 혐오 발언에 대한 설명의 이러한 공백을 메우기 위해 대형 언어 모델(LLM)의 추론 능력을 활용하여 혐오 발언 탐지 프레임워크인 HARE를 소개하여 탐지 모델의 효과적인 감독을 가능하게 한다. SBIC 및 Implicit Hate 벤치마크에 대한 실험은 모델 생성 데이터를 사용하는 우리의 방법이 기존의 자유 텍스트 인간 주석을 사용하여 기준선을 지속적으로 능가한다는 것을 보여준다. 분석은 우리의 방법이 훈련된 모델의 설명 품질을 향상시키고 보이지 않는 데이터 세트에 대한 일반화를 향상시킨다는 것을 보여준다. 우리의 코드는 이 https URL에서 사용 가능합니다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-11-05] 오늘의 자연어처리 (0) | 2023.11.05 |
---|---|
[2023-11-04] 오늘의 자연어처리 (1) | 2023.11.04 |
[2023-11-02] 오늘의 자연어처리 (1) | 2023.11.02 |
[2023-10-31] 오늘의 자연어처리 (1) | 2023.10.31 |
[2023-10-30] 오늘의 자연어처리 (0) | 2023.10.30 |
댓글