본문 바로가기
오늘의 자연어 처리

[2023-11-12] 오늘의 자연어처리

by 지환이아빠 2023. 11. 12.
반응형

A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

 

Abstract:The emergence of large language models (LLMs) has marked a significant breakthrough in natural language processing (NLP), leading to remarkable advancements in text understanding and generation. Nevertheless, alongside these strides, LLMs exhibit a critical tendency to produce hallucinations, resulting in content that is inconsistent with real-world facts or user inputs. This phenomenon poses substantial challenges to their practical deployment and raises concerns over the reliability of LLMs in real-world scenarios, which attracts increasing attention to detect and mitigate these hallucinations. In this survey, we aim to provide a thorough and in-depth overview of recent advances in the field of LLM hallucinations. We begin with an innovative taxonomy of LLM hallucinations, then delve into the factors contributing to hallucinations. Subsequently, we present a comprehensive overview of hallucination detection methods and benchmarks. Additionally, representative approaches designed to mitigate hallucinations are introduced accordingly. Finally, we analyze the challenges that highlight the current limitations and formulate open questions, aiming to delineate pathways for future research on hallucinations in LLMs.

 

초록:대규모 언어 모델(LLM)의 등장은 자연어 처리(NLP)에서 중요한 돌파구를 열었으며, 텍스트 이해 및 생성에서 놀라운 발전을 이끌었다. 그럼에도 불구하고, 이러한 진보와 함께, LLM들은 환각을 발생시키는 중대한 경향을 나타내어, 실제 사실 또는 사용자 입력과 일치하지 않는 콘텐츠를 초래한다. 이러한 현상은 실제 배치에 상당한 문제를 제기하고 실제 시나리오에서 LLM의 신뢰성에 대한 우려를 불러일으키며, 이러한 환각을 감지하고 완화하기 위해 점점 더 많은 관심을 끌고 있다. 본 조사에서는 LLM 환각 분야의 최근 발전에 대한 철저하고 심도 있는 개요를 제공하고자 한다. 우리는 LLM 환각에 대한 혁신적인 분류법으로 시작해서, 환각에 기여하는 요인들을 조사한다. 이어서 환각 검출 방법과 벤치마크에 대한 포괄적인 개요를 제시한다. 또한 환각을 완화하기 위해 고안된 대표적인 방법들이 이에 따라 소개된다. 마지막으로, 우리는 LLM의 환각에 대한 향후 연구를 위한 경로를 설명하기 위해 현재의 한계를 강조하고 개방형 질문을 공식화하는 과제를 분석한다. 

 

 

Towards End-to-End Spoken Grammatical Error Correction

 

Abstract:Grammatical feedback is crucial for L2 learners, teachers, and testers. Spoken grammatical error correction (GEC) aims to supply feedback to L2 learners on their use of grammar when speaking. This process usually relies on a cascaded pipeline comprising an ASR system, disfluency removal, and GEC, with the associated concern of propagating errors between these individual modules. In this paper, we introduce an alternative "end-to-end" approach to spoken GEC, exploiting a speech recognition foundation model, Whisper. This foundation model can be used to replace the whole framework or part of it, e.g., ASR and disfluency removal. These end-to-end approaches are compared to more standard cascaded approaches on the data obtained from a free-speaking spoken language assessment test, Linguaskill. Results demonstrate that end-to-end spoken GEC is possible within this architecture, but the lack of available data limits current performance compared to a system using large quantities of text-based GEC data. Conversely, end-to-end disfluency detection and removal, which is easier for the attention-based Whisper to learn, does outperform cascaded approaches. Additionally, the paper discusses the challenges of providing feedback to candidates when using end-to-end systems for spoken GEC.

 

초록:문법적 피드백은 L2 학습자, 교사, 시험자에게 중요하다. 말하기 문법 오류 수정(GEC)은 L2 학습자들이 말하기를 할 때 문법을 사용하는 것에 대한 피드백을 제공하는 것을 목표로 한다. 이 프로세스는 보통 ASR 시스템, 디스플루언스 제거, 및 GEC를 포함하는 계단식 파이프라인에 의존하며, 이들 개별 모듈 간의 오류 전파에 대한 관련 우려를 가지고 있다. 본 논문에서는 음성 인식 기반 모델인 Whisper를 활용하여 음성 GEC에 대한 대안적인 "엔드 투 엔드" 접근 방식을 소개한다. 이 기초 모델은 ASR 및 불연속 제거와 같은 전체 프레임워크 또는 그 일부를 대체하는 데 사용될 수 있다. 이러한 종단 간 접근 방식은 자유 발화 음성 평가 테스트인 링구아스킬에서 얻은 데이터에 대한 보다 표준적인 계단식 접근 방식과 비교된다. 결과는 엔드 투 엔드 음성 GEC가 이 아키텍처 내에서 가능하다는 것을 보여주지만, 이용 가능한 데이터가 부족하기 때문에 대량의 텍스트 기반 GEC 데이터를 사용하는 시스템에 비해 현재 성능이 제한된다. 반대로, 주의 기반 위스퍼가 학습하기 더 쉬운 엔드 투 엔드 불연속 감지 및 제거는 계단식 접근 방식보다 성능이 뛰어나다. 또한, 본 논문에서는 음성 GEC를 위해 종단 간 시스템을 사용할 때 후보자에게 피드백을 제공하는 문제에 대해 논의한다. 

 

 

Cognitively Inspired Components for Social Conversational Agents

 

Abstract:Current conversational agents (CA) have seen improvement in conversational quality in recent years due to the influence of large language models (LLMs) like GPT3. However, two key categories of problem remain. Firstly there are the unique technical problems resulting from the approach taken in creating the CA, such as scope with retrieval agents and the often nonsensical answers of former generative agents. Secondly, humans perceive CAs as social actors, and as a result expect the CA to adhere to social convention. Failure on the part of the CA in this respect can lead to a poor interaction and even the perception of threat by the user. As such, this paper presents a survey highlighting a potential solution to both categories of problem through the introduction of cognitively inspired additions to the CA. Through computational facsimiles of semantic and episodic memory, emotion, working memory, and the ability to learn, it is possible to address both the technical and social problems encountered by CAs.

 

초록:기존의 대화 에이전트(CA)들은 최근 GPT3와 같은 대형 언어 모델(LLM)의 영향으로 대화의 질이 향상되고 있다. 그러나 두 가지 핵심적인 문제 범주가 남아 있다. 첫째, CA를 생성할 때 사용하는 접근 방식에 따른 고유한 기술적 문제가 있는데, 검색 에이전트의 범위 및 이전 생성 에이전트의 종종 무의미한 답변이 이에 해당된다. 둘째, 인간은 CA를 사회적 행위자로 인식하고, 결과적으로 CA가 사회적 관습을 고수할 것으로 기대한다. 이 점에서 CA 측의 실패는 좋지 않은 상호작용과 심지어 사용자에 의한 위협 인식을 초래할 수 있다. 이와 같이 본 논문은 CA에 인지적으로 영감을 받은 추가사항의 도입을 통해 두 범주의 문제에 대한 잠재적 해결책을 강조하는 설문조사를 제시한다. 의미 및 에피소드 기억, 감정, 작업 기억 및 학습 능력의 계산 팩시밀리를 통해 CA가 직면한 기술적 및 사회적 문제를 모두 해결할 수 있다. 

 

 

반응형

댓글