본문 바로가기
오늘의 자연어 처리

[2023-10-07] 오늘의 자연어처리

by 지환이아빠 2023. 10. 7.
반응형

The North System for Formosa Speech Recognition Challenge 2023

 

Abstract:This report provides a concise overview of the proposed North system, which aims to achieve automatic word/syllable recognition for Taiwanese Hakka (Sixian). The report outlines three key components of the system: the acquisition, composition, and utilization of the training data; the architecture of the model; and the hardware specifications and operational statistics. The demonstration of the system can be found at this https URL.

 

초록:이 보고서는 대만어 하카(식어)에 대한 자동 단어/음절 인식을 달성하는 것을 목표로 하는 제안된 북어 체계에 대한 간략한 개요를 제공한다. 이 보고서는 시스템의 세 가지 주요 구성 요소인 훈련 데이터의 획득, 구성 및 활용, 모델의 아키텍처, 하드웨어 사양 및 운영 통계를 요약한다. 시스템 시연은 이 https URL에서 확인할 수 있다. 

 

 

Controllable Multi-document Summarization: Coverage & Coherence Intuitive Policy with Large Language Model Based Rewards

 

Abstract:Memory-efficient large language models are good at refining text input for better readability. However, controllability is a matter of concern when it comes to text generation tasks with long inputs, such as multi-document summarization. In this work, we investigate for a generic controllable approach for multi-document summarization that leverages the capabilities of LLMs to refine the text. In particular, we train a controllable content extraction scheme to extract the text that will be refined by an LLM. The scheme is designed with a novel coverage and coherence intuitive policy, which is duly rewarded by a passively trained LLM. Our approach yields competitive results in the evaluation using ROUGE metrics and outperforms potential baselines in coherence, as per human evaluation.

 

초록:메모리 효율적인 대형 언어 모델은 가독성을 높이기 위해 텍스트 입력을 다듬는 데 능숙하다. 그러나 다중 문서 요약과 같이 입력이 긴 텍스트 생성 작업의 경우 제어 가능성이 우려된다. 본 연구에서는 LLM의 기능을 활용하여 텍스트를 다듬는 다중 문서 요약에 대한 일반적인 제어 가능한 접근 방식을 조사한다. 특히 LLM에 의해 정제될 텍스트를 추출하기 위해 제어 가능한 콘텐츠 추출 체계를 훈련한다. 이 계획은 수동적으로 훈련된 LLM에 의해 정당하게 보상되는 새로운 적용 범위와 일관성 직관 정책으로 설계된다. 우리의 접근 방식은 ROUGE 메트릭을 사용한 평가에서 경쟁력 있는 결과를 도출하고 인간 평가에 따라 일관성에서 잠재적 기준을 능가한다. 

 

 

Evaluating Hallucinations in Chinese Large Language Models

 

Abstract:In this paper, we establish a benchmark named HalluQA (Chinese Hallucination Question-Answering) to measure the hallucination phenomenon in Chinese large language models. HalluQA contains 450 meticulously designed adversarial questions, spanning multiple domains, and takes into account Chinese historical culture, customs, and social phenomena. During the construction of HalluQA, we consider two types of hallucinations: imitative falsehoods and factual errors, and we construct adversarial samples based on GLM-130B and ChatGPT. For evaluation, we design an automated evaluation method using GPT-4 to judge whether a model output is hallucinated. We conduct extensive experiments on 24 large language models, including ERNIE-Bot, Baichuan2, ChatGLM, Qwen, SparkDesk and etc. Out of the 24 models, 18 achieved non-hallucination rates lower than 50%. This indicates that HalluQA is highly challenging. We analyze the primary types of hallucinations in different types of models and their causes. Additionally, we discuss which types of hallucinations should be prioritized for different types of models.

 

초록:본 논문에서는 중국 대형 언어 모델에서 환각 현상을 측정하기 위해 HalluQA(중국 환각 질문-응답)라는 벤치마크를 설정한다. HalluQA는 여러 영역에 걸쳐 450개의 신중하게 설계된 적대적 질문을 포함하고 있으며 중국의 역사 문화, 관습, 사회 현상을 고려하고 있다. HalluQA를 구축하는 동안, 우리는 모방 거짓과 사실 오류라는 두 가지 유형의 환각을 고려하고, GLM-130B와 ChatGPT를 기반으로 적대적 샘플을 구성한다. 평가를 위해 GPT-4를 사용하여 자동화된 평가 방법을 설계하여 모델 출력의 환각 여부를 판단한다. 우리는 ENIE-Bot, Baichuan2, ChatGLM, Qwen, SparkDesk 등 24개의 대형 언어 모델에 대한 광범위한 실험을 수행한다. 24개 모델 중 18개 모델이 50% 미만의 무환각률을 달성했다. 이것은 한루가QA는 매우 도전적이다. 우리는 다양한 유형의 모델에서 환각의 주요 유형과 그 원인을 분석한다. 또한 다양한 유형의 모델에 대해 어떤 유형의 환각을 우선적으로 고려해야 하는지 논의한다. 

 

 

반응형

댓글