SDIF-DA: A Shallow-to-Deep Interaction Framework with Data Augmentation for Multi-modal Intent Detection
Abstract:Multi-modal intent detection aims to utilize various modalities to understand the user's intentions, which is essential for the deployment of dialogue systems in real-world scenarios. The two core challenges for multi-modal intent detection are (1) how to effectively align and fuse different features of modalities and (2) the limited labeled multi-modal intent training data. In this work, we introduce a shallow-to-deep interaction framework with data augmentation (SDIF-DA) to address the above challenges. Firstly, SDIF-DA leverages a shallow-to-deep interaction module to progressively and effectively align and fuse features across text, video, and audio modalities. Secondly, we propose a ChatGPT-based data augmentation approach to automatically augment sufficient training data. Experimental results demonstrate that SDIF-DA can effectively align and fuse multi-modal features by achieving state-of-the-art performance. In addition, extensive analyses show that the introduced data augmentation approach can successfully distill knowledge from the large language model.
추상화:다중 모달 의도 탐지는 사용자의 의도를 파악하기 위해 다양한 모달리티를 활용하는 것을 목표로 하며, 이는 실제 시나리오에서 대화 시스템의 배치에 필수적이다. 다중 모달 인텐트 탐지를 위한 두 가지 핵심 과제는 (1) 모달리티의 서로 다른 특징을 효과적으로 정렬하고 융합하는 방법과 (2) 제한된 라벨링된 다중 모달 인텐트 훈련 데이터이다. 본 논문에서는 위와 같은 과제를 해결하기 위해 데이터 증강(SDIF-DA)과의 얕은 대 깊은 상호 작용 프레임워크를 소개한다. 첫째, SDIF-DA는 얕은-깊은 상호작용 모듈을 활용하여 텍스트, 비디오 및 오디오 양식에 걸쳐 특징을 점진적이고 효과적으로 정렬하고 융합한다. 둘째, 충분한 학습 데이터를 자동으로 증강하기 위한 ChatGPT 기반 데이터 증강 접근법을 제안한다. 실험 결과는 SDIF-DA가 최첨단 성능을 달성함으로써 멀티모달 특징을 효과적으로 정렬하고 융합할 수 있음을 보여준다. 또한, 광범위한 분석은 도입된 데이터 증강 접근법이 대규모 언어 모델에서 지식을 성공적으로 증류할 수 있음을 보여준다.
State of What Art? A Call for Multi-Prompt LLM Evaluation
Abstract:Recent advances in large language models (LLMs) have led to the development of various evaluation benchmarks. These benchmarks typically rely on a single instruction template for evaluating all LLMs on a specific task. In this paper, we comprehensively analyze the brittleness of results obtained via single-prompt evaluations across 6.5M instances, involving 20 different LLMs and 39 tasks from 3 benchmarks. To improve robustness of the analysis, we propose to evaluate LLMs with a set of diverse prompts instead. We discuss tailored evaluation metrics for specific use cases (e.g., LLM developers vs. developers interested in a specific downstream task), ensuring a more reliable and meaningful assessment of LLM capabilities. We then implement these criteria and conduct evaluations of multiple models, providing insights into the true strengths and limitations of current LLMs.
추상화:최근 대형 언어 모델(LLM)의 발전으로 다양한 평가 벤치마크가 개발되고 있다. 이러한 벤치마크는 일반적으로 특정 작업에 대한 모든 LLM을 평가하기 위한 단일 명령 템플릿에 의존한다. 본 논문에서는 3개의 벤치마크에서 20개의 서로 다른 LLM과 39개의 작업을 포함하여 650M 인스턴스에 걸쳐 단일 프롬프트 평가를 통해 얻은 결과의 취약성을 종합적으로 분석한다. 분석의 견고성을 향상시키기 위해, 우리는 대신 다양한 프롬프트 세트로 LLM을 평가할 것을 제안한다. 우리는 특정 사용 사례(예: LLM 개발자 대 특정 다운스트림 작업에 관심이 있는 개발자)에 대한 맞춤형 평가 지표를 논의하여 LLM 기능에 대한 보다 신뢰할 수 있고 의미 있는 평가를 보장한다. 그런 다음 이러한 기준을 구현하고 여러 모델의 평가를 수행하여 현재 LLM의 진정한 강점과 한계에 대한 통찰력을 제공한다.
RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models
Abstract:Retrieval-augmented generation (RAG) has become a main technique for alleviating hallucinations in large language models (LLMs). Despite the integration of RAG, LLMs may still present unsupported or contradictory claims to the retrieved contents. In order to develop effective hallucination prevention strategies under RAG, it is important to create benchmark datasets that can measure the extent of hallucination. This paper presents RAGTruth, a corpus tailored for analyzing word-level hallucinations in various domains and tasks within the standard RAG frameworks for LLM applications. RAGTruth comprises nearly 18,000 naturally generated responses from diverse LLMs using RAG. These responses have undergone meticulous manual annotations at both the individual cases and word levels, incorporating evaluations of hallucination intensity. We not only benchmark hallucination frequencies across different LLMs, but also critically assess the effectiveness of several existing hallucination detection methodologies. Furthermore, we show that using a high-quality dataset such as RAGTruth, it is possible to finetune a relatively small LLM and achieve a competitive level of performance in hallucination detection when compared to the existing prompt-based approaches using state-of-the-art large language models such as GPT-4.
추상화:검색 증강 생성(RAG)은 큰 언어 모델(LLM)에서 환각을 완화하는 주요 기술이 되었다. RAG의 통합에도 불구하고, LLM들은 여전히 검색된 콘텐츠에 지원되지 않거나 모순되는 주장들을 제시할 수 있다. RAG 하에서 효과적인 환각 예방 전략을 개발하기 위해서는 환각 정도를 측정할 수 있는 벤치마크 데이터셋을 만드는 것이 중요하다. 본 논문은 LLM 응용을 위한 표준 RAG 프레임워크 내에서 다양한 도메인 및 작업에서 단어 수준 환각을 분석하기 위한 맞춤형 코퍼스인 RAG Truth를 제시한다. RAGTruth는 RAG를 사용하는 다양한 LLM에서 거의 18,000개의 자연적으로 생성된 응답으로 구성된다. 이러한 응답은 환각 강도에 대한 평가를 통합하여 개별 사례와 단어 수준 모두에서 세심한 수동 주석을 거쳤다. 우리는 서로 다른 LLM에 걸쳐 환각 빈도를 벤치마킹할 뿐만 아니라 기존의 여러 환각 감지 방법론의 효과를 비판적으로 평가한다. 또한 RAGTruth와 같은 고품질 데이터 세트를 사용하면 GPT-4와 같은 최첨단 대형 언어 모델을 사용하는 기존의 프롬프트 기반 접근 방식에 비해 상대적으로 작은 LLM을 미세 조정하고 환각 감지에서 경쟁 수준의 성능을 달성할 수 있음을 보여준다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2024-01-05] 오늘의 자연어처리 (0) | 2024.01.05 |
---|---|
[2024-01-04] 오늘의 자연어처리 (0) | 2024.01.04 |
[2024-01-02] 오늘의 자연어처리 (1) | 2024.01.02 |
[2024-01-01] 오늘의 자연어처리 (1) | 2024.01.01 |
[2023-12-31] 오늘의 자연어처리 (1) | 2023.12.31 |
댓글