본문 바로가기
오늘의 자연어 처리

[2023-09-24] 오늘의 자연어처리

by 지환이아빠 2023. 9. 24.
반응형

InstructERC: Reforming Emotion Recognition in Conversation with a Retrieval Multi-task LLMs Framework

 

Abstract:The development of emotion recognition in dialogue (ERC) has been consistently hindered by the complexity of pipeline designs, leading to ERC models that often overfit to specific datasets and dialogue patterns. In this study, we propose a novel approach, namely InstructERC, to reformulates the ERC task from a discriminative framework to a generative framework based on Large Language Models (LLMs) . InstructERC has two significant contributions: Firstly, InstructERC introduces a simple yet effective retrieval template module, which helps the model explicitly integrate multi-granularity dialogue supervision information by concatenating the historical dialog content, label statement, and emotional domain demonstrations with high semantic similarity. Furthermore, we introduce two additional emotion alignment tasks, namely speaker identification and emotion prediction tasks, to implicitly model the dialogue role relationships and future emotional tendencies in conversations. Our LLM-based plug-and-play plugin framework significantly outperforms all previous models and achieves comprehensive SOTA on three commonly used ERC datasets. Extensive analysis of parameter-efficient and data-scaling experiments provide empirical guidance for applying InstructERC in practical scenarios. Our code will be released after blind review.

 

초록:대화에서의 감정 인식(ERC)의 개발은 파이프라인 설계의 복잡성으로 인해 지속적으로 방해를 받아 왔으며, 이는 종종 특정 데이터 세트와 대화 패턴에 과도하게 적합한 ERC 모델로 이어진다. 본 연구에서는 새로운 접근법, 즉 ERCERC는 ERC 작업을 차별적 프레임워크에서 LLM(Large Language Models)에 기반한 생성 프레임워크로 재구성하기 위해 다음과 같은 두 가지 중요한 기여를 한다: 먼저, INCHERC는 간단하지만 효과적인 검색 템플릿 모듈을 도입하여 모델이 의미적 유사성이 높은 과거 대화 내용, 레이블 문 및 감정 영역 시연을 연결하여 다중 세분화 대화 감독 정보를 명시적으로 통합할 수 있도록 돕는다. 또한 대화에서 대화 역할 관계와 미래의 감정 성향을 암시적으로 모델링하기 위해 화자 식별 및 감정 예측 작업이라는 두 가지 추가 감정 정렬 작업을 소개한다. 우리의 LLM 기반 플러그 앤 플레이 플러그인 프레임워크는 이전의 모든 모델을 크게 능가하고 일반적으로 사용되는 3개의 ERC 데이터 세트에서 포괄적인 SOTA를 달성한다. 파라미터 효율적이고 데이터 스케일링 실험에 대한 광범위한 분석은 실제 시나리오에서 INCHERC를 적용하기 위한 경험적 지침을 제공한다. 블라인드 리뷰를 거쳐 저희 코드가 공개될 예정입니다. 

 

 

PEFTT: Parameter-Efficient Fine-Tuning for low-resource Tibetan pre-trained language models

 

Abstract:In this era of large language models (LLMs), the traditional training of models has become increasingly unimaginable for regular users and institutions. The exploration of efficient fine-tuning for high-resource languages on these models is an undeniable trend that is gradually gaining popularity. However, there has been very little exploration for various low-resource languages, such as Tibetan. Research in Tibetan NLP is inherently scarce and limited. While there is currently no existing large language model for Tibetan due to its low-resource nature, that day will undoubtedly arrive. Therefore, research on efficient fine-tuning for low-resource language models like Tibetan is highly necessary. Our research can serve as a reference to fill this crucial gap. Efficient fine-tuning strategies for pre-trained language models (PLMs) in Tibetan have seen minimal exploration. We conducted three types of efficient fine-tuning experiments on the publicly available TNCC-title dataset: "prompt-tuning," "Adapter lightweight fine-tuning," and "prompt-tuning + Adapter fine-tuning." The experimental results demonstrate significant improvements using these methods, providing valuable insights for advancing Tibetan language applications in the context of pre-trained models.

 

초록:이러한 대형 언어 모델(LLM) 시대에 모델의 전통적인 훈련은 일반 사용자와 기관에서는 점점 상상할 수 없게 되었다. 이러한 모델에서 고자원 언어에 대한 효율적인 미세 조정의 탐색은 점차 인기를 얻고 있는 부인할 수 없는 추세이다. 그러나 티베트어와 같은 다양한 저자원 언어에 대한 탐구는 거의 이루어지지 않았다. 티베트 NLP에 대한 연구는 선천적으로 부족하고 제한적이다. 티베트어는 자원이 부족한 특성 때문에 현재 큰 언어 모델이 없지만, 그 날이 올 것이 분명하다. 따라서 티베트어와 같은 저자원 언어 모델에 대한 효율적인 미세 조정에 대한 연구의 필요성이 높다. 우리의 연구는 이러한 중대한 공백을 메우는 데 참고가 될 수 있다. 티베트어로 사전 훈련된 언어 모델(PLM)을 위한 효율적인 미세 조정 전략은 최소한의 탐색을 보였다. 공개적으로 사용 가능한 TNCC 제목 데이터 세트에 대해 "프롬트 튜닝", "어댑터 경량 미세 조정", "프롬트 튜닝 + 어댑터 미세 조정"의 세 가지 유형의 효율적 미세 조정 실험을 수행했다 실험 결과는 이러한 방법을 사용하여 상당한 개선을 보여주며, 사전 훈련된 모델의 맥락에서 티베트 언어 응용 프로그램을 발전시키는 데 귀중한 통찰력을 제공한다. 

 

 

CAMERA: A Multimodal Dataset and Benchmark for Ad Text Generation

 

Abstract:In response to the limitations of manual online ad production, significant research has been conducted in the field of automatic ad text generation (ATG). However, comparing different methods has been challenging because of the lack of benchmarks encompassing the entire field and the absence of well-defined problem sets with clear model inputs and outputs. To address these challenges, this paper aims to advance the field of ATG by introducing a redesigned task and constructing a benchmark. Specifically, we defined ATG as a cross-application task encompassing various aspects of the Internet advertising. As part of our contribution, we propose a first benchmark dataset, CA Multimodal Evaluation for Ad Text GeneRAtion (CAMERA), carefully designed for ATG to be able to leverage multi-modal information and conduct an industry-wise evaluation. Furthermore, we demonstrate the usefulness of our proposed benchmark through evaluation experiments using multiple baseline models, which vary in terms of the type of pre-trained language model used and the incorporation of multi-modal information. We also discuss the current state of the task and the future challenges.

 

초록:이러한 수동 온라인 광고 제작의 한계에 대응하여 자동 광고 텍스트 생성(ATG) 분야에서 의미 있는 연구가 진행되었다. 그러나 전체 분야를 아우르는 벤치마크가 부족하고 모델 입력 및 출력이 명확한 잘 정의된 문제 세트가 없기 때문에 다양한 방법을 비교하는 것은 어려운 일이었다. 이러한 과제를 해결하기 위해 본 논문에서는 재설계된 작업을 도입하고 벤치마크를 구축하여 ATG 분야를 발전시키는 것을 목표로 한다. 구체적으로, 우리는 ATG를 인터넷 광고의 다양한 측면을 포괄하는 교차 적용 작업으로 정의했다. 기여의 일환으로 ATG가 다중 모드 정보를 활용하고 업계 차원의 평가를 수행할 수 있도록 세심하게 설계된 첫 번째 벤치마크 데이터 세트인 CA Multimodal Evaluation for Ad Text GeneRATion(CAMERA)을 제안한다. 또한 사용된 사전 훈련된 언어 모델의 유형과 다중 모드 정보의 통합 측면에서 다양한 여러 기준 모델을 사용한 평가 실험을 통해 제안된 벤치마크의 유용성을 입증한다. 또한 과제의 현재 상태와 향후 과제에 대해서도 논의한다. 

 

 

반응형

댓글