본문 바로가기
오늘의 자연어 처리

[2023-09-23] 오늘의 자연어처리

by 지환이아빠 2023. 9. 23.
반응형

SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References

 

Abstract:Evaluation of QA systems is very challenging and expensive, with the most reliable approach being human annotations of correctness of answers for questions. Recent works (AVA, BEM) have shown that transformer LM encoder based similarity metrics transfer well for QA evaluation, but they are limited by the usage of a single correct reference answer. We propose a new evaluation metric: SQuArE (Sentence-level QUestion AnsweRing Evaluation), using multiple reference answers (combining multiple correct and incorrect references) for sentence-form QA. We evaluate SQuArE on both sentence-level extractive (Answer Selection) and generative (GenQA) QA systems, across multiple academic and industrial datasets, and show that it outperforms previous baselines and obtains the highest correlation with human annotations.

 

초록:QA 시스템의 평가는 매우 어렵고 비용이 많이 들며, 가장 신뢰할 수 있는 접근 방식은 질문에 대한 답변의 정확성에 대한 인간의 주석이다. 최근 연구(AVA, BEM)에서는 QA 평가를 위해 변압기 LM 인코더 기반 유사성 메트릭이 잘 전달된다는 것을 보여주었지만, 단일 정확한 참조 답변의 사용으로 제한된다. 우리는 다음과 같은 새로운 평가 지표를 제안한다: SQuArE (Sentence-level Queension Answering Evaluation), 문장 양식 QA에 대해 여러 참조 답변(여러 개의 올바른 참조와 잘못된 참조를 결합)을 사용합니다. 우리는 여러 학술 및 산업 데이터 세트에 걸쳐 문장 수준 추출(응답 선택) 및 생성(GenQA) QA 시스템 모두에서 SQuArE를 평가하고, 이전 기준선을 능가하고 인간 주석과 가장 높은 상관 관계를 얻는다는 것을 보여준다. 

 

 

InstructERC: Reforming Emotion Recognition in Conversation with a Retrieval Multi-task LLMs Framework

 

Abstract:The development of emotion recognition in dialogue (ERC) has been consistently hindered by the complexity of pipeline designs, leading to ERC models that often overfit to specific datasets and dialogue patterns. In this study, we propose a novel approach, namely InstructERC, to reformulates the ERC task from a discriminative framework to a generative framework based on Large Language Models (LLMs) . InstructERC has two significant contributions: Firstly, InstructERC introduces a simple yet effective retrieval template module, which helps the model explicitly integrate multi-granularity dialogue supervision information by concatenating the historical dialog content, label statement, and emotional domain demonstrations with high semantic similarity. Furthermore, we introduce two additional emotion alignment tasks, namely speaker identification and emotion prediction tasks, to implicitly model the dialogue role relationships and future emotional tendencies in conversations. Our LLM-based plug-and-play plugin framework significantly outperforms all previous models and achieves comprehensive SOTA on three commonly used ERC datasets. Extensive analysis of parameter-efficient and data-scaling experiments provide empirical guidance for applying InstructERC in practical scenarios. Our code will be released after blind review.

 

초록:대화에서의 감정 인식(ERC)의 개발은 파이프라인 설계의 복잡성으로 인해 지속적으로 방해를 받아 왔으며, 이는 종종 특정 데이터 세트와 대화 패턴에 과도하게 적합한 ERC 모델로 이어진다. 본 연구에서는 새로운 접근법, 즉 ERCERC는 ERC 작업을 차별적 프레임워크에서 LLM(Large Language Models)에 기반한 생성 프레임워크로 재구성하기 위해 다음과 같은 두 가지 중요한 기여를 한다: 먼저, INCHERC는 간단하지만 효과적인 검색 템플릿 모듈을 도입하여 모델이 의미적 유사성이 높은 과거 대화 내용, 레이블 문 및 감정 영역 시연을 연결하여 다중 세분화 대화 감독 정보를 명시적으로 통합할 수 있도록 돕는다. 또한 대화에서 대화 역할 관계와 미래의 감정 성향을 암시적으로 모델링하기 위해 화자 식별 및 감정 예측 작업이라는 두 가지 추가 감정 정렬 작업을 소개한다. 우리의 LLM 기반 플러그 앤 플레이 플러그인 프레임워크는 이전의 모든 모델을 크게 능가하고 일반적으로 사용되는 3개의 ERC 데이터 세트에서 포괄적인 SOTA를 달성한다. 파라미터 효율적이고 데이터 스케일링 실험에 대한 광범위한 분석은 실제 시나리오에서 INCHERC를 적용하기 위한 경험적 지침을 제공한다. 블라인드 리뷰를 거쳐 저희 코드가 공개될 예정입니다. 

 

 

On the Relationship between Skill Neurons and Robustness in Prompt Tuning

 

Abstract:Prompt Tuning is a popular parameter-efficient finetuning method for pre-trained large language models (PLMs). Recently, based on experiments with RoBERTa, it has been suggested that Prompt Tuning activates specific neurons in the transformer's feed-forward networks, that are highly predictive and selective for the given task. In this paper, we study the robustness of Prompt Tuning in relation to these "skill neurons", using RoBERTa and T5. We show that prompts tuned for a specific task are transferable to tasks of the same type but are not very robust to adversarial data, with higher robustness for T5 than RoBERTa. At the same time, we replicate the existence of skill neurons in RoBERTa and further show that skill neurons also seem to exist in T5. Interestingly, the skill neurons of T5 determined on non-adversarial data are also among the most predictive neurons on the adversarial data, which is not the case for RoBERTa. We conclude that higher adversarial robustness may be related to a model's ability to activate the relevant skill neurons on adversarial data.

 

초록:프롬프트 튜닝은 사전 훈련된 대형 언어 모델(PLM)에 대해 널리 사용되는 매개 변수 효율적인 미세 조정 방법이다. 최근, RoBERTA에 대한 실험을 바탕으로, Prompt Tuning이 주어진 작업에 대해 예측력이 높고 선택적인 트랜스포머의 피드 포워드 네트워크에서 특정 뉴런을 활성화한다고 제안되었다. 본 논문에서는 RoBERTA와 T5를 사용하여 이러한 "스킬 뉴런"과 관련하여 프롬프트 튜닝의 강건성을 연구한다. 우리는 특정 작업을 위해 조정된 프롬프트가 동일한 유형의 작업으로 전송될 수 있지만 RoBERTA보다 T5에 대한 견고성이 높아 적대적 데이터에 그다지 강건하지 않다는 것을 보여준다. 동시에, 우리는 RoBERTA에 스킬 뉴런의 존재를 복제하고 나아가 스킬 뉴런이 T5에도 존재하는 것처럼 보인다는 것을 보여준다. 흥미롭게도, 적대적이지 않은 데이터에서 결정된 T5의 기술 뉴런은 또한 적대적 데이터에서 가장 예측 가능한 뉴런 중 하나이며, 이는 RoBERTA의 경우가 아니다. 우리는 높은 적대적 견고성이 적대적 데이터에서 관련 기술 뉴런을 활성화하는 모델의 능력과 관련이 있을 수 있다고 결론짓는다. 

 

 

반응형

댓글