본문 바로가기
오늘의 자연어 처리

[2023-09-16] 오늘의 자연어처리

by 지환이아빠 2023. 9. 16.
반응형

Ambiguity-Aware In-Context Learning with Large Language Models

 

Abstract:In-context learning (ICL) i.e. showing LLMs only a few task-specific demonstrations has led to downstream gains with no task-specific fine-tuning required. However, LLMs are sensitive to the choice of prompts, and therefore a crucial research question is how to select good demonstrations for ICL. One effective strategy is leveraging semantic similarity between the ICL demonstrations and test inputs by using a text retriever, which however is sub-optimal as that does not consider the LLM's existing knowledge about that task. From prior work (Min et al., 2022), we already know that labels paired with the demonstrations bias the model predictions. This leads us to our hypothesis whether considering LLM's existing knowledge about the task, especially with respect to the output label space can help in a better demonstration selection strategy. Through extensive experimentation on three text classification tasks, we find that it is beneficial to not only choose semantically similar ICL demonstrations but also to choose those demonstrations that help resolve the inherent label ambiguity surrounding the test example. Interestingly, we find that including demonstrations that the LLM previously mis-classified and also fall on the test example's decision boundary, brings the most performance gain.

 

초록:상황 내 학습(ICL), 즉 LLM을 몇 가지 작업별 시연만 보여주면 작업별 미세 조정이 필요 없는 다운스트림 이득이 발생했다. 그러나 LLM은 프롬프트 선택에 민감하기 때문에 ICL에 대한 좋은 시연을 선택하는 방법이 중요한 연구 문제이다. 효과적인 전략 중 하나는 텍스트 검색기를 사용하여 ICL 시연과 테스트 입력 사이의 의미론적 유사성을 활용하는 것이지만, 이는 해당 작업에 대한 LLM의 기존 지식을 고려하지 않기 때문에 차선의 것이다. 이전 연구(Min et al., 2022)를 통해, 우리는 이미 시연과 짝을 이룬 레이블이 모델 예측에 편향된다는 것을 알고 있다. 이것은 특히 출력 레이블 공간과 관련하여 작업에 대한 LLM의 기존 지식을 고려하는 것이 더 나은 시연 선택 전략에 도움이 될 수 있는지에 대한 가설로 이어진다. 세 가지 텍스트 분류 작업에 대한 광범위한 실험을 통해 의미론적으로 유사한 ICL 시연을 선택할 뿐만 아니라 테스트 예제를 둘러싼 고유한 레이블 모호성을 해결하는 데 도움이 되는 시연을 선택하는 것이 유용하다는 것을 발견했다. 흥미롭게도, 우리는 LLM이 이전에 잘못 분류되었고 또한 테스트 예제의 결정 경계에 속한다는 시연을 포함하는 것이 가장 많은 성능 이득을 가져온다는 것을 발견한다. 

 

 

Explaining Speech Classification Models via Word-Level Audio Segments and Paralinguistic Features

 

Abstract:Recent advances in eXplainable AI (XAI) have provided new insights into how models for vision, language, and tabular data operate. However, few approaches exist for understanding speech models. Existing work focuses on a few spoken language understanding (SLU) tasks, and explanations are difficult to interpret for most users. We introduce a new approach to explain speech classification models. We generate easy-to-interpret explanations via input perturbation on two information levels. 1) Word-level explanations reveal how each word-related audio segment impacts the outcome. 2) Paralinguistic features (e.g., prosody and background noise) answer the counterfactual: ``What would the model prediction be if we edited the audio signal in this way?'' We validate our approach by explaining two state-of-the-art SLU models on two speech classification tasks in English and Italian. Our findings demonstrate that the explanations are faithful to the model's inner workings and plausible to humans. Our method and findings pave the way for future research on interpreting speech models.

 

초록:최근 이엑스플레블 AI(XAI)의 발전은 비전, 언어 및 표 형태의 데이터 모델이 어떻게 작동하는지에 대한 새로운 통찰력을 제공했다. 그러나 음성 모델을 이해하기 위한 접근법은 거의 존재하지 않는다. 기존 작업은 몇 가지 구어 이해(SLU) 작업에 초점을 맞추고 있으며, 설명은 대부분의 사용자가 해석하기 어렵다. 우리는 음성 분류 모델을 설명하기 위한 새로운 접근법을 소개한다. 우리는 두 가지 정보 수준에 대한 입력 섭동을 통해 해석하기 쉬운 설명을 생성한다. 1) 단어 수준 설명은 각 단어 관련 오디오 세그먼트가 결과에 어떻게 영향을 미치는지 보여준다. 2) 병렬 언어적 특징(예: 운율 및 배경 소음)은 반 사실인 "만약 우리가 오디오 신호를 이런 식으로 편집한다면 모델 예측은 어떻게 될까?"에 대한 답을 준다. 우리는 두 가지 음성 분류 작업에 대한 두 가지 최첨단 SLU 모델을 영어와 이탈리아어로 설명함으로써 우리의 접근 방식을 검증한다. 우리의 결과는 설명이 모델의 내부 작동에 충실하고 인간에게는 그럴듯하다는 것을 보여준다. 우리의 방법과 발견은 음성 모델 해석에 대한 향후 연구를 위한 길을 열어준다. 

 

 

Text Classification of Cancer Clinical Trial Eligibility Criteria

 

Abstract:Automatic identification of clinical trials for which a patient is eligible is complicated by the fact that trial eligibility is stated in natural language. A potential solution to this problem is to employ text classification methods for common types of eligibility criteria. In this study, we focus on seven common exclusion criteria in cancer trials: prior malignancy, human immunodeficiency virus, hepatitis B, hepatitis C, psychiatric illness, drug/substance abuse, and autoimmune illness. Our dataset consists of 764 phase III cancer trials with these exclusions annotated at the trial level. We experiment with common transformer models as well as a new pre-trained clinical trial BERT model. Our results demonstrate the feasibility of automatically classifying common exclusion criteria. Additionally, we demonstrate the value of a pre-trained language model specifically for clinical trials, which yields the highest average performance across all criteria.

 

초록:환자가 대상이 되는 임상시험을 자동으로 식별하는 것은 시험적격성이 자연어로 표기된다는 점 때문에 복잡하다. 이 문제에 대한 잠재적인 해결책은 일반적인 유형의 적격성 기준에 대해 텍스트 분류 방법을 사용하는 것이다. 본 연구에서는 암실험에서 공통적으로 배제되는 7가지 기준인 사전악성, 인체면역결핍바이러스, B형간염, C형간염, 정신질환, 약물/물질남용, 자가면역질환을 중심으로 논의한다. 우리의 데이터 세트는 시험 수준에서 주석이 달린 이러한 제외 사항이 있는 764개의 3상 암 시험으로 구성되어 있다. 우리는 일반적인 변압기 모델과 사전 훈련된 새로운 임상 시험 BERT 모델로 실험한다. 우리의 결과는 공통 배제 기준을 자동으로 분류할 수 있는 가능성을 보여준다. 또한 모든 기준에서 가장 높은 평균 성능을 제공하는 임상 시험을 위해 특별히 훈련된 언어 모델의 가치를 입증한다. 

 

 

반응형

댓글