본문 바로가기
오늘의 자연어 처리

[2023-11-16] 오늘의 자연어처리

by 지환이아빠 2023. 11. 16.
반응형

Extrinsically-Focused Evaluation of Omissions in Medical Summarization

 

Abstract:The goal of automated summarization techniques (Paice, 1990; Kupiec et al, 1995) is to condense text by focusing on the most critical information. Generative large language models (LLMs) have shown to be robust summarizers, yet traditional metrics struggle to capture resulting performance (Goyal et al, 2022) in more powerful LLMs. In safety-critical domains such as medicine, more rigorous evaluation is required, especially given the potential for LLMs to omit important information in the resulting summary. We propose MED-OMIT, a new omission benchmark for medical summarization. Given a doctor-patient conversation and a generated summary, MED-OMIT categorizes the chat into a set of facts and identifies which are omitted from the summary. We further propose to determine fact importance by simulating the impact of each fact on a downstream clinical task: differential diagnosis (DDx) generation. MED-OMIT leverages LLM prompt-based approaches which categorize the importance of facts and cluster them as supporting or negating evidence to the diagnosis. We evaluate MED-OMIT on a publicly-released dataset of patient-doctor conversations and find that MED-OMIT captures omissions better than alternative metrics.

 

초록:자동 요약 기법(Paice, 1990; Kupiec et al, 1995)의 목표는 가장 중요한 정보에 초점을 맞추어 텍스트를 압축하는 것이다. 생성 대형 언어 모델(LLM)은 강력한 요약기인 것으로 나타났지만, 전통적인 메트릭은 결과적인 성능(Goyal et al, 2022)을 보다 강력한 LLM에서 포착하는 데 어려움을 겪고 있다. 의학과 같은 안전에 중요한 영역에서는 보다 엄격한 평가가 필요하다, 특히 LLM이 결과 요약에서 중요한 정보를 생략할 수 있는 가능성을 고려할 때. 우리는 의학적 요약을 위한 새로운 누락 벤치마크인 MED-OMIT를 제안한다. MED-OMIT는 의사와 환자의 대화와 생성된 요약이 주어지면, 대화를 일련의 사실들로 분류하고 요약에서 어떤 것들이 빠졌는지를 식별한다. 또한 각 사실이 다운스트림 임상 작업인 DDX(Differential Diagnostic) 생성에 미치는 영향을 시뮬레이션하여 사실 중요성을 결정할 것을 제안한다. MED-OMIT는 사실의 중요성을 분류하고 진단에 대한 증거를 지지하거나 부정하는 증거로 군집화하는 LLM 신속 기반 접근법을 활용한다. 우리는 환자-의사 대화의 공개된 데이터 세트에서 MED-OMIT를 평가하고 MED-OMIT가 대체 메트릭보다 누락을 더 잘 포착한다는 것을 발견한다. 

 

 

Workflow-Guided Response Generation for Task-Oriented Dialogue

 

Abstract:Task-oriented dialogue (TOD) systems aim to achieve specific goals through interactive dialogue. Such tasks usually involve following specific workflows, i.e. executing a sequence of actions in a particular order. While prior work has focused on supervised learning methods to condition on past actions, they do not explicitly optimize for compliance to a desired workflow. In this paper, we propose a novel framework based on reinforcement learning (RL) to generate dialogue responses that are aligned with a given workflow. Our framework consists of ComplianceScorer, a metric designed to evaluate how well a generated response executes the specified action, combined with an RL opimization process that utilizes an interactive sampling technique. We evaluate our approach on two TOD datasets, Action-Based Conversations Dataset (ABCD) (Chen et al., 2021a) and MultiWOZ 2.2 (Zang et al., 2020) on a range of automated and human evaluation metrics. Our findings indicate that our RL-based framework outperforms baselines and is effective at enerating responses that both comply with the intended workflows while being expressed in a natural and fluent manner.

 

초록:과제 지향 대화(TOD) 시스템은 대화형 대화를 통해 구체적인 목표를 달성하는 것을 목표로 한다. 이러한 작업은 일반적으로 특정 워크플로우를 따르는 것, 즉 특정 순서로 일련의 작업을 실행하는 것을 포함한다. 이전 작업은 과거 작업을 조건으로 하는 감독 학습 방법에 초점을 맞추고 있지만, 원하는 작업 흐름에 대한 준수를 위해 명시적으로 최적화하지는 않는다. 본 논문에서는 주어진 워크플로우와 일치하는 대화 응답을 생성하기 위해 강화 학습(RL)을 기반으로 하는 새로운 프레임워크를 제안한다. 우리의 프레임워크는 생성된 응답이 지정된 작업을 얼마나 잘 실행하는지 평가하기 위해 설계된 메트릭인 ComplianceScoreer로 구성되어 있으며, 이는 대화형 샘플링 기법을 활용하는 RL 최적화 프로세스와 결합된다. 우리는 다양한 자동화 및 인간 평가 지표에 대한 두 가지 TOD 데이터 세트인 액션 기반 대화 데이터 세트(ABCD)(Chen et al., 2021a)와 MultiWOZ 2.2(Zang et al., 2020)에 대한 접근 방식을 평가한다. 우리의 연구 결과는 우리의 RL 기반 프레임워크가 기준선을 능가하고 자연스럽고 유창한 방식으로 표현되면서 의도된 워크플로우를 준수하는 응답을 생성하는 데 효과적이라는 것을 나타낸다. 

 

 

A Survey of Language Model Confidence Estimation and Calibration

 

Abstract:Language models (LMs) have demonstrated remarkable capabilities across a wide range of tasks in various domains. Despite their impressive performance, the reliability of their output is concerning and questionable regarding the demand for AI safety. Assessing the confidence of LM predictions and calibrating them across different tasks with the aim to align LM confidence with accuracy can help mitigate risks and enable LMs to make better decisions. There have been various works in this respect, but there has been no comprehensive overview of this important research area. The present survey aims to bridge this gap. In particular, we discuss methods and techniques for LM confidence estimation and calibration, encompassing different LMs and various tasks. We further outline the challenges of estimating the confidence for large language models and we suggest some promising directions for future work.

 

초록:언어 모델(LM)은 다양한 영역에서 광범위한 작업에 걸쳐 뛰어난 능력을 입증했다. 그들의 놀라운 성능에도 불구하고, 그들의 출력의 신뢰성은 AI 안전에 대한 요구에 대해 우려스럽고 의심스럽다. LM 신뢰도를 정확도와 일치시키기 위해 LM 예측의 신뢰도를 평가하고 다양한 작업에 걸쳐 보정하는 것은 위험을 완화하고 LM이 더 나은 결정을 내릴 수 있도록 하는 데 도움이 될 수 있다. 이러한 측면에서 다양한 연구가 진행되어 왔지만, 이 중요한 연구영역에 대한 종합적인 개관은 없었다. 이번 조사는 이러한 격차를 해소하는 것을 목표로 하고 있다. 특히 다양한 LM과 다양한 작업을 포괄하여 LM 신뢰도 추정 및 보정을 위한 방법과 기법에 대해 논의한다. 우리는 또한 대규모 언어 모델에 대한 신뢰도를 추정하는 문제를 설명하고 향후 작업을 위한 몇 가지 유망한 방향을 제안한다. 

 

 

반응형

댓글