본문 바로가기
오늘의 자연어 처리

[2023-02-25] 오늘의 자연어처리

by 지환이아빠 2023. 2. 25.
반응형

Empathetic Response Generation via Emotion Cause Transition Graph

 

Empathetic dialogue is a human-like behavior that requires the perception of both affective factors (e.g., emotion status) and cognitive factors (e.g., cause of the emotion). Besides concerning emotion status in early work, the latest approaches study emotion causes in empathetic dialogue. These approaches focus on understanding and duplicating emotion causes in the context to show empathy for the speaker. However, instead of only repeating the contextual causes, the real empathic response often demonstrate a logical and emotion-centered transition from the causes in the context to those in the responses. In this work, we propose an emotion cause transition graph to explicitly model the natural transition of emotion causes between two adjacent turns in empathetic dialogue. With this graph, the concept words of the emotion causes in the next turn can be predicted and used by a specifically designed concept-aware decoder to generate the empathic response. Automatic and human experimental results on the benchmark dataset demonstrate that our method produces more empathetic, coherent, informative, and specific responses than existing models.

 

공감적 대화는 다음과 같은 인식을 필요로 하는 인간과 같은 행동이다 감정적 요인(예: 감정 상태)과 인지적 요인(예: 감정의 원인). 초기 작업에서 감정 상태에 관한 것 외에도 최근의 접근법들은 공감적인 대화에서 감정의 원인을 연구한다. 이 접근법들 보여줄 맥락에서 감정의 원인을 이해하고 복제하는 데 초점을 맞춘다 화자에 대한 공감. 그러나 상황에 따라 반복하는 대신 원인, 진정한 공감 반응은 종종 논리적이고 감정 중심적인 변화는 문맥상의 원인에서 다음과 같은 원인으로 이동한다 회답. 본 연구에서, 우리는 감정 원인 전환 그래프를 다음과 같이 제안한다 인접한 두 사람 사이의 감정의 자연스러운 전이를 명시적으로 모델링하다 공감하는 대화로 바뀌다. 이 그래프로 감정의 개념 단어들은 다음 차례의 원인은 구체적으로 설계된 사람에 의해 예측되고 사용될 수 있다 개념 인식 디코더를 사용하여 공감 응답을 생성합니다. 자동 및 인간 벤치마크 데이터 세트에 대한 실험 결과는 우리의 방법을 보여준다 보다 더 공감적이고, 일관성 있고, 정보적이고, 구체적인 반응을 생산한다 기존 모델. 

 

 

Prosodic segmentation for parsing spoken dialogue

 

Parsing spoken dialogue poses unique difficulties, including disfluencies and unmarked boundaries between sentence-like units. Previous work has shown that prosody can help with parsing disfluent speech (Tran et al. 2018), but has assumed that the input to the parser is already segmented into sentence-like units (SUs), which isn't true in existing speech applications. We investigate how prosody affects a parser that receives an entire dialogue turn as input (a turn-based model), instead of gold standard pre-segmented SUs (an SU-based model). In experiments on the English Switchboard corpus, we find that when using transcripts alone, the turn-based model has trouble segmenting SUs, leading to worse parse performance than the SU-based model. However, prosody can effectively replace gold standard SU boundaries: with prosody, the turn-based model performs as well as the SU-based model (90.79 vs. 90.65 F1 score, respectively), despite performing two tasks (SU segmentation and parsing) rather than one (parsing alone). Analysis shows that pitch and intensity features are the most important for this corpus, since they allow the model to correctly distinguish an SU boundary from a speech disfluency -- a distinction that the model otherwise struggles to make.

 

구어 대화를 구문 분석하는 것은 불연속성과 같은 고유한 어려움을 제기한다 문장과 같은 단위 사이의 표시되지 않은 경계. 이전 연구에서 다음과 같이 보여준다 운율은 분산 스피치 구문 분석에 도움이 될 수 있지만(Tran 등 2018) 파서에 대한 입력이 이미 문장과 같은 형태로 분할되었다고 가정한다 유닛(SU), 기존 음성 애플리케이션에서는 그렇지 않습니다. 우리는 조사한다 프로소디가 전체 대화 턴을 입력으로 받는 파서에 미치는 영향(a) 턴 기반 모델), 골드 표준 사전 세그먼트 SU(SU 기반) 대신 모델). 영어 교환 말뭉치에 대한 실험에서, 우리는 다음과 같은 것을 발견한다 성적서만 사용하면 턴제 모델은 SU를 세분화하는 데 어려움을 겪습니다, SU 기반 모델보다 구문 분석 성능이 저하됩니다. 하지만, 운율은 골드 표준 SU 경계를 효과적으로 대체할 수 있다: 운율로 턴 기반 모델은 SU 기반 모델과 마찬가지로 우수한 성능을 발휘합니다(90.79 대 90.65 F1) 두 가지 작업(SU 세분화 및 하나가 아니라 구문 분석). 분석 결과 피치와 강도 특징은 이 말뭉치에 가장 중요하다, 왜냐하면 그것들은 그것들을 허용하기 때문이다 SU 경계와 음성 장애를 정확하게 구별하는 모델 - a 모델이 그렇지 않으면 만들기 힘든 구별. 

 

 

HL Dataset: Grounding High-Level Linguistic Concepts in Vision

 

Current captioning datasets, focus on object-centric captions, describing the visible objects in the image, often ending up stating the obvious (for humans), e.g. "people eating food in a park". Although these datasets are useful to evaluate the ability of Vision & Language models to recognize the visual content, they lack in expressing trivial abstract concepts, e.g. "people having a picnic". Such concepts are licensed by human's personal experience and contribute to forming common sense assumptions. We present the High-Level Dataset; a dataset extending 14997 images of the COCO dataset with 134973 human-annotated (high-level) abstract captions collected along three axes: scenes, actions and rationales. We describe and release such dataset and we show how it can be used to assess models' multimodal grounding of abstract concepts and enrich models' visio-lingusitic representations. Moreover, we describe potential tasks enabled by this dataset involving high- and low-level concepts interactions.

 

현재 캡션 데이터 세트, 객체 중심 캡션에 초점, 설명 이미지에서 눈에 보이는 물체, 종종 (인간에게) 명백한 것을 진술하게 된다, 예: "공원에서 음식을 먹는 사람들". 이러한 데이터 세트는 다음과 같은 경우에도 유용합니다 시각을 인식하는 비전 및 언어 모델의 능력을 평가한다 내용, 그들은 사소한 추상적 개념을 표현하는 데 부족하다. 예를 들어 "사람들은 다음을 가지고 있습니다 소풍." 그러한 개념들은 인간의 개인적인 경험과 상식적인 가정을 형성하는 데 기여하다. 우리는 높은 수준을 제시한다 데이터 세트: 134973을 사용하여 COCO 데이터 세트의 14997 이미지를 확장하는 데이터 세트 세 개의 축을 따라 수집된 인간 수준(고급) 추상 캡션: 장면, 행동, 이성. 우리는 그러한 데이터 세트를 설명하고 공개하고 우리는 모델의 추상적인 다중 모드 기초를 평가하는 데 어떻게 사용할 수 있는지 보여줍니다 개념 및 모델의 비전 언어 표현을 풍부하게 한다. 게다가 우리는 높은 수준과 낮은 수준을 포함하는 이 데이터 세트에 의해 가능한 잠재적인 작업을 설명합니다 개념 상호 작용. 

 

 

반응형

댓글