본문 바로가기
오늘의 자연어 처리

[2022-12-16] 오늘의 자연어처리

by 지환이아빠 2022. 12. 16.
반응형

DialogQAE: N-to-N Question Answer Pair Extraction from Customer Service Chatlog

 

Harvesting question-answer (QA) pairs from customer service chatlog in the wild is an efficient way to enrich the knowledge base for customer service chatbots in the cold start or continuous integration scenarios. Prior work attempts to obtain 1-to-1 QA pairs from growing customer service chatlog, which fails to integrate the incomplete utterances from the dialog context for composite QA retrieval. In this paper, we propose N-to-N QA extraction task in which the derived questions and corresponding answers might be separated across different utterances. We introduce a suite of generative/discriminative tagging based methods with end-to-end and two-stage variants that perform well on 5 customer service datasets and for the first time setup a benchmark for N-to-N DialogQAE with utterance and session level evaluation metrics. With a deep dive into extracted QA pairs, we find that the relations between and inside the QA pairs can be indicators to analyze the dialogue structure, e.g. information seeking, clarification, barge-in and elaboration. We also show that the proposed models can adapt to different domains and languages, and reduce the labor cost of knowledge accumulation in the real-world product dialogue platform.

 

의 고객 서비스 채팅 로그에서 질문-응답(QA) 쌍 수집 와일드는 고객 서비스를 위한 지식 기반을 풍부하게 하는 효율적인 방법이다. 콜드 스타트 또는 연속 통합 시나리오에서 챗봇을 사용할 수 있습니다. 선행작업 성장하는 고객 서비스 채팅 로그에서 1 대 1 QA 쌍을 얻으려고 시도합니다. 대화 상자 컨텍스트의 불완전한 발화를 통합하지 못함 복합 QA 검색. 본 논문에서는 N-to-N QA 추출 작업을 제안한다. 파생된 질문과 해당 답변이 서로 분리될 수 있습니다. 다른 말 생성/차별 태그 제품군을 소개합니다. 5에서 잘 수행되는 엔드 투 엔드 및 2단계 변형을 기반으로 하는 방법 고객 서비스 데이터셋 및 최초로 N-to-N 벤치마크 설정 발화 및 세션 수준 평가 메트릭이 포함된 대화 상자 QAE. 딥 다이브로 추출된 QA 쌍으로, 우리는 QA 사이의 관계와 QA 내부의 관계를 발견한다. 쌍은 대화 구조를 분석하기 위한 지표가 될 수 있다. 탐색, 해명, 개입 및 정교화. 우리는 또한 그것을 보여준다. 제안된 모델은 다른 도메인과 언어에 적응할 수 있고, 감소시킬 수 있다. 실제 제품 대화에서 지식 축적에 따른 인건비 연단에 서다 

 

 

Quotations, Coreference Resolution, and Sentiment Annotations in Croatian News Articles: An Exploratory Study

 

This paper presents a corpus annotated for the task of direct-speech extraction in Croatian. The paper focuses on the annotation of the quotation, co-reference resolution, and sentiment annotation in SETimes news corpus in Croatian and on the analysis of its language-specific differences compared to English. From this, a list of the phenomena that require special attention when performing these annotations is derived. The generated corpus with quotation features annotations can be used for multiple tasks in the field of Natural Language Processing.

 

이 논문은 직접 음성 작업을 위해 주석이 달린 말뭉치를 제시한다. 크로아티아어로 발췌. 이 논문은 인용문의 주석에 초점을 맞추고 있다. SETimes 뉴스 코퍼스의 공동 참조 해결 및 정서 주석 크로아티아어와 비교한 언어별 차이 분석에 대해 영어. 이로부터, 다음과 같은 경우에 특별한 주의가 필요한 현상의 목록. 이러한 주석을 수행하는 것이 파생됩니다. 인용문이 있는 생성된 말뭉치 기능 주석은 Natural 필드에서 여러 작업에 사용할 수 있습니다. 언어 처리. 

 

 

Mitigating Negative Style Transfer in Hybrid Dialogue System

 

As the functionality of dialogue systems evolves, hybrid dialogue systems that accomplish user-specific goals and participate in open-topic chitchat with users are attracting growing attention. Existing research learns both tasks concurrently utilizing a multi-task fusion technique but ignores the negative transfer phenomenon induced by the unique textual style differences. Therefore, contrastive learning based on the latent variable model is used to decouple the various textual genres in the latent space. We devise supervised and self-supervised positive and negative sample constructions for diverse datasets. In addition, to capitalize on the style information contained in the decoupled latent variables, we employ a style prefix that incorporates latent variables further to control the generation of responses with varying styles. We performed extensive experiments on three dialogue datasets, including a hybrid dialogue dataset and two task-oriented dialogue datasets. The experimental results demonstrate that our method can mitigate the negative style transfer issue and achieves state-of-the-art performance on multiple dialogue datasets.

 

대화 시스템의 기능이 진화함에 따라 하이브리드 대화 시스템 사용자별 목표를 달성하고 다음과 함께 공개 대화에 참여하는 사용자들의 관심이 높아지고 있다. 기존 연구는 두 가지 작업을 모두 학습합니다. 멀티태스킹 융합 기술을 동시에 사용하지만 부정적인 것은 무시한다. 고유한 텍스트 스타일 차이에 의해 유도된 전송 현상. 그러므로, 잠재 변수 모델에 기반한 대조 학습은 다음을 분리하는 데 사용됩니다. 잠재된 공간의 다양한 텍스트 장르 우리는 감독과 다양성에 대한 자체 감독 양성 및 음성 샘플 구성 데이터 집합입니다. 또한, 에 포함된 스타일 정보를 활용하기 위해 분리된 잠재 변수, 우리는 잠재 변수를 통합하는 스타일 접두사를 사용한다. 다양한 스타일의 반응 생성을 제어하기 위한 변수입니다. 우리는 다음을 포함한 세 가지 대화 데이터 세트에 대한 광범위한 실험을 수행했다. 하이브리드 대화 데이터 세트와 두 가지 작업 지향 대화 데이터 세트. 그 실험 결과는 우리의 방법이 부정적인 것을 완화할 수 있다는 것을 보여준다. 스타일 전송 문제 및 다중에서 최첨단 성능 달성 대화형 데이터 세트. 

 

 

반응형

댓글