본문 바로가기
오늘의 자연어 처리

[2023-06-06] 오늘의 자연어처리

by 지환이아빠 2023. 6. 6.
반응형

Improving Generalization in Task-oriented Dialogues with Workflows and Action Plans

 

Task-oriented dialogue is difficult in part because it involves understanding user intent, collecting information from the user, executing API calls, and generating helpful and fluent responses. However, for complex tasks one must also correctly do all of these things over multiple steps, and in a specific order. While large pre-trained language models can be fine-tuned end-to-end to create multi-step task-oriented dialogue agents that generate fluent text, our experiments confirm that this approach alone cannot reliably perform new multi-step tasks that are unseen during training. To address these limitations, we augment the dialogue contexts given to \textmd{text2text} transformers with known \textit{valid workflow names} and \textit{action plans}. Action plans consist of sequences of actions required to accomplish a task, and are encoded as simple sequences of keywords (e.g. verify-identity, pull-up-account, reset-password, etc.). We perform extensive experiments on the Action-Based Conversations Dataset (ABCD) with T5-small, base and large models, and show that such models: a) are able to more readily generalize to unseen workflows by following the provided plan, and b) are able to generalize to executing unseen actions if they are provided in the plan. In contrast, models are unable to fully accomplish new multi-step tasks when they are not provided action plan information, even when given new valid workflow names.

 

업무 중심의 대화는 부분적으로 이해를 포함하기 때문에 어렵다 사용자 의도, 사용자로부터 정보 수집, API 호출 실행 및 유용하고 유창한 응답을 생성합니다. 그러나 복잡한 작업의 경우 다음과 같은 작업을 수행해야 합니다 또한 이 모든 것들을 여러 단계에 걸쳐 정확하게, 그리고 특정한 사전 훈련된 대규모 언어 모델은 엔드 투 엔드로 미세 조정될 수 있다 유창한 텍스트를 생성하는 다단계 작업 지향 대화 에이전트를 만듭니다 실험은 이 접근법만으로는 새로운 것을 신뢰할 수 없다는 것을 확인한다 훈련 중에 보이지 않는 다단계 작업. 이러한 한계를 해결하기 위해, 우리는 \textmd{text2text} 변환기에 주어진 대화 컨텍스트를 다음과 같이 증가시킨다 알려진 \textit{proflow names} 및 \textit{action plan}. 실행 계획 작업을 수행하는 데 필요한 일련의 작업으로 구성되며 인코딩됩니다 간단한 키워드 시퀀스(예: 확인-수정, 풀업-계정, 암호 재설정 등). 우리는 행동 기반에 대한 광범위한 실험을 수행한다 T5-소형, 기본 및 대형 모델이 포함된 대화 데이터 세트(ABCD) 및 쇼 그러한 모델: a) 보이지 않는 워크플로우를 보다 쉽게 일반화할 수 있다 제공된 계획을 따르고, b) 보이지 않는 실행으로 일반화할 수 있다 계획에 제공된 경우 수행. 이와 대조적으로 모델은 다음을 수행할 수 없습니다 실행 계획이 제공되지 않은 경우 새로운 다단계 작업을 완전히 수행합니다 정보(새로 유효한 워크플로 이름이 지정된 경우에도). 

 

 

Distilling Efficient Language-Specific Models for Cross-Lingual Transfer

 

Massively multilingual Transformers (MMTs), such as mBERT and XLM-R, are widely used for cross-lingual transfer learning. While these are pretrained to represent hundreds of languages, end users of NLP systems are often interested only in individual languages. For such purposes, the MMTs' language coverage makes them unnecessarily expensive to deploy in terms of model size, inference time, energy, and hardware cost. We thus propose to extract compressed, language-specific models from MMTs which retain the capacity of the original MMTs for cross-lingual transfer. This is achieved by distilling the MMT bilingually, i.e., using data from only the source and target language of interest. Specifically, we use a two-phase distillation approach, termed BiStil: (i) the first phase distils a general bilingual model from the MMT, while (ii) the second, task-specific phase sparsely fine-tunes the bilingual "student" model using a task-tuned variant of the original MMT as its "teacher". We evaluate this distillation technique in zero-shot cross-lingual transfer across a number of standard cross-lingual benchmarks. The key results indicate that the distilled models exhibit minimal degradation in target language performance relative to the base MMT despite being significantly smaller and faster. Furthermore, we find that they outperform multilingually distilled models such as DistilmBERT and MiniLMv2 while having a very modest training budget in comparison, even on a per-language basis. We also show that bilingual models distilled from MMTs greatly outperform bilingual models trained from scratch. Our code and models are available at this https URL.

 

mBERT와 XLM-R과 같은 대규모 다국어 트랜스포머(MMT)는 다음과 같다 다국어 전이 학습에 널리 사용된다. 이것들이 사전 훈련을 받는 동안 수백 개의 언어를 대표하며, NLP 시스템의 최종 사용자는 종종 관심이 있습니다 개별 언어로만. 이러한 목적을 위해 MMT의 언어 범위는 모델 크기, 추론 측면에서 배치 비용이 불필요하게 많이 든다 시간, 에너지 및 하드웨어 비용. 따라서 압축된 데이터를 추출할 것을 제안합니다, 원본의 용량을 유지하는 MMT의 언어별 모델 언어 간 전송을 위한 MMT. 이는 MMT를 증류함으로써 달성됩니다 이중 언어로, 즉, 소스 언어와 대상 언어의 데이터만 사용하는 것 흥미. 구체적으로, 우리는 2상 증류 접근법을 사용한다 BiStil: (i) 첫 번째 단계는 MMT에서 일반적인 이중 언어 모델을 증류한다, (ii) 두 번째 과제별 단계는 두 언어를 드물게 미세 조정한다 원래 MMT의 작업 조정 변형을 사용하는 "학생" 모델 "선생님"입니다. 우리는 제로샷 교차 언어로 이 증류 기술을 평가한다 여러 표준 교차 언어 벤치마크를 통해 전송합니다. 주요 결과 증류된 모델이 목표값의 저하를 최소화함을 나타냅니다 기본 MMT와 관련된 언어 성능이 상당히 높음에도 불구하고 더 작고 더 빨리. 게다가, 우리는 그들이 다국어를 능가한다는 것을 발견했다 증류된 모델(예: DistilmB)ERT와 MiniLMv2는 매우 겸손하지만 교육 예산 비교, 언어별 기준으로도. 우리는 또한 그것을 보여준다 MMT에서 추출한 이중 언어 모델은 이중 언어 모델보다 훨씬 우수합니다 처음부터 훈련된. 코드 및 모델은 다음 사이트에서 사용할 수 있습니다 이 https URL. 

 

 

DiffusEmp: A Diffusion Model-Based Framework with Multi-Grained Control for Empathetic Response Generation

 

Empathy is a crucial factor in open-domain conversations, which naturally shows one's caring and understanding to others. Though several methods have been proposed to generate empathetic responses, existing works often lead to monotonous empathy that refers to generic and safe expressions. In this paper, we propose to use explicit control to guide the empathy expression and design a framework DiffusEmp based on conditional diffusion language model to unify the utilization of dialogue context and attribute-oriented control signals. Specifically, communication mechanism, intent, and semantic frame are imported as multi-grained signals that control the empathy realization from coarse to fine levels. We then design a specific masking strategy to reflect the relationship between multi-grained signals and response tokens, and integrate it into the diffusion model to influence the generative process. Experimental results on a benchmark dataset EmpatheticDialogue show that our framework outperforms competitive baselines in terms of controllability, informativeness, and diversity without the loss of context-relatedness.

 

공감은 오픈 도메인 대화의 중요한 요소이며, 이는 자연스럽게 다른 사람들에게 자신의 배려와 이해를 보여준다. 여러 가지 방법이 있지만 공감적인 반응을 생성하기 위해 제안되었으며, 기존의 작업은 종종 다음으로 이어진다 일반적이고 안전한 표현을 언급하는 단조로운 공감. 이 논문에서, 우리는 공감 표현을 안내하고 디자인하기 위해 명시적인 통제를 사용할 것을 제안한다 조건부 확산 언어 모델을 기반으로 한 프레임워크 DiffusEmp를 통합합니다 대화 컨텍스트 및 속성 지향 제어 신호의 활용. 구체적으로 커뮤니케이션 메커니즘, 의도 및 의미 프레임을 가져옵니다 공감 실현을 거친 것에서 거친 것으로 제어하는 다중 입자 신호로서 미세한 수준. 그런 다음 특정 마스킹 전략을 설계하여 다음을 반영합니다 다중 입자 신호와 응답 토큰 간의 관계, 그리고 통합 생성 과정에 영향을 미치는 확산 모델로 들어갑니다. 실험적 벤치마크 데이터 세트 공감 대화의 결과는 우리의 프레임워크를 보여준다 통제 가능성, 정보성, 정보성 측면에서 경쟁 기준선을 능가합니다, 맥락 관련성을 잃지 않고 다양성을 제공합니다. 

 

 

반응형

댓글