Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning
Despite recent advances in natural language understanding and generation, and decades of research on the development of conversational bots, building automated agents that can carry on rich open-ended conversations with humans "in the wild" remains a formidable challenge. In this work we develop a real-time, open-ended dialogue system that uses reinforcement learning (RL) to power a bot's conversational skill at scale. Our work pairs the succinct embedding of the conversation state generated using SOTA (supervised) language models with RL techniques that are particularly suited to a dynamic action space that changes as the conversation progresses. Trained using crowd-sourced data, our novel system is able to substantially exceeds the (strong) baseline supervised model with respect to several metrics of interest in a live experiment with real users of the Google Assistant.
최근 자연어 이해와 생성의 발전에도 불구하고, 대화형 봇 개발에 대한 수십 년간의 연구, 구축 인간과의 풍부한 오픈 엔드 대화를 수행할 수 있는 자동화된 에이전트 "야생에서"는 만만치 않은 도전으로 남아 있다. 이 작업에서 우리는 강화 학습(RL)을 사용하여 다음을 수행하는 실시간 개방형 대화 시스템 봇의 회화 실력을 키우다 우리의 일은 간결한 것과 짝을 이룬다. SOTA(감독) 언어를 사용하여 생성된 대화 상태 내장 동적 작용에 특히 적합한 RL 기법을 가진 모델 대화가 진행됨에 따라 변화하는 공간 크라우드소싱을 사용하여 교육됨 데이터, 우리의 새로운 시스템은 (강력한) 기준을 실질적으로 초과할 수 있다. 라이브에서 관심 있는 몇 가지 지표와 관련하여 감독된 모델 Google Assistant의 실제 사용자를 실험합니다.
SpanDrop: Simple and Effective Counterfactual Learning for Long Sequences
Distilling supervision signal from a long sequence to make predictions is a challenging task in machine learning, especially when not all elements in the input sequence contribute equally to the desired output. In this paper, we propose SpanDrop, a simple and effective data augmentation technique that helps models identify the true supervision signal in a long sequence with very few examples. By directly manipulating the input sequence, SpanDrop randomly ablates parts of the sequence at a time and ask the model to perform the same task to emulate counterfactual learning and achieve input attribution. Based on theoretical analysis of its properties, we also propose a variant of SpanDrop based on the beta-Bernoulli distribution, which yields diverse augmented sequences while providing a learning objective that is more consistent with the original dataset. We demonstrate the effectiveness of SpanDrop on a set of carefully designed toy tasks, as well as various natural language processing tasks that require reasoning over long sequences to arrive at the correct answer, and show that it helps models improve performance both when data is scarce and abundant.
예측하기 위해 긴 시퀀스에서 감독 신호를 증류하는 것은 기계 학습에서 도전적인 작업, 특히 모든 요소가 아닌 경우 입력 시퀀스는 원하는 출력에 동일하게 기여합니다. 이 논문에서, 우리는 SpanDrop을 제안합니다. SpanDrop은 다음과 같은 단순하고 효과적인 데이터 확대 기법입니다. 모델은 매우 적은 수의 긴 순서로 진정한 감독 신호를 식별한다. 예. 입력 시퀀스를 직접 조작하여 SpanDrop(스팬드롭) 한 번에 시퀀스의 일부를 절제하고 모델에게 동일한 작업을 수행하도록 요청합니다. 반사실적 학습을 모방하고 입력 속성을 달성하는 과제. 에 기반을 둔 그것의 특성에 대한 이론적 분석, 우리는 또한 SpanDrop의 변형을 제안한다. 다양한 증강을 산출하는 베타 베르누이 분포를 기반으로 합니다. 시퀀스들은 더 일관적인 학습 목표를 제공하면서 원본 데이터 집합입니다. 우리는 일련의 에 대한 SpanDrop의 효과를 입증한다. 다양한 자연어 처리뿐만 아니라 신중하게 설계된 장난감 작업 정확한 결과를 얻기 위해 긴 시퀀스에 대한 추론이 필요한 작업 그리고 데이터가 다음과 같을 때 모델의 성능 향상에 도움이 된다는 것을 보여 줍니다. 희소하고 풍부한
Benchmarking zero-shot and few-shot approaches for tokenization, tagging, and dependency parsing of Tagalog text
The grammatical analysis of texts in any human language typically involves a number of basic processing tasks, such as tokenization, morphological tagging, and dependency parsing. State-of-the-art systems can achieve high accuracy on these tasks for languages with large datasets, but yield poor results for languages such as Tagalog which have little to no annotated data. To address this issue for the Tagalog language, we investigate the use of auxiliary data sources for creating task-specific models in the absence of annotated Tagalog data. We also explore the use of word embeddings and data augmentation to improve performance when only a small amount of annotated Tagalog data is available. We show that these zero-shot and few-shot approaches yield substantial improvements on grammatical analysis of both in-domain and out-of-domain Tagalog text compared to state-of-the-art supervised baselines.
어떤 인간 언어에서든 텍스트의 문법적 분석은 전형적으로 다음을 포함한다. 토큰화, 형태학적 태깅과 같은 기본적인 처리 작업의 수 종속성 구문 분석입니다. 최첨단 시스템은 다음과 같은 높은 정확도를 달성할 수 있다. 큰 데이터 집합이 있는 언어에 대해 이러한 작업을 수행하지만, 다음과 같은 경우 결과가 좋지 않습니다. 주석이 달린 데이터가 거의 없는 타갈로그어와 같은 언어들 주소 지정 타갈로그 언어에 대한 이 이슈, 우리는 보조 데이터의 사용을 조사한다. 주석이 달린 Tagalog가 없는 경우 작업별 모델을 생성하기 위한 소스 우리는 또한 단어 임베딩과 데이터 증강의 사용을 탐구한다. 주석이 달린 Tagalog 데이터가 소량만 있을 때 성능 향상 이용할 수 있는. 우리는 이러한 제로샷 및 퓨샷 접근 방식이 다음을 산출한다는 것을 보여준다. 영역 내 및 영역 내에서의 문법 분석에 대한 상당한 개선 도메인 외부의 Tagalog 텍스트와 최첨단 감독 기준선을 비교합니다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-08-07] 오늘의 자연어처리 (0) | 2022.08.07 |
---|---|
[2022-08-07] 오늘의 자연어처리 (0) | 2022.08.07 |
[2022-08-07] 오늘의 자연어처리 (0) | 2022.08.07 |
[2022-08-07] 오늘의 자연어처리 (0) | 2022.08.07 |
[2022-08-07] 오늘의 자연어처리 (0) | 2022.08.07 |
댓글