본문 바로가기
오늘의 자연어 처리

[2022-10-03] 오늘의 자연어처리

by 지환이아빠 2022. 10. 3.
반응형

An Equal-Size Hard EM Algorithm for Diverse Dialogue Generation

 

Open-domain dialogue systems aim to interact with humans through natural language texts in an open-ended fashion. However, the widely successful neural networks may not work well for dialogue systems, as they tend to generate generic responses. In this work, we propose an Equal-size Hard Expectation--Maximization (EqHard-EM) algorithm to train a multi-decoder model for diverse dialogue generation. Our algorithm assigns a sample to a decoder in a hard manner and additionally imposes an equal-assignment constraint to ensure that all decoders are well-trained. We provide detailed theoretical analysis to justify our approach. Further, experiments on two large-scale, open-domain dialogue datasets verify that our EqHard-EM algorithm generates high-quality diverse responses.

 

개방형 도메인 대화 시스템은 자연을 통해 인간과 상호 작용하는 것을 목표로 한다. 자유자재로 된 언어 교재 하지만, 널리 성공한 신경은 네트워크는 대화 시스템에 대해 잘 작동하지 않을 수 있습니다. 그들이 생성하는 경향이 있기 때문입니다. 일반적인 반응 이 작업에서, 우리는 동일한 크기의 하드를 제안한다. 기대--멀티 디코더 모델을 훈련시키기 위한 최대화(EqHard-EM) 알고리즘 다양한 대화 생성을 위해. 우리의 알고리즘은 샘플을 디코더에 할당한다. 강경한 태도로, 그리고 추가적으로 확실하게 하기 위해 동등한 구속조건을 부과한다. 모든 디코더들이 잘 훈련되어 있다는 것을. 우리는 상세한 이론적 분석을 제공한다. 우리의 접근을 정당화하다. 또한, 두 개의 대규모 오픈 도메인에 대한 실험 대화 데이터 세트는 우리의 EqHard-EM 알고리즘이 고품질을 생성하는지 검증한다. 여러 가지 반응 

 

 

Downstream Datasets Make Surprisingly Good Pretraining Corpora

 

For most natural language processing tasks, the dominant practice is to finetune large pretrained transformer models (e.g., BERT) using smaller downstream datasets. Despite the success of this approach, it remains unclear to what extent these gains are attributable to the massive background corpora employed for pretraining versus to the pretraining objectives themselves. This paper introduces a large-scale study of self-pretraining, where the same (downstream) training data is used for both pretraining and finetuning. In experiments addressing both ELECTRA and RoBERTa models and 10 distinct downstream datasets, we observe that self-pretraining rivals standard pretraining on the BookWiki corpus (despite using around $10\times$--$500\times$ less data), outperforming the latter on $7$ and $5$ datasets, respectively. Surprisingly, these task-specific pretrained models often perform well on other tasks, including the GLUE benchmark. Our results suggest that in many scenarios, performance gains attributable to pretraining are driven primarily by the pretraining objective itself and are not always attributable to the incorporation of massive datasets. These findings are especially relevant in light of concerns about intellectual property and offensive content in web-scale pretraining data.

 

대부분의 자연어 처리 작업에서, 지배적인 관행은 다음과 같다. 소형으로 사전 훈련된 대형 변압기 모델(예: BERT)을 사용합니다. 다운스트림 데이터 세트 이 접근법의 성공에도 불구하고, 여전히 불분명하다. 이러한 이득이 어느 정도까지 거대한 배경 말뭉치에 기인하는가. 사전 훈련 목적 자체와 비교하여 사전 훈련을 위해 사용됩니다. 이것. 논문은 자기예습에 대한 대규모 연구를 소개하는데, 여기서도 마찬가지이다. (다운스트림) 훈련 데이터는 사전 훈련과 미세 조정에 모두 사용된다. 인 ELCTRA 및 RoBERTa 모델 및 10가지 개별 모델을 다루는 실험 다운스트림 데이터 세트, 우리는 자체 사전 훈련이 표준과 경쟁한다는 것을 관찰한다. 경전에 대한 사전 교육위키 말뭉치 (주변 사용에도 불구하고) $10\times$--$500\times$ 적은 데이터), $7$ 및 $5$에서 후자를 능가함 데이터 세트. 놀랍게도, 이러한 작업별 사전 교육 모델 GLUE 벤치마크를 비롯한 다른 작업에서도 우수한 성능을 발휘하는 경우가 많습니다. 우리의 결과 많은 시나리오에서 사전 교육으로 인한 성능 향상이 제안됩니다. 주로 사전 훈련 목표 자체에 의해 주도되며 항상 그렇지는 않다. 대규모 데이터 세트의 통합에 기인한다. 이 결과들은 지적 재산에 대한 우려에 비추어 특히 관련이 있다. 웹 스케일 사전 교육 데이터의 불쾌한 내용입니다. 

 

 

Dynamic Prompt Learning via Policy Gradient for Semi-structured Mathematical Reasoning

 

Mathematical reasoning, a core ability of human intelligence, presents unique challenges for machines in abstract thinking and logical reasoning. Recent large pre-trained language models such as GPT-3 have achieved remarkable progress on mathematical reasoning tasks written in text form, such as math word problems (MWP). However, it is unknown if the models can handle more complex problems that involve math reasoning over heterogeneous information, such as tabular data. To fill the gap, we present Tabular Math Word Problems (TabMWP), a new dataset containing 38,431 open-domain grade-level problems that require mathematical reasoning on both textual and tabular data. Each question in TabMWP is aligned with a tabular context, which is presented as an image, semi-structured text, and a structured table. There are two types of questions: free-text and multi-choice, and each problem is annotated with gold solutions to reveal the multi-step reasoning process. We evaluate different pre-trained models on TabMWP, including the GPT-3 model in a few-shot setting. As earlier studies suggest, since few-shot GPT-3 relies on the selection of in-context examples, its performance is unstable and can degrade to near chance. The unstable issue is more severe when handling complex problems like TabMWP. To mitigate this, we further propose a novel approach, PromptPG, which utilizes policy gradient to learn to select in-context examples from a small amount of training data and then constructs the corresponding prompt for the test example. Experimental results show that our method outperforms the best baseline by 5.31% on the accuracy metric and reduces the prediction variance significantly compared to random selection, which verifies its effectiveness in the selection of in-context examples.

 

인간 지능의 핵심 능력인 수학적 추론은 독특하다. 추상적 사고와 논리적 추론의 기계에 대한 도전. 최근. GPT-3와 같은 사전 훈련된 대규모 언어 모델은 주목할 만한 성과를 거두었다. 수학과 같은 텍스트 형식으로 쓰여진 수학적 추론 작업에 대한 진행 단어 문제(MWP) 그러나 이 모델들이 더 많은 것을 다룰 수 있을지는 알려지지 않았다. 이질적인 정보에 대한 수학 추론을 포함하는 복잡한 문제들, 예를 들어 표 형식의 데이터입니다. 공백을 메우기 위해 표 형식의 수학 단어 문제를 제시합니다. (TabMWP), 38,431개의 개방형 도메인 등급 수준 문제를 포함하는 새로운 데이터 세트. 텍스트 데이터와 표 형식 데이터 모두에 대한 수학적 추론을 요구합니다. 각 질문 TabMWP는 영상으로 표시되는 표 형식의 컨텍스트와 정렬됩니다. 반구조 텍스트 및 구조화된 표입니다. 두 가지 유형의 질문이 있습니다. 자유 텍스트와 다중 선택, 그리고 각각의 문제는 금색 해결책으로 주석이 달려 있다. 다단계 추론 과정을 밝히기 위해. 우리는 서로 다른 사전 교육을 평가합니다. TabMWP의 모델에는 몇 번의 촬영 설정에서 GPT-3 모델이 포함됩니다. 아까처럼 연구에 따르면 퓨샷 GPT-3는 컨텍스트 선택에 의존하기 때문에 예를 들어, 성능이 불안정하고 거의 확률로 저하될 수 있습니다. 그 TabMWP와 같은 복잡한 문제를 처리할 때 불안정한 문제는 더 심각합니다. 로. 이를 완화하기 위해, 우리는 다음을 사용하는 새로운 접근법인 PromptPG를 추가로 제안한다. 정책 그래디언트 - 소량의 제품에서 내부 예제를 선택하는 방법을 학습합니다. 교육 데이터 및 해당 테스트 프롬프트 구성 예. 실험 결과는 우리의 방법이 최고의 성능을 능가한다는 것을 보여준다. 정확도 측정 기준에서 5.31% 기준치 및 예측 분산 감소 무작위 선택과 상당히 비교하여, 그것은 그것의 효과를 검증한다. 예제의 선택 

 

 

반응형

댓글