Helping the Weak Makes You Strong: Simple Multi-Task Learning Improves Non-Autoregressive Translators
Recently, non-autoregressive (NAR) neural machine translation models have received increasing attention due to their efficient parallel decoding. However, the probabilistic framework of NAR models necessitates conditional independence assumption on target sequences, falling short of characterizing human language data. This drawback results in less informative learning signals for NAR models under conventional MLE training, thereby yielding unsatisfactory accuracy compared to their autoregressive (AR) counterparts. In this paper, we propose a simple and model-agnostic multi-task learning framework to provide more informative learning signals. During training stage, we introduce a set of sufficiently weak AR decoders that solely rely on the information provided by NAR decoder to make prediction, forcing the NAR decoder to become stronger or else it will be unable to support its weak AR partners. Experiments on WMT and IWSLT datasets show that our approach can consistently improve accuracy of multiple NAR baselines without adding any additional decoding overhead.
최근에, 비자기 회귀(NAR) 신경 기계 번역 모델은 효율적인 병렬 디코딩으로 인해 점점 더 많은 관심을 받았다. 그러나 NAR 모델의 확률론적 프레임워크는 조건부이다. 대상 시퀀스에 대한 독립성 가정, 특성화에 미치지 못함 인간 언어 데이터 이 단점은 덜 유익한 학습 신호를 초래한다. 기존 MLE 교육에서 NAR 모델의 경우, 따라서 불만족스러운 결과를 산출합니다. 자기 회귀(AR)와 비교한 정확도. 이 논문에서, 우리는 제공할 단순하고 모델에 구애받지 않는 멀티태스킹 학습 프레임워크를 제안합니다. 더 많은 정보를 제공하는 학습 신호. 교육 단계에서, 우리는 다음을 소개한다. 제공된 정보에만 의존하는 충분히 약한 AR 디코더 NAR 디코더를 예측하여 NAR 디코더를 더 강하게 하거나 그렇지 않으면 약한 AR 파트너를 지원할 수 없습니다. WMT에 대한 실험과 IWSLT 데이터셋은 우리의 접근 방식이 지속적으로 정확성을 향상시킬 수 있음을 보여준다. 추가 디코딩 오버헤드를 추가하지 않고 여러 NAR 기준선을 사용할 수 있습니다.
Measuring Reliability of Large Language Models through Semantic Consistency
While large pretrained language models (PLMs) demonstrate incredible fluency and performance on many natural language tasks, recent work has shown that well-performing PLMs are very sensitive to what prompts are feed into them. Even when prompts are semantically identical, language models may give very different answers. When considering safe and trustworthy deployments of PLMs we would like their outputs to be consistent under prompts that mean the same thing or convey the same intent. While some work has looked into how state-of-the-art PLMs address this need, they have been limited to only evaluating lexical equality of single- or multi-word answers and do not address consistency of generative text sequences. In order to understand consistency of PLMs under text generation settings, we develop a measure of semantic consistency that allows the comparison of open-ended text outputs. We implement several versions of this consistency metric to evaluate the performance of a number of PLMs on paraphrased versions of questions in the TruthfulQA dataset, we find that our proposed metrics are considerably more consistent than traditional metrics embodying lexical consistency, and also correlate with human evaluation of output consistency to a higher degree.
대규모 사전 훈련된 언어 모델(PLM)은 놀라운 유창성을 보여준다. 그리고 많은 자연어 작업에 대한 성과, 최근의 연구는 다음을 보여주었다. 성능이 우수한 PLM은 어떤 프롬프트가 PLM에 입력되는지에 매우 민감합니다. 프롬프트가 의미론적으로 동일하더라도 언어 모델은 다음을 제공할 수 있다. 다른 대답들 안전하고 신뢰할 수 있는 PLM 구축을 고려할 때 동일한 의미인 프롬프트에서 출력이 일관되기를 원합니다. 같은 의도를 전달하거나. 몇 가지 작업이 방법을 조사한 반면 최첨단 PLM은 이러한 요구를 해결하며, 그것들은 오직 그것들로만 제한되었다. 단일 단어 또는 다중 단어 답변의 어휘적 동등성 평가 및 다루지 않음 생성 텍스트 시퀀스의 일관성. 의 일관성을 이해하기 위해 텍스트 생성 설정에서 PLM, 우리는 의미론적 척도를 개발한다. 개방형 텍스트 출력을 비교할 수 있는 일관성. 구현합니다. 성능 평가를 위한 이 일관성 메트릭의 여러 버전 TruthfulQA 데이터 세트의 질문을 패러프레이즈한 버전의 PLM 수 우리는 우리가 제안한 메트릭스가 훨씬 더 일관적이라는 것을 발견했다. 어휘적 일관성을 구현하고, 또한 관련이 있는 전통적인 측정 기준 더 높은 수준의 생산량 일관성에 대한 인간 평가
Improving word mover's distance by leveraging self-attention matrix
Measuring the semantic similarity between two sentences is still an important task. The word mover's distance (WMD) computes the similarity via the optimal alignment between the sets of word embeddings. However, WMD does not utilize word order, making it difficult to distinguish sentences with large overlaps of similar words, even if they are semantically very different. Here, we attempt to improve WMD by incorporating the sentence structure represented by BERT's self-attention matrix (SAM). The proposed method is based on the Fused Gromov-Wasserstein distance, which simultaneously considers the similarity of the word embedding and the SAM for calculating the optimal transport between two sentences. Experiments on paraphrase identification and semantic textual similarity show that the proposed method improves WMD and its variants. Our code is available at this https URL.
두 문장 사이의 의미적 유사성을 측정하는 것은 여전히 중요하다. 과제. 단어 이동자의 거리(WMD)는 최적값을 통해 유사성을 계산한다. 단어 임베딩 집합 간의 정렬 그러나 대량살상무기는 어순, 겹치는 부분이 큰 문장을 구별하는 것을 어렵게 만든다. 의미적으로 매우 다르더라도 비슷한 단어. 자, 해보자. BERT로 대표되는 문장 구조를 통합하여 대량살상무기를 개선하다 자기 주의 행렬(SAM) 제안된 방법은 Fused를 기반으로 합니다. 그로모프-바세르슈타인 거리, 이것은 동시에 다음과 같은 유사성을 고려한다. 단어 임베딩과 사이의 최적 전송을 계산하기 위한 SAM. 두 문장 패러프레이즈 식별 및 의미 텍스트에 대한 실험 유사성은 제안된 방법이 대량살상무기와 그 변형을 개선한다는 것을 보여준다. 우리들의 코드는 이 https URL에서 사용할 수 있습니다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-11-17] 오늘의 자연어처리 (0) | 2022.11.17 |
---|---|
[2022-11-16] 오늘의 자연어처리 (0) | 2022.11.16 |
[2022-11-14] 오늘의 자연어처리 (0) | 2022.11.14 |
[2022-11-13] 오늘의 자연어처리 (0) | 2022.11.13 |
[2022-11-12] 오늘의 자연어처리 (0) | 2022.11.12 |
댓글