본문 바로가기
오늘의 자연어 처리

[2023-03-15] 오늘의 자연어처리

by 지환이아빠 2023. 3. 15.
반응형

Diffusion Models for Non-autoregressive Text Generation: A Survey

 

Non-autoregressive (NAR) text generation has attracted much attention in the field of natural language processing, which greatly reduces the inference latency but has to sacrifice the generation accuracy. Recently, diffusion models, a class of latent variable generative models, have been introduced into NAR text generation, showing improved generation quality. In this survey, we review the recent progress in diffusion models for NAR text generation. As the background, we first present the general definition of diffusion models and the text diffusion models, and then discuss their merits for NAR generation. As the core content, we further introduce two mainstream diffusion models in existing text diffusion works, and review the key designs of the diffusion process. Moreover, we discuss the utilization of pre-trained language models (PLMs) for text diffusion models and introduce optimization techniques for text data. Finally, we discuss several promising directions and conclude this paper. Our survey aims to provide researchers with a systematic reference of related research on text diffusion models for NAR generation.

 

비자동 회귀(NAR) 텍스트 생성은 다음과 같은 분야에서 많은 관심을 끌었다 추론을 크게 줄이는 자연어 처리 분야 지연 시간이 있지만 생성 정확도를 희생해야 합니다. 최근에, 확산은 잠재 변수 생성 모델의 클래스인 모델이 에 도입되었습니다 향상된 생성 품질을 보여주는 NAR 텍스트 생성. 이 설문조사에서 우리는 NAR 텍스트 생성을 위한 확산 모델의 최근 진행 상황을 검토한다. 처럼 배경, 우리는 먼저 확산 모델의 일반적인 정의와 텍스트 확산 모델 및 NAR 생성에 대한 장점을 논의합니다. 처럼 핵심 콘텐츠, 우리는 기존의 두 가지 주류 확산 모델을 추가로 소개한다 텍스트 확산 작업, 확산 프로세스의 주요 설계 검토. 또한, 우리는 다음을 위해 사전 훈련된 언어 모델(PLM)의 활용에 대해 논의한다 텍스트 확산 모델 및 텍스트 데이터에 대한 최적화 기술을 소개합니다. 마지막으로, 우리는 몇 가지 유망한 방향에 대해 논의하고 이 논문을 마무리한다. 우리들의 조사는 연구자들에게 관련된 체계적인 참조를 제공하는 것을 목표로 한다 NAR 생성을 위한 텍스트 확산 모델에 대한 연구. 

 

 

Fuzzy Alignments in Directed Acyclic Graph for Non-Autoregressive Machine Translation

 

Non-autoregressive translation (NAT) reduces the decoding latency but suffers from performance degradation due to the multi-modality problem. Recently, the structure of directed acyclic graph has achieved great success in NAT, which tackles the multi-modality problem by introducing dependency between vertices. However, training it with negative log-likelihood loss implicitly requires a strict alignment between reference tokens and vertices, weakening its ability to handle multiple translation modalities. In this paper, we hold the view that all paths in the graph are fuzzily aligned with the reference sentence. We do not require the exact alignment but train the model to maximize a fuzzy alignment score between the graph and reference, which takes captured translations in all modalities into account. Extensive experiments on major WMT benchmarks show that our method substantially improves translation performance and increases prediction confidence, setting a new state of the art for NAT on the raw training data.

 

NAT(비자동 회귀 변환)은 디코딩 지연 시간을 줄이지만 문제가 있음 멀티벤더 문제로 인한 성능 저하로 인해 발생합니다. 최근에 방향성 비순환 그래프의 구조는 NAT에서 큰 성공을 거두었다 정점 사이의 종속성을 도입하여 다중점 문제를 해결한다. 그러나 음의 로그 우도 손실로 훈련하려면 암묵적으로 다음이 필요하다 참조 토큰과 정점 사이의 엄격한 정렬, 기능 약화 여러 번역 양식을 처리할 수 있습니다. 이 논문에서, 우리는 다음과 같은 견해를 가지고 있다 그래프의 모든 경로가 참조 문장과 흐릿하게 정렬됩니다. 우리는 한다 정확한 정렬이 필요하지 않지만 퍼지를 최대화하기 위해 모델을 훈련시킨다 그래프와 참조 사이의 정렬 점수(캡처됨) 모든 양식의 번역을 고려하다. 주요 WMT에 대한 광범위한 실험 벤치마크는 우리의 방법이 번역 성능을 크게 향상시킨다는 것을 보여준다 예측 신뢰도를 높여 NAT의 최신 기술을 기반으로 미가공 훈련 데이터. 

 

 

A Comprehensive Empirical Evaluation of Existing Word Embedding Approaches

 

Vector-based word representations help countless Natural Language Processing (NLP) tasks capture both semantic and syntactic regularities of the language. In this paper, we present the characteristics of existing word embedding approaches and analyze them with regards to many classification tasks. We categorize the methods into two main groups - Traditional approaches mostly use matrix factorization to produce word representations, and they are not able to capture the semantic and syntactic regularities of the language very well. Neural-Network based approaches, on the other hand, can capture sophisticated regularities of the language and preserve the word relationships in the generated word representations. We report experimental results on multiple classification tasks and highlight the scenarios where one approach performs better than the rest.

 

벡터 기반 단어 표현은 수많은 자연어 처리를 돕는다 (NLP) 작업은 언어의 의미론적 규칙성과 구문적 규칙성을 모두 포착한다. 본 논문에서는 기존 단어 임베딩의 특성을 제시한다 많은 분류 작업과 관련하여 접근하고 분석합니다. 우리가 방법을 두 개의 주요 그룹으로 분류합니다. 전통적인 접근 방식은 주로 사용됩니다 단어 표현을 생산하기 위한 행렬 인수분해, 그리고 그들은 할 수 없다 언어의 의미론적이고 통사적인 규칙성을 매우 잘 포착한다. 반면에 신경망 기반 접근법은 정교한 것을 포착할 수 있다 언어의 규칙성과 단어 관계를 보존한다 생성된 단어 표현. 우리는 다중에 대한 실험 결과를 보고한다 분류 작업 및 하나의 접근 방식이 수행하는 시나리오 강조 다른 것들보다 낫다. 

 

 

반응형

댓글