본문 바로가기
오늘의 자연어 처리

[2022-11-01] 오늘의 자연어처리

by 지환이아빠 2022. 11. 1.
반응형

SSD-LM: Semi-autoregressive Simplex-based Diffusion Language Model for Text Generation and Modular Control

 

Despite the growing success of diffusion models in continuous-valued domains (e.g., images), diffusion-based language models on discrete text have yet to match autoregressive language models on text generation benchmarks. In this work, we present SSD-LM -- a diffusion language model with two key design choices. First, SSD-LM is semi-autoregressive, iteratively generating blocks of text, allowing for flexible output length at decoding time while enabling local bidirectional context updates. Second, it is simplex-based, performing diffusion on the natural vocabulary space rather than a learned latent space, allowing us to incorporate classifier guidance and modular control without any adaptation of off-the-shelf classifiers. We evaluate SSD-LM on unconstrained as well as controlled text generation benchmarks, and show that it matches or outperforms strong autoregressive GPT-2 baselines across standard quality and diversity metrics.

 

연속 가치 도메인에서 확산 모델의 성공이 증가하고 있음에도 불구하고. (예: 이미지), 이산 텍스트의 확산 기반 언어 모델은 아직 하지 않았다. 텍스트 생성 벤치마크에서 자기 회귀 언어 모델을 일치시킵니다. 이 점에서. 작업, 우리는 SSD-LM -- 두 가지 핵심 설계를 가진 확산 언어 모델을 제시한다. 선택 사항 첫째, SSD-LM은 반자동 회귀 방식으로, 반복적으로 다음 블록을 생성합니다. 텍스트, 로컬을 활성화하면서 디코딩 시 유연한 출력 길이를 허용합니다. 양방향 컨텍스트 업데이트 둘째, 심플렉스 기반 성능입니다. 학습된 잠재 공간보다는 자연 어휘 공간에서의 확산, 분류기 안내 및 모듈식 제어를 통합하도록 허용한다. 기성 분류기의 개조 제약 없이 SSD-LM을 다음과 같이 평가합니다. 제어된 텍스트 생성 벤치마크와 일치하거나 표준 품질에 걸쳐 강력한 자기 회귀 GPT-2 기준선을 능가합니다. 다양성 측정 기준 

 

 

1Cademy @ Causal News Corpus 2022: Enhance Causal Span Detection via Beam-Search-based Position Selector

 

In this paper, we present our approach and empirical observations for Cause-Effect Signal Span Detection -- Subtask 2 of Shared task 3~\cite{tan-etal-2022-event} at CASE 2022. The shared task aims to extract the cause, effect, and signal spans from a given causal sentence. We model the task as a reading comprehension (RC) problem and apply a token-level RC-based span prediction paradigm to the task as the baseline. We explore different training objectives to fine-tune the model, as well as data augmentation (DA) tricks based on the language model (LM) for performance improvement. Additionally, we propose an efficient beam-search post-processing strategy to due with the drawbacks of span detection to obtain a further performance gain. Our approach achieves an average $F_1$ score of 54.15 and ranks \textbf{$1^{st}$} in the CASE competition. Our code is available at \url{this https URL}.

 

이 논문에서, 우리는 우리의 접근법과 경험적 관찰을 제시한다. Cause-Effect Signal Span Detection -- Shared(공유) 작업의 하위 작업 2 CASE 2022에서 3~\cite{tan-et al-2022-event}. 공유 작업은 다음을 추출하는 것을 목표로 합니다. 주어진 인과적 문장의 원인, 효과 및 신호 범위. 작업을 모델링합니다. 독해력(RC) 문제로 토큰 레벨 RC 기반 스팬 적용 예측 패러다임을 기준으로 작업에 적용합니다. 우리는 서로 다른 교육을 탐구한다. 데이터 확대(DA) 요령뿐만 아니라 모델을 미세 조정하는 목표 언어 모델(LM)을 기반으로 성능 향상을 도모합니다. 추가적으로, 우리는 효율적인 빔 검색 후 처리 전략을 제안합니다. 추가적인 성능 향상을 위한 스팬 검출의 단점. 우리의 접근법 평균 $F_1$ 점수 54.15를 달성하고 \textbf{$1^{st}$를 순위 매긴다. CASE 경쟁. 코드는 다음 위치에서 사용할 수 있습니다. \url{this https URL}입니다. 

 

 

Effective Cross-Task Transfer Learning for Explainable Natural Language Inference with T5

 

We compare sequential fine-tuning with a model for multi-task learning in the context where we are interested in boosting performance on two tasks, one of which depends on the other. We test these models on the FigLang2022 shared task which requires participants to predict language inference labels on figurative language along with corresponding textual explanations of the inference predictions. Our results show that while sequential multi-task learning can be tuned to be good at the first of two target tasks, it performs less well on the second and additionally struggles with overfitting. Our findings show that simple sequential fine-tuning of text-to-text models is an extraordinarily powerful method for cross-task knowledge transfer while simultaneously predicting multiple interdependent targets. So much so, that our best model achieved the (tied) highest score on the task.

 

우리는 순차적 미세 조정을 다중 작업 학습을 위한 모델과 비교한다. 다음 중 하나의 두 가지 작업에서 성능을 향상시키는 데 관심이 있는 컨텍스트 다른 쪽에 달렸죠 우리는 FigLang2022 공유 작업에서 이러한 모델을 테스트한다. 참가자들이 비유적인 것에 대한 언어 추론 레이블을 예측해야 한다. 추론에 대한 상응하는 텍스트 설명과 함께 언어 예측 우리의 결과는 순차적 멀티태스킹 학습이 가능할 수 있다는 것을 보여준다. 두 가지 목표 작업 중 첫 번째에 잘하도록 조정되었습니다, 그것은 덜 잘 수행되었습니다. 두 번째로, 그리고 추가적으로 과적합으로 어려움을 겪는다. 우리의 조사 결과는 다음과 같다. 텍스트 대 텍스트 모델의 간단한 순차적 미세 조정은 특별합니다. 동시에 작업 간 지식 전달을 위한 강력한 방법 여러 상호의존적인 대상을 예측합니다. 그래서, 우리의 최고의 모델은 그 과제에서 최고점을 받았다 

 

 

반응형

댓글