본문 바로가기
오늘의 자연어 처리

[2022-12-18] 오늘의 자연어처리

by 지환이아빠 2022. 12. 18.
반응형

TRIP: Triangular Document-level Pre-training for Multilingual Language Models

 

Despite the current success of multilingual pre-training, most prior works focus on leveraging monolingual data or bilingual parallel data and overlooked the value of trilingual parallel data. This paper presents \textbf{Tri}angular Document-level \textbf{P}re-training (\textbf{TRIP}), which is the first in the field to extend the conventional monolingual and bilingual pre-training to a trilingual setting by (i) \textbf{Grafting} the same documents in two languages into one mixed document, and (ii) predicting the remaining one language as the reference translation. Our experiments on document-level MT and cross-lingual abstractive summarization show that TRIP brings by up to 3.65 d-BLEU points and 6.2 ROUGE-L points on three multilingual document-level machine translation benchmarks and one cross-lingual abstractive summarization benchmark, including multiple strong state-of-the-art (SOTA) scores. In-depth analysis indicates that TRIP improves document-level machine translation and captures better document contexts in at least three characteristics: (i) tense consistency, (ii) noun consistency and (iii) conjunction presence.

 

현재 다국어 사전 교육의 성공에도 불구하고 대부분의 선행 작업 단일 언어 데이터 또는 이중 언어 병렬 데이터를 활용하는 데 초점을 맞추고 간과함 3개 국어 병렬 데이터의 값 이 논문은 \textbf{를 제시한다.삼각형 문서 수준 \textbf{P}재교육(\textbf{)TRIP}), 첫 번째 항목입니다. 기존의 단일 언어 및 이중 언어 사전 훈련을 확장하는 분야 두 언어로 된 동일한 문서를 (i) \textbf{Grafting}에 의한 3개 언어 설정 하나의 혼합 문서로, 그리고 (ii) 나머지 하나의 언어를 예측한다. 참고 번역 문서 수준 MT 및 교차 언어에 대한 우리의 실험 추상적 요약은 TRIP가 최대 3.65 d-BLEU 포인트를 제공한다는 것을 보여준다. 6.2 3개의 다국어 문서 수준 기계 번역에 대한 ROUGE-L 포인트 다음을 포함한 하나의 언어 간 추상적 요약 벤치마크 여러 개의 강력한 최첨단(SOTA) 점수. 심층 분석에 따르면 TRIP은 문서 수준의 기계 번역을 개선하고 더 잘 캡처합니다. 적어도 세 가지 특성으로 문맥을 문서화해야 한다. (i) 시제 일관성, (ii) 명사 일관성 및 (iii) 접속사 존재. 

 

 

Zero-Shot Learning for Joint Intent and Slot Labeling

 

It is expensive and difficult to obtain the large number of sentence-level intent and token-level slot label annotations required to train neural network (NN)-based Natural Language Understanding (NLU) components of task-oriented dialog systems, especially for the many real world tasks that have a large and growing number of intents and slot types. While zero shot learning approaches that require no labeled examples -- only features and auxiliary information -- have been proposed only for slot labeling, we show that one can profitably perform joint zero-shot intent classification and slot labeling. We demonstrate the value of capturing dependencies between intents and slots, and between different slots in an utterance in the zero shot setting. We describe NN architectures that translate between word and sentence embedding spaces, and demonstrate that these modifications are required to enable zero shot learning for this task. We show a substantial improvement over strong baselines and explain the intuition behind each architectural modification through visualizations and ablation studies.

 

많은 수의 문장 수준을 얻는 것은 비싸고 어렵다. 신경망 교육에 필요한 의도 및 토큰 레벨 슬롯 레이블 주석 작업 지향의 (NN) 기반 자연어 이해 (NLU) 구성 요소 대화 시스템, 특히 큰 그리고 많은 실제 세계 작업을 위해. 점점 더 많은 수의 의도와 슬롯 유형. 제로샷 학습이 접근하는 동안 라벨링된 예제가 필요하지 않습니다. 기능과 보조 정보만 필요합니다. 슬롯 라벨링에 대해서만 제안되었으며, 우리는 수익성이 있다는 것을 보여준다. 공동 제로 샷 의도 분류 및 슬롯 라벨링을 수행한다. 우리는 시연한다. 의도와 슬롯 간, 그리고 슬롯 간의 종속성 캡처의 가치 제로 샷 설정에서 발화의 다른 슬롯. 우리는 NN을 설명한다. 단어와 문장 임베딩 공간 사이를 번역하는 아키텍처, 그리고 제로 샷 학습을 가능하게 하기 위해 이러한 수정이 필요하다는 것을 보여준다. 이 작업을 위해. 우리는 강력한 기준선에 비해 상당한 개선을 보여준다. 각각의 건축 수정 뒤에 숨겨진 직관을 설명한다. 시각화 및 절제 연구. 

 

 

Visually-augmented pretrained language models for NLP tasks without images

 

Although pre-trained language models (PLMs) have shown impressive performance by text-only self-supervised training, they are found lack of visual semantics or commonsense, e.g., sizes, shapes, and colors of commonplace objects. Existing solutions often rely on explicit images for visual knowledge augmentation (requiring time-consuming retrieval or generation), and they also conduct the augmentation for the whole input text, without considering whether it is actually needed in specific inputs or tasks. To address these issues, we propose a novel visually-augmented fine-tuning approach that can be generally applied to various PLMs or NLP tasks, without using any retrieved or generated images, namely VAWI. Specifically, we first identify the visually-hungry words (VH-words) from input text via a token selector, where three different methods have been proposed, including syntax-, attention- and learning-based strategies. Then, we adopt a fixed CLIP text encoder to generate the visually-augmented representations of these VH-words. As it has been pre-trained by vision-language alignment task on the large-scale corpus, it is capable of injecting visual semantics into the aligned text representations. Finally, the visually-augmented features will be fused and transformed into the pre-designed visual prompts based on VH-words, which can be inserted into PLMs to enrich the visual semantics in word representations. We conduct extensive experiments on ten NLP tasks, i.e., GLUE benchmark, CommonsenseQA, CommonGen, and SNLI-VE. Experimental results show that our approach can consistently improve the performance of BERT, RoBERTa, BART, and T5 at different scales, and outperform several competitive baselines significantly. Our codes and data are publicly available at~\url{this https URL}.

 

사전 훈련된 언어 모델(PLM)이 인상적인 성능을 보여주었음에도 불구하고 텍스트 전용 자체 지도 교육을 통해 시각적 의미론이 부족한 것으로 밝혀졌다. 또는 상식, 예를 들어, 일반적인 물체의 크기, 모양 및 색상. 기존 솔루션은 시각적 지식을 위해 종종 명시적 이미지에 의존합니다. 증강(시간이 많이 소요되는 검색 또는 생성)과 그들 또한 다음 사항을 고려하지 않고 전체 입력 텍스트에 대한 확대를 수행한다. 실제로 특정 입력이나 작업에 필요합니다. 이러한 문제를 해결하기 위해, 우리는 일반적으로 가능한 시각적으로 조정된 새로운 미세 조정 접근법을 제안한다. 검색되거나 생성된 작업을 사용하지 않고 다양한 PLM 또는 NLP 작업에 적용됨 이미지, 즉 VAWI입니다. 구체적으로, 우리는 먼저 시각적으로 굶주린 단어들을 식별한다. (VH-words) 토큰 선택기를 통해 입력 텍스트에서 세 가지 방법이 있습니다. 구문, 주의 및 학습 기반을 포함하여 제안되었다. 전략들. 그런 다음 고정 CLIP 텍스트 인코더를 채택하여 이 VH 단어들을 시각적으로 증강한 표현. 지금까지와 같이 대규모 말뭉치에 대한 비전 언어 정렬 작업에 의해 사전 훈련되었다. 정렬된 텍스트 표현에 시각적 의미론을 주입할 수 있습니다. 마지막으로, 시각적으로 증강된 기능은 융합되고 다음과 같이 변형될 것이다. PLM에 삽입할 수 있는 VH 단어를 기반으로 사전 설계된 시각적 프롬프트 단어 표현에서 시각적 의미론을 풍부하게 한다. 광범위하게 실시합니다. 10개의 NLP 작업(예: GLUE 벤치마크, CommonsenseQA, CommonGen)에 대한 실험 그리고 SNLI-VE. 실험 결과는 우리의 접근 방식이 지속적으로 가능하다는 것을 보여준다. 다른 척도에서 BERT, RoBERTA, BART 및 T5의 성능을 개선합니다. 여러 경쟁 기준선을 크게 능가합니다. 우리의 코드와 데이터는 ~\url{이 https URL}에서 공개적으로 사용할 수 있습니다. 

 

 

반응형

댓글