본문 바로가기
오늘의 자연어 처리

[2022-10-12] 오늘의 자연어처리

by 지환이아빠 2022. 10. 12.
반응형

Robustification of Multilingual Language Models to Real-world Noise with Robust Contrastive Pretraining

 

Advances in neural modeling have achieved state-of-the-art (SOTA) results on public natural language processing (NLP) benchmarks, at times surpassing human performance. However, there is a gap between public benchmarks and real-world applications where noise such as typos or grammatical mistakes is abundant, resulting in degraded performance. Unfortunately, works that assess the robustness of neural models on noisy data and suggest improvements are limited to the English language. Upon analyzing noise in different languages, we observe that noise types vary across languages and thus require their own investigation. Thus, to benchmark the performance of pretrained multilingual models, we construct noisy datasets covering five languages and four NLP tasks. We see a gap in performance between clean and noisy data. After investigating ways to boost the zero-shot cross-lingual robustness of multilingual pretrained models, we propose Robust Contrastive Pretraining (RCP). RCP combines data augmentation with a contrastive loss term at the pretraining stage and achieves large improvements on noisy (& original test data) across two sentence-level classification (+3.2%) and two sequence-labeling (+10 F1-score) multilingual tasks.

 

신경 모델링의 발전은 다음과 같은 최첨단(SOTA) 결과를 달성했다. 공공 자연어 처리(NLP) 벤치마크, 때로는 인간을 능가한다. 성능. 그러나, 공개 벤치마크와 실제 세계 사이에는 차이가 있다. 오타 또는 문법적 오류와 같은 노이즈가 많은 응용 프로그램 성능이 저하됩니다. 불행하게도, 다음을 평가하는 작업들. 노이즈가 많은 데이터에 대한 신경 모델의 견고성 및 개선이 제한됨을 시사합니다. 영어로. 다른 언어로 된 소음을 분석했을 때, 우리는 소음 유형이 언어에 따라 다르므로 고유한 유형이 필요하다는 것을 관찰한다. 조사 따라서 사전 훈련된 다국어 성능을 벤치마킹합니다. 모델, 우리는 5개의 언어와 4개의 NLP 작업을 포함하는 노이즈가 많은 데이터 세트를 구성한다. 깨끗한 데이터와 노이즈가 많은 데이터 간의 성능 차이를 볼 수 있습니다. 조사 후 사전 훈련된 다국어의 언어 간 제로샷 견고성을 높이는 방법 모델, 우리는 강력한 대비 사전 훈련(RCP)을 제안한다. RCP는 데이터를 결합합니다. 사전 훈련 단계에서 대조적인 손실 항을 사용하여 증강하고 달성한다. 두 문장 수준에서 노이즈가 많은 (및 원본 테스트 데이터)에 대한 큰 개선 사항 분류(+3.2%) 및 두 개의 시퀀스 레이블링(+10 F1-점수) 다국어 임무들. 

 

 

Hierarchical3D Adapters for Long Video-to-text Summarization

 

In this paper, we focus on video-to-text summarization and investigate how to best utilize multimodal information for summarizing long inputs (e.g., an hour-long TV show) into long outputs (e.g., a multi-sentence summary). We extend SummScreen (Chen et al., 2021), a dialogue summarization dataset consisting of transcripts of TV episodes with reference summaries, and create a multimodal variant by collecting corresponding full-length videos. We incorporate multimodal information into a pre-trained textual summarizer efficiently using adapter modules augmented with a hierarchical structure while tuning only 3.8\% of model parameters. Our experiments demonstrate that multimodal information offers superior performance over more memory-heavy and fully fine-tuned textual summarization methods.

 

본 논문에서는 비디오-텍스트 요약에 초점을 맞추고 다음 방법을 조사합니다. 긴 입력(예: a)을 요약하기 위해 멀티모달 정보를 가장 잘 활용한다. 1시간 분량의 TV 프로그램)을 긴 출력(예: 다중 문장 요약)으로 변환합니다. 우리가 대화 요약 데이터 세트인 SummScreen(Chen et al., 2021)을 확장한다. 참조 요약이 있는 TV 에피소드의 대본으로 구성되고, 생성. 해당 전체 길이의 비디오를 수집하여 멀티모달 변형을 만듭니다. 우리가 멀티모달 정보를 사전 훈련된 텍스트 요약기에 통합한다. 계층 구조로 증강된 어댑터 모듈을 효율적으로 사용하는 동안 모델 매개 변수의 3.8%만 조정합니다. 우리의 실험은 다음을 증명한다. 멀티모달 정보는 더 많은 메모리를 소비하는 것보다 더 뛰어난 성능을 제공합니다. 완전히 세밀한 텍스트 요약 방법. 

 

 

CORE: A Retrieve-then-Edit Framework for Counterfactual Data Generation

 

Counterfactual data augmentation (CDA) -- i.e., adding minimally perturbed inputs during training -- helps reduce model reliance on spurious correlations and improves generalization to out-of-distribution (OOD) data. Prior work on generating counterfactuals only considered restricted classes of perturbations, limiting their effectiveness. We present COunterfactual Generation via Retrieval and Editing (CORE), a retrieval-augmented generation framework for creating diverse counterfactual perturbations for CDA. For each training example, CORE first performs a dense retrieval over a task-related unlabeled text corpus using a learned bi-encoder and extracts relevant counterfactual excerpts. CORE then incorporates these into prompts to a large language model with few-shot learning capabilities, for counterfactual editing. Conditioning language model edits on naturally occurring data results in diverse perturbations. Experiments on natural language inference and sentiment analysis benchmarks show that CORE counterfactuals are more effective at improving generalization to OOD data compared to other DA approaches. We also show that the CORE retrieval framework can be used to encourage diversity in manually authored perturbations

 

반사실적 데이터 확대(CDA) - 즉, 최소 교란 추가 교육 중 입력 - 잘못된 상관 관계에 대한 모델 의존도를 줄이는 데 도움이 됩니다. 그리고 OOD(Out-of-Distribution) 데이터에 대한 일반화를 개선합니다. 에 대한 이전 작업 제한된 등급의 섭동으로만 간주되는 반실제 생성, 효과를 제한합니다. 우리는 다음을 통해 상호실제적 세대를 제시한다. 검색 및 편집(CORE), 검색 강화 생성 프레임워크 CDA에 대한 다양한 반실제적 동요를 만듭니다. 각 교육에 대해 예를 들어, CORE는 먼저 레이블링되지 않은 작업 관련 검색을 수행합니다. 학습된 쌍방향 정보를 사용하여 관련 반사실적 내용을 추출하는 텍스트 말뭉치 발췌한 것 그런 다음 CORE는 이를 대규모 언어 모델에 대한 프롬프트에 통합합니다. 사실적인 편집을 위해 퓨샷 학습 기능을 제공합니다. 컨디셔닝 자연적으로 발생하는 데이터에 대한 언어 모델 편집은 다양한 결과를 낳는다. 동요 자연어 추론 및 정서분석에 관한 실험 벤치마크는 CORE 반사실이 개선에 더 효과적이라는 것을 보여준다. 다른 DA 접근 방식에 비해 OOD 데이터에 대한 일반화. 우리는 또한 다음을 보여준다. CORE 검색 프레임워크는 수동으로 다양성을 장려하는 데 사용될 수 있다. 공인된 동요. 

 

 

반응형

댓글