본문 바로가기
오늘의 자연어 처리

[2023-03-24] 오늘의 자연어처리

by 지환이아빠 2023. 3. 24.
반응형

XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation in Low Resource Languages

 

Lack of encyclopedic text contributors, especially on Wikipedia, makes automated text generation for \emph{low resource (LR) languages} a critical problem. Existing work on Wikipedia text generation has focused on \emph{English only} where English reference articles are summarized to generate English Wikipedia pages. But, for low-resource languages, the scarcity of reference articles makes monolingual summarization ineffective in solving this problem. Hence, in this work, we propose \task{}, which is the task of cross-lingual multi-document summarization of text from multiple reference articles, written in various languages, to generate Wikipedia-style text. Accordingly, we contribute a benchmark dataset, \data{}, spanning $\sim$69K Wikipedia articles covering five domains and eight languages. We harness this dataset to train a two-stage system where the input is a set of citations and a section title and the output is a section-specific LR summary. The proposed system is based on a novel idea of neural unsupervised extractive summarization to coarsely identify salient information followed by a neural abstractive model to generate the section-specific text. Extensive experiments show that multi-domain training is better than the multi-lingual setup on average.

 

백과사전적인 텍스트 기여자의 부족은, 특히 위키피디아에서 \emph{low Resource(LR) 언어에 대한 자동 텍스트 생성 중요 문제. 위키백과 텍스트 생성에 대한 기존 연구는 다음과 같은 것에 초점을 맞추고 있다 \emph{English only}(영어 참조 문서가 요약되어 생성됨) 영어 위키백과 페이지. 하지만, 자원이 부족한 언어들의 경우 참조 기사는 이것을 해결하는 데 단일 언어 요약을 비효율적으로 만든다 문제. 따라서 본 연구에서는 다음과 같은 작업인 \task{}를 제안한다 다중 참조의 텍스트를 다국어 다중 언어 요약 위키백과 스타일의 텍스트를 생성하기 위해 다양한 언어로 작성된 기사. 따라서 $\sim$69K에 이르는 벤치마크 데이터 세트 \data{}를 제공한다 5개의 도메인과 8개의 언어를 다루는 위키백과의 기사. 우리는 이것을 이용한다 입력이 인용과 a의 세트인 2단계 시스템을 훈련하기 위한 데이터 세트 섹션 제목 및 출력은 섹션별 LR 요약입니다. 제안된 시스템은 신경 비감독 추출 요약의 새로운 아이디어에 기초한다 중요한 정보와 신경 추상적 모델을 대략적으로 식별하다 섹션별 텍스트를 생성합니다. 광범위한 실험을 통해 알 수 있다 다중 도메인 훈련은 평균적으로 다중 언어 설정보다 낫다. 

 

 

Open-source Frame Semantic Parsing

 

While the state-of-the-art for frame semantic parsing has progressed dramatically in recent years, it is still difficult for end-users to apply state-of-the-art models in practice. To address this, we present Frame Semantic Transformer, an open-source Python library which achieves near state-of-the-art performance on FrameNet 1.7, while focusing on ease-of-use. We use a T5 model fine-tuned on Propbank and FrameNet exemplars as a base, and improve performance by using FrameNet lexical units to provide hints to T5 at inference time. We enhance robustness to real-world data by using textual data augmentations during training.

 

프레임 시맨틱 파싱을 위한 최첨단 기술이 발전하는 동안 최근 몇 년 동안 극적으로, 최종 사용자가 지원하기는 여전히 어렵습니다 최첨단 모델을 실제로 사용할 수 있습니다. 이를 해결하기 위해 프레임 시맨틱을 제시한다 트랜스포머, 거의 최첨단 기술을 실현하는 오픈 소스 파이썬 라이브러리 FrameNet 1.7에서 성능을 향상시키는 동시에 사용 편의성에 중점을 둡니다. 우리는 T5 모델을 사용한다 Propbank 및 FrameNet 예제를 기반으로 미세 조정 및 개선 추론 시 T5에 힌트를 제공하기 위해 FrameNet 어휘 단위를 사용한 성능 시간. 우리는 텍스트 데이터를 사용하여 실제 데이터에 대한 견고성을 향상시킨다 훈련 중의 증가. 

 

 

Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining on Visual Language Understanding

 

Most humans use visual imagination to understand and reason about language, but models such as BERT reason about language using knowledge acquired during text-only pretraining. In this work, we investigate whether vision-and-language pretraining can improve performance on text-only tasks that involve implicit visual reasoning, focusing primarily on zero-shot probing methods. We propose a suite of visual language understanding (VLU) tasks for probing the visual reasoning abilities of text encoder models, as well as various non-visual natural language understanding (NLU) tasks for comparison. We also contribute a novel zero-shot knowledge probing method, Stroop probing, for applying models such as CLIP to text-only tasks without needing a prediction head such as the masked language modelling head of models like BERT. We show that SOTA multimodally trained text encoders outperform unimodally trained text encoders on the VLU tasks while being underperformed by them on the NLU tasks, lending new context to previously mixed results regarding the NLU capabilities of multimodal models. We conclude that exposure to images during pretraining affords inherent visual reasoning knowledge that is reflected in language-only tasks that require implicit visual reasoning. Our findings bear importance in the broader context of multimodal learning, providing principled guidelines for the choice of text encoders used in such contexts.

 

대부분의 인간들은 언어를 이해하고 추론하기 위해 시각적 상상력을 사용한다, 그러나 BERT와 같은 모델들은 언어에 대한 BERT 이유와 같은 모델들은 그 동안 습득한 지식을 사용한다 텍스트 전용 사전 교육. 이 작업에서, 우리는 비전과 언어가 사전 교육은 암시적인 텍스트만 포함하는 작업에서 성능을 향상시킬 수 있다 주로 제로샷 탐색 방법에 초점을 맞춘 시각적 추론. 우리는 제안한다 시각적 탐색을 위한 시각적 언어 이해(VLU) 작업 모음 텍스트 인코더 모델 및 다양한 비시각적 추론 능력 비교를 위한 자연어 이해(NLU) 과제. 우리는 또한 기여한다 모델 적용을 위한 새로운 제로샷 지식 탐색 방법, Stroop 탐색 CLIP과 같은 예측 헤드가 필요 없는 텍스트 전용 작업 BERT와 같은 모델의 마스크 언어 모델링 헤드. 우리는 SOTA를 보여준다 다중 모델로 훈련된 텍스트 인코더는 단일 모델로 훈련된 텍스트 인코더보다 성능이 우수하다 VLU 작업에 대해, NLU 작업에 대해 그들에 의해 과소 수행되는 동안, 대출 NLU 기능과 관련하여 이전에 혼합된 결과에 대한 새로운 컨텍스트 멀티모달 모델. 우리는 사전 훈련 중에 이미지에 노출된다는 결론을 내렸다 언어에만 반영되는 고유한 시각적 추론 지식을 제공합니다 암묵적인 시각적 추론이 필요한 작업. 우리의 연구 결과는 에서 중요하다 원칙적인 지침을 제공하는 멀티모달 학습의 더 넓은 맥락 이러한 맥락에서 사용되는 텍스트 인코더의 선택. 

 

 

반응형

댓글