본문 바로가기
오늘의 자연어 처리

[2023-02-24] 오늘의 자연어처리

by 지환이아빠 2023. 2. 24.
반응형

Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities

 

Large-scale multi-modal pre-training models such as CLIP and PaLI exhibit strong generalization on various visual domains and tasks. However, existing image classification benchmarks often evaluate recognition on a specific domain (e.g., outdoor images) or a specific task (e.g., classifying plant species), which falls short of evaluating whether pre-trained foundational models are universal visual recognizers. To address this, we formally present the task of Open-domain Visual Entity recognitioN (OVEN), where a model need to link an image onto a Wikipedia entity with respect to a text query. We construct OVEN-Wiki by re-purposing 14 existing datasets with all labels grounded onto one single label space: Wikipedia entities. OVEN challenges models to select among six million possible Wikipedia entities, making it a general visual recognition benchmark with the largest number of labels. Our study on state-of-the-art pre-trained models reveals large headroom in generalizing to the massive-scale label space. We show that a PaLI-based auto-regressive visual recognition model performs surprisingly well, even on Wikipedia entities that have never been seen during fine-tuning. We also find existing pretrained models yield different strengths: while PaLI-based models obtain higher overall performance, CLIP-based models are better at recognizing tail entities.

 

CLIP 및 PaLI 전시회와 같은 대규모 멀티모달 사전 교육 모델 다양한 시각적 영역과 작업에 대한 강력한 일반화. 단, 기존 이미지 분류 벤치마크는 종종 특정 도메인에 대한 인식을 평가한다 (예: 실외 이미지) 또는 특정 작업(예: 식물 종 분류), 사전 훈련된 기본 모델이 다음과 같은지 여부를 평가하는 데 부족합니다 범용 시각 인식기. 이를 해결하기 위해, 우리는 공식적으로 다음과 같은 과제를 제시한다 모델이 링크해야 하는 OVEN(Open-domain Visual Entity Recognition N) 텍스트 쿼리와 관련하여 위키백과 엔티티에 이미지를 제공합니다. 우리는 건설한다 OUVEN-Wiki는 모든 레이블을 기반으로 14개의 기존 데이터 세트의 용도를 변경합니다 단일 레이블 공간: Wikipedia 엔티티. OUVEN은 모델들이 선택하도록 도전한다 6백만 개의 가능한 위키피디아 엔티티 중에서, 그것을 일반적인 시각적으로 만든다 가장 많은 레이블이 있는 인식 벤치마크. 에 대한 우리의 연구 사전 훈련된 최첨단 모델은 다음과 같이 일반화하는 데 있어 큰 여유를 드러낸다 대규모 레이블 공간. 우리는 PaLI 기반의 자동 회귀 시각 자료를 보여준다 인식 모델은 심지어 위키피디아 엔터티에서도 놀랄 만큼 잘 수행된다 미세 조정 중에 한 번도 본 적이 없습니다. 우리는 또한 사전 훈련된 기존의 것을 발견한다 모델은 다양한 장점을 제공합니다. PaLI 기반 모델은 전반적으로 더 높은 장점을 제공합니다 성능, CLIP 기반 모델은 테일 엔티티를 더 잘 인식합니다. 

 

 

The Impact of Subword Pooling Strategy for Cross-lingual Event Detection

 

Pre-trained multilingual language models (e.g., mBERT, XLM-RoBERTa) have significantly advanced the state-of-the-art for zero-shot cross-lingual information extraction. These language models ubiquitously rely on word segmentation techniques that break a word into smaller constituent subwords. Therefore, all word labeling tasks (e.g. named entity recognition, event detection, etc.), necessitate a pooling strategy that takes the subword representations as input and outputs a representation for the entire word. Taking the task of cross-lingual event detection as a motivating example, we show that the choice of pooling strategy can have a significant impact on the target language performance. For example, the performance varies by up to 16 absolute $f_{1}$ points depending on the pooling strategy when training in English and testing in Arabic on the ACE task. We carry out our analysis with five different pooling strategies across nine languages in diverse multi-lingual datasets. Across configurations, we find that the canonical strategy of taking just the first subword to represent the entire word is usually sub-optimal. On the other hand, we show that attention pooling is robust to language and dataset variations by being either the best or close to the optimal strategy. For reproducibility, we make our code available at this https URL.

 

사전 훈련된 다국어 언어 모델(예: mBERT, XLM-RoBERTa)은 다음과 같다 제로샷 교차 언어를 위한 최첨단 기술을 크게 발전시켰다 정보 추출. 이 언어 모델들은 보편적으로 단어에 의존한다 단어를 더 작은 구성 하위 단어로 나누는 분할 기술. 따라서 모든 단어 라벨링 작업(예: 명명된 엔티티 인식, 이벤트) 탐지 등), 하위 단어를 취하는 풀링 전략이 필요합니다 입력으로 표현하고 전체 단어에 대한 표현을 출력합니다. 언어 간 이벤트 탐지 작업을 동기 부여 예로 들어, 우리는 풀링 전략의 선택이 중요한 영향을 미칠 수 있음을 보여준다 목표 언어 수행. 예를 들어, 성능은 최대 16까지 다양합니다 에서 훈련할 때 풀링 전략에 따라 절대 $f_{1}$ 포인트 ACE 과제에 대한 영어 및 아랍어 테스트. 다음과 같이 분석을 수행합니다 다양한 9개 언어에 걸쳐 5개의 다른 풀링 전략 다중 언어 데이터 세트. 여러 구성에 걸쳐, 우리는 표준적인 것을 발견한다 전체 단어를 나타내는 첫 번째 하위 단어만 취하는 전략은 보통 차선책을 쓰죠. 반면에, 우리는 주의를 집중하는 것을 보여준다 언어 및 데이터 세트 변형에 강건한 최고 또는 근접함으로써 최적의 전략. 재현성을 위해, 우리는 우리의 코드를 다음에서 이용할 수 있게 한다 이 https URL. 

 

 

Data Augmentation for Neural NLP

 

Data scarcity is a problem that occurs in languages and tasks where we do not have large amounts of labeled data but want to use state-of-the-art models. Such models are often deep learning models that require a significant amount of data to train. Acquiring data for various machine learning problems is accompanied by high labeling costs. Data augmentation is a low-cost approach for tackling data scarcity. This paper gives an overview of current state-of-the-art data augmentation methods used for natural language processing, with an emphasis on methods for neural and transformer-based models. Furthermore, it discusses the practical challenges of data augmentation, possible mitigations, and directions for future research.

 

데이터 부족은 우리가 하지 않는 언어와 작업에서 발생하는 문제이다 많은 양의 레이블링된 데이터를 가지고 있지만 최첨단 모델을 사용하기를 원합니다. 그러한 모델은 종종 상당한 양의 것을 필요로 하는 딥 러닝 모델이다 훈련할 데이터. 다양한 기계 학습 문제에 대한 데이터를 얻는 것은 높은 라벨링 비용을 수반합니다. 데이터 증가는 경제적인 접근 방식입니다 데이터 부족 문제를 해결하기 위해. 이 문서는 전류의 개요를 제공합니다 자연어에 사용되는 최첨단 데이터 확대 방법 신경 및 변압기 기반 방법에 중점을 둔 처리 모델들. 게다가, 그것은 데이터의 실제적인 도전들을 논한다 증강, 가능한 완화 및 향후 연구를 위한 방향. 

 

 

반응형

댓글