본문 바로가기
오늘의 자연어 처리

[2022-10-15] 오늘의 자연어처리

by 지환이아빠 2022. 10. 15.
반응형

CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual Labeled Sequence Translation

 

Named entity recognition (NER) suffers from the scarcity of annotated training data, especially for low-resource languages without labeled data. Cross-lingual NER has been proposed to alleviate this issue by transferring knowledge from high-resource languages to low-resource languages via aligned cross-lingual representations or machine translation results. However, the performance of cross-lingual NER methods is severely affected by the unsatisfactory quality of translation or label projection. To address these problems, we propose a Cross-lingual Entity Projection framework (CROP) to enable zero-shot cross-lingual NER with the help of a multilingual labeled sequence translation model. Specifically, the target sequence is first translated into the source language and then tagged by a source NER model. We further adopt a labeled sequence translation model to project the tagged sequence back to the target language and label the target raw sentence. Ultimately, the whole pipeline is integrated into an end-to-end model by the way of self-training. Experimental results on two benchmarks demonstrate that our method substantially outperforms the previous strong baseline by a large margin of +3~7 F1 scores and achieves state-of-the-art performance.

 

명명된 엔티티 인식(NER)은 주석이 달린 희소성으로 어려움을 겪는다. 교육 데이터, 특히 레이블이 지정된 데이터가 없는 저자원 언어의 경우. 이 문제를 완화하기 위해 다국어 NER가 제안되었다. 정렬된 언어를 통해 고자원 언어에서 저자원 언어에 이르는 지식 언어 간 표현 또는 기계 번역 결과. 하지만, 그 교차 언어 NER 방법의 성능은 다음과 같은 영향을 받는다. 번역 또는 레이블 투영의 만족스럽지 못한 품질. 이러한 문제를 해결하기 위해 문제, 우리는 언어 간 엔티티 투영 프레임워크(CROP)를 제안한다. 레이블이 지정된 다국어의 도움을 받아 제로샷 교차 언어 NER를 활성화합니다. 시퀀스 변환 모델 특히, 목표 순서는 첫번째이다. 소스 언어로 변환된 다음 소스 NER 모델에 의해 태그가 지정됩니다. 우리가 태그가 있는 것을 투영하기 위해 라벨이 붙은 시퀀스 변환 모델을 추가로 채택한다. 대상 언어로 돌아가서 대상 원시 문장에 레이블을 붙입니다. 궁극적으로, 전체 파이프라인이 엔드 투 엔드 모델로 통합됩니다. 자기 훈련의 방법 두 가지 벤치마크에 대한 실험 결과는 다음과 같습니다. 우리의 방법은 이전의 강력한 기준선을 크게 능가한다. +3 ~ 7 F1 점수 차이로 최첨단 성능을 달성합니다. 

 

 

Language Models of Code are Few-Shot Commonsense Learners

 

We address the general task of structured commonsense reasoning: given a natural language input, the goal is to generate a graph such as an event -- or a reasoning-graph. To employ large language models (LMs) for this task, existing approaches ``serialize'' the output graph as a flat list of nodes and edges. Although feasible, these serialized graphs strongly deviate from the natural language corpora that LMs were pre-trained on, hindering LMs from generating them correctly. In this paper, we show that when we instead frame structured commonsense reasoning tasks as code generation tasks, pre-trained LMs of code are better structured commonsense reasoners than LMs of natural language, even when the downstream task does not involve source code at all. We demonstrate our approach across three diverse structured commonsense reasoning tasks. In all these natural language tasks, we show that using our approach, a code generation LM (CODEX) outperforms natural-LMs that are fine-tuned on the target task (e.g., T5) and other strong LMs such as GPT-3 in the few-shot setting.

 

우리는 구조화된 상식 추론의 일반적인 과제를 다룬다. 자연어 입력, 목표는 이벤트와 같은 그래프를 생성하는 것이다. 추리 그래프 이 작업에 대규모 언어 모델(LM)을 사용하려면 기존 접근 방식은 출력 그래프를 노드의 평평한 목록으로 '구체화'한다. 가능하긴 하지만, 이러한 직렬화된 그래프는 매우 멀리 떨어져 있다. LMs가 사전 교육을 받은 자연어 말뭉치는 LMs를 방해합니다. 정확하게 생성하는 것. 이 논문에서, 우리는 대신에 프레임을 만들 때 그것을 보여준다. 코드 생성 태스크로서 구조화된 상식 추론 태스크, 사전 훈련된 코드의 LM은 자연계의 LM보다 더 잘 구조화된 상식적 추론자이다. 심지어 다운스트림 작업이 소스 코드를 전혀 포함하지 않는 경우에도 언어. 우리가 세 가지 구조화된 상식 추론에 걸친 우리의 접근 방식을 입증한다. 이 모든 자연어 과제에서, 우리는 우리의 접근방식을 사용하여, 코드 생성 LM(CODEX)은 미세 조정된 자연 LM을 능가합니다. 대상 과제(예: T5) 및 퓨샷의 GPT-3와 같은 기타 강력한 LM 세팅 

 

 

On Compressing Sequences for Self-Supervised Speech Models

 

Compressing self-supervised models has become increasingly necessary, as self-supervised models become larger. While previous approaches have primarily focused on compressing the model size, shortening sequences is also effective in reducing the computational cost. In this work, we study fixed-length and variable-length subsampling along the time axis in self-supervised learning. We explore how individual downstream tasks are sensitive to input frame rates. Subsampling while training self-supervised models not only improves the overall performance on downstream tasks under certain frame rates, but also brings significant speed-up in inference. Variable-length subsampling performs particularly well under low frame rates. In addition, if we have access to phonetic boundaries, we find no degradation in performance for an average frame rate as low as 10 Hz.

 

자체 감독 모델을 압축하는 것이 점점 더 필요하게 되었습니다. 자체 감독 모델이 더 커집니다. 이전의 접근 방식은 주로 모델 크기를 압축하는 데 초점을 맞추고, 시퀀스를 단축하는 것도 효과적이다. 계산 비용을 절감하는 데 있어. 이 작업에서, 우리는 고정 길이와 자기 지도 학습에서 시간 축을 따라 가변 길이 하위 샘플링. 우리가 개별 다운스트림 작업이 입력 프레임률에 어떻게 민감한지 살펴봅니다. 자체 지도 모델을 교육하는 동안 하위 샘플링을 수행하면 전체 성능이 향상될 뿐만 아니라 특정 프레임 속도에서 다운스트림 작업에 대한 성능, 그러나 또한 다음을 제공합니다. 추론의 상당한 속도 향상 가변 길이 하위 샘플링 수행 특히 낮은 프레임 속도에서 훨씬 더 좋습니다. 또한 액세스 권한이 있는 경우 음성 경계, 우리는 평균 프레임에 대한 성능 저하를 발견하지 못합니다. 정격은 10Hz입니다. 

 

 

반응형

댓글