본문 바로가기
오늘의 자연어 처리

[2023-11-23] 오늘의 자연어처리

by 지환이아빠 2023. 11. 23.
반응형

Multilingual Word Embeddings for Low-Resource Languages using Anchors and a Chain of Related Languages

 

Abstract:Very low-resource languages, having only a few million tokens worth of data, are not well-supported by multilingual NLP approaches due to poor quality cross-lingual word representations. Recent work showed that good cross-lingual performance can be achieved if a source language is related to the low-resource target language. However, not all language pairs are related. In this paper, we propose to build multilingual word embeddings (MWEs) via a novel language chain-based approach, that incorporates intermediate related languages to bridge the gap between the distant source and target. We build MWEs one language at a time by starting from the resource rich source and sequentially adding each language in the chain till we reach the target. We extend a semi-joint bilingual approach to multiple languages in order to eliminate the main weakness of previous works, i.e., independently trained monolingual embeddings, by anchoring the target language around the multilingual space. We evaluate our method on bilingual lexicon induction for 4 language families, involving 4 very low-resource (<5M tokens) and 4 moderately low-resource (<50M) target languages, showing improved performance in both categories. Additionally, our analysis reveals the importance of good quality embeddings for intermediate languages as well as the importance of leveraging anchor points from all languages in the multilingual space.

 

추상화:수백만 토큰 가치의 데이터만을 갖는 매우 낮은 리소스 언어는 품질이 좋지 않은 언어 간 단어 표현으로 인해 다국어 NLP 접근 방식에 의해 잘 지원되지 않는다. 최근 연구에 따르면 소스 언어가 저자원 목표 언어와 관련이 있을 경우 양호한 교차 언어 성능을 달성할 수 있다. 그러나 모든 언어 쌍이 연관되어 있는 것은 아니다. 본 논문에서는 원격 소스와 대상 사이의 격차를 해소하기 위해 중간 관련 언어를 통합하는 새로운 언어 체인 기반 접근 방식을 통해 다국어 단어 임베딩(MWE)을 구축할 것을 제안한다. 자원이 풍부한 소스에서 시작하여 목표에 도달할 때까지 체인의 각 언어를 순차적으로 추가함으로써 한 번에 하나의 언어를 구축한다. 다국어 공간에 목표 언어를 고정함으로써 이전 작품의 주요 약점, 즉 독립적으로 훈련된 단일 언어 임베딩을 제거하기 위해 반공동 이중 언어 접근 방식을 여러 언어로 확장한다. 우리는 4개의 매우 저자원(<5M 토큰)과 4개의 중간 저자원(<50M) 대상 언어를 포함하는 4개의 언어군에 대한 이중 언어 어휘 유도에 대한 우리의 방법을 평가하여 두 범주 모두에서 향상된 성능을 보여준다. 또한, 우리의 분석은 중급 언어에 대한 좋은 품질 임베딩의 중요성과 다국어 공간의 모든 언어에서 앵커 포인트를 활용하는 것의 중요성을 보여준다. 

 

 

Multilingual Word Embeddings for Low-Resource Languages using Anchors and a Chain of Related Languages

 

Abstract:Very low-resource languages, having only a few million tokens worth of data, are not well-supported by multilingual NLP approaches due to poor quality cross-lingual word representations. Recent work showed that good cross-lingual performance can be achieved if a source language is related to the low-resource target language. However, not all language pairs are related. In this paper, we propose to build multilingual word embeddings (MWEs) via a novel language chain-based approach, that incorporates intermediate related languages to bridge the gap between the distant source and target. We build MWEs one language at a time by starting from the resource rich source and sequentially adding each language in the chain till we reach the target. We extend a semi-joint bilingual approach to multiple languages in order to eliminate the main weakness of previous works, i.e., independently trained monolingual embeddings, by anchoring the target language around the multilingual space. We evaluate our method on bilingual lexicon induction for 4 language families, involving 4 very low-resource (<5M tokens) and 4 moderately low-resource (<50M) target languages, showing improved performance in both categories. Additionally, our analysis reveals the importance of good quality embeddings for intermediate languages as well as the importance of leveraging anchor points from all languages in the multilingual space.

 

추상화:수백만 토큰 가치의 데이터만을 갖는 매우 낮은 리소스 언어는 품질이 좋지 않은 언어 간 단어 표현으로 인해 다국어 NLP 접근 방식에 의해 잘 지원되지 않는다. 최근 연구에 따르면 소스 언어가 저자원 목표 언어와 관련이 있을 경우 양호한 교차 언어 성능을 달성할 수 있다. 그러나 모든 언어 쌍이 연관되어 있는 것은 아니다. 본 논문에서는 원격 소스와 대상 사이의 격차를 해소하기 위해 중간 관련 언어를 통합하는 새로운 언어 체인 기반 접근 방식을 통해 다국어 단어 임베딩(MWE)을 구축할 것을 제안한다. 자원이 풍부한 소스에서 시작하여 목표에 도달할 때까지 체인의 각 언어를 순차적으로 추가함으로써 한 번에 하나의 언어를 구축한다. 다국어 공간에 목표 언어를 고정함으로써 이전 작품의 주요 약점, 즉 독립적으로 훈련된 단일 언어 임베딩을 제거하기 위해 반공동 이중 언어 접근 방식을 여러 언어로 확장한다. 우리는 4개의 매우 저자원(<5M 토큰)과 4개의 중간 저자원(<50M) 대상 언어를 포함하는 4개의 언어군에 대한 이중 언어 어휘 유도에 대한 우리의 방법을 평가하여 두 범주 모두에서 향상된 성능을 보여준다. 또한, 우리의 분석은 중급 언어에 대한 좋은 품질 임베딩의 중요성과 다국어 공간의 모든 언어에서 앵커 포인트를 활용하는 것의 중요성을 보여준다. 

 

 

Beyond Turing: A Comparative Analysis of Approaches for Detecting Machine-Generated Text

 

Abstract:Significant progress has been made on text generation by pre-trained language models (PLMs), yet distinguishing between human and machine-generated text poses an escalating challenge. This paper offers an in-depth evaluation of three distinct methods used to address this task: traditional shallow learning, Language Model (LM) fine-tuning, and Multilingual Model fine-tuning. These approaches are rigorously tested on a wide range of machine-generated texts, providing a benchmark of their competence in distinguishing between human-authored and machine-authored linguistic constructs. The results reveal considerable differences in performance across methods, thus emphasizing the continued need for advancement in this crucial area of NLP. This study offers valuable insights and paves the way for future research aimed at creating robust and highly discriminative models.

 

추상화:사전 훈련된 언어 모델(PLM)에 의한 텍스트 생성에 상당한 진전이 있었지만, 인간과 기계가 생성한 텍스트를 구별하는 것은 증가하는 과제를 안고 있다. 본 논문은 이 과제를 해결하기 위해 사용되는 세 가지 다른 방법, 즉 전통적 얕은 학습, 언어 모델(LM) 미세 조정 및 다국어 모델 미세 조정에 대한 심층적인 평가를 제공한다. 이러한 접근법은 광범위한 기계 생성 텍스트에 대해 엄격하게 테스트되어 인간이 작성한 언어 구조와 기계가 작성한 언어 구조를 구별하는 능력의 벤치마크를 제공한다. 결과는 방법 간에 상당한 성능 차이를 나타내며, 따라서 NLP의 이 중요한 영역에서 지속적인 발전의 필요성을 강조한다. 이 연구는 강력하고 매우 차별적인 모델을 만드는 것을 목표로 하는 향후 연구를 위한 귀중한 통찰력을 제공하고 길을 열어준다. 

 

 

반응형

댓글