본문 바로가기
오늘의 자연어 처리

[2022-10-19] 오늘의 자연어처리

by 지환이아빠 2022. 10. 19.
반응형

Textual Entailment Recognition with Semantic Features from Empirical Text Representation

 

Textual entailment recognition is one of the basic natural language understanding(NLU) tasks. Understanding the meaning of sentences is a prerequisite before applying any natural language processing(NLP) techniques to automatically recognize the textual entailment. A text entails a hypothesis if and only if the true value of the hypothesis follows the text. Classical approaches generally utilize the feature value of each word from word embedding to represent the sentences. In this paper, we propose a novel approach to identifying the textual entailment relationship between text and hypothesis, thereby introducing a new semantic feature focusing on empirical threshold-based semantic text representation. We employ an element-wise Manhattan distance vector-based feature that can identify the semantic entailment relationship between the text-hypothesis pair. We carried out several experiments on a benchmark entailment classification(SICK-RTE) dataset. We train several machine learning(ML) algorithms applying both semantic and lexical features to classify the text-hypothesis pair as entailment, neutral, or contradiction. Our empirical sentence representation technique enriches the semantic information of the texts and hypotheses found to be more efficient than the classical ones. In the end, our approach significantly outperforms known methods in understanding the meaning of the sentences for the textual entailment classification task.

 

텍스트 수반 인식은 기본적인 자연어 중 하나이다. 이해(NLU) 작업. 문장의 의미를 이해하는 것은 자연어 처리(NLP) 기술을 적용하기 전에 전제 조건 텍스트 포함을 자동으로 인식합니다. 텍스트는 다음과 같은 가설을 수반한다. 그리고 그 가설의 참값이 본문을 따르는 경우에만. 고전적인 접근 방식은 일반적으로 단어 임베딩에서 각 단어의 특징 값을 활용한다. 문장을 표현하기 위해. 이 논문에서, 우리는 에 대한 새로운 접근법을 제안한다. 텍스트와 가설 사이의 텍스트 수반 관계를 식별한다. 따라서 경험적인 것에 초점을 맞춘 새로운 의미론적 특징을 도입한다. 임계값 기반 의미 텍스트 표현. 우리는 요소별로 고용한다. 의미를 식별할 수 있는 맨해튼 거리 벡터 기반 기능 텍스트-합성 쌍 사이의 수반 관계. 우리는 수행했다. 벤치마크 수반 분류(SICK-RTE) 데이터 세트에 대한 몇 가지 실험. 우리는 의미론적 및 을 모두 적용하는 여러 기계 학습(ML) 알고리듬을 훈련한다. 텍스트-합성 쌍을 수반, 중립으로 분류하기 위한 어휘적 특징 또는 모순. 우리의 경험적 문장 표현 기술은 다음을 풍부하게 한다. 보다 효율적인 것으로 밝혀진 텍스트와 가설의 의미적 정보 고전적인 것들보다. 결국, 우리의 접근 방식은 훨씬 더 우수합니다. 텍스트에 대한 문장의 의미를 이해하는 데 알려진 방법들 수반 분류 작업. 

 

 

Interpreting Arabic Transformer Models

 

Arabic is a Semitic language which is widely spoken with many dialects. Given the success of pre-trained language models, many transformer models trained on Arabic and its dialects have surfaced. While these models have been compared with respect to downstream NLP tasks, no evaluation has been carried out to directly compare the internal representations. We probe how linguistic information is encoded in Arabic pretrained models, trained on different varieties of Arabic language. We perform a layer and neuron analysis on the models using three intrinsic tasks: two morphological tagging tasks based on MSA (modern standard Arabic) and dialectal POS-tagging and a dialectal identification task. Our analysis enlightens interesting findings such as: i) word morphology is learned at the lower and middle layers ii) dialectal identification necessitate more knowledge and hence preserved even in the final layers, iii) despite a large overlap in their vocabulary, the MSA-based models fail to capture the nuances of Arabic dialects, iv) we found that neurons in embedding layers are polysemous in nature, while the neurons in middle layers are exclusive to specific properties.

 

아랍어는 많은 방언으로 널리 사용되는 셈어족 언어이다. 정해진 사전 훈련된 언어 모델의 성공, 많은 변압기 모델의 성공 아랍어와 그 방언들이 표면화되었다. 이 모델들이 비교되는 동안 다운스트림 NLP 과제와 관련하여 어떠한 평가도 수행되지 않았다. 내부 표현을 직접 비교합니다. 우리는 얼마나 언어적인지 조사한다. 정보는 아랍어로 사전 훈련된 모델로 인코딩되며, 다른 방식으로 훈련된다. 아랍어의 변종 우리는 레이어 및 뉴런 분석을 수행합니다. 세 가지 본질적인 작업을 사용하는 모델: 두 가지 형태학적 태깅 작업을 기반으로 합니다. MSA(현대 표준 아랍어)와 방언 POS 태그 및 방언 식별 작업 우리의 분석은 다음과 같은 흥미로운 발견을 깨우친다: i) 단어 형태는 하위 계층과 중간 계층에서 학습된다 ii) 방언 신원 확인은 더 많은 지식을 필요로 하기 때문에 심지어 최종에서도 보존된다. 레이어, iii) 어휘의 큰 중복에도 불구하고, MSA 기반 모델 아랍어 방언의 뉘앙스를 포착하지 못했다, iv) 우리는 뉴런이 임베딩 레이어는 자연에서 다각형인 반면, 뉴런은 중간 레이어에 있다. 특정 속성에만 국한됩니다. 

 

 

Synergy with Translation Artifacts for Training and Inference in Multilingual Tasks

 

Translation has played a crucial role in improving the performance on multilingual tasks: (1) to generate the target language data from the source language data for training and (2) to generate the source language data from the target language data for inference. However, prior works have not considered the use of both translations simultaneously. This paper shows that combining them can synergize the results on various multilingual sentence classification tasks. We empirically find that translation artifacts stylized by translators are the main factor of the performance gain. Based on this analysis, we adopt two training methods, SupCon and MixUp, considering translation artifacts. Furthermore, we propose a cross-lingual fine-tuning algorithm called MUSC, which uses SupCon and MixUp jointly and improves the performance. Our code is available at this https URL.

 

번역은 의 성능을 향상시키는 데 중요한 역할을 했습니다. 다국어 태스크: (1) 원본에서 대상 언어 데이터 생성 훈련을 위한 언어 데이터 및 (2) 소스 언어 데이터를 생성하기 위한 추론을 위한 대상 언어 데이터 그러나 이전 작품들은 그렇지 않았다. 두 번역을 동시에 사용하는 것을 고려했습니다. 이 논문은 을 보여준다. 그것들을 결합하면 다양한 다국어 문장에서 결과를 시너지 효과를 낼 수 있다. 분류 작업 우리는 경험적으로 번역 아티팩트가 양식화된 것을 발견했다. 번역자가 성능 향상의 주요 요인입니다. 이를 바탕으로 분석, 우리는 SupCon과 MixUp의 두 가지 훈련 방법을 채택합니다. 번역 공예품 또한, 우리는 교차 언어 미세 조정을 제안한다. MUSC라고 불리는 알고리즘은 SupCon과 MixUp을 공동으로 사용하고 개선한다. 성능. 우리 코드는 이 https URL에서 사용할 수 있습니다. 

 

 

반응형

댓글