본문 바로가기
오늘의 자연어 처리

[2023-09-15] 오늘의 자연어처리

by 지환이아빠 2023. 9. 15.
반응형

Native Language Identification with Big Bird Embeddings

 

Native Language Identification (NLI) intends to classify an author's native language based on their writing in another language. Historically, the task has heavily relied on time-consuming linguistic feature engineering, and transformer-based NLI models have thus far failed to offer effective, practical alternatives. The current work investigates if input size is a limiting factor, and shows that classifiers trained using Big Bird embeddings outperform linguistic feature engineering models by a large margin on the Reddit-L2 dataset. Additionally, we provide further insight into input length dependencies, show consistent out-of-sample performance, and qualitatively analyze the embedding space. Given the effectiveness and computational efficiency of this method, we believe it offers a promising avenue for future NLI work.

 

NLI(Native Language Identification)는 저자의 모국어를 분류하기 위한 것이다 그들이 다른 언어로 쓴 글에 바탕을 둔 언어. 역사적으로 이 작업은 시간이 많이 걸리는 언어적 특징 공학에 크게 의존했고 변압기 기반 NLI 모델은 지금까지 효과적이고 실용적인 모델을 제공하지 못했다 대체 수단. 현재 작업에서는 입력 크기가 한계 요인인지를 조사하고 있다, 그리고 빅 버드 임베딩을 사용하여 훈련된 분류기가 성능을 능가함을 보여준다 Reddit-L2에서 큰 폭으로 언어적 특징 공학 모델 데이터 세트. 또한 입력 길이에 대한 추가적인 통찰력을 제공합니다 종속성, 일관된 표본 외 성능 및 질적으로 표시 매립 공간을 분석하다. 효율성과 계산 능력을 고려할 때 이 방법의 효율성, 우리는 그것이 미래를 위한 유망한 길을 제공한다고 믿는다 NLI 작업. 

 

 

Enhancing Keyphrase Generation by BART Finetuning with Splitting and Shuffling

 

Keyphrase generation is a task of identifying a set of phrases that best repre-sent the main topics or themes of a given text. Keyphrases are dividend int pre-sent and absent keyphrases. Recent approaches utilizing sequence-to-sequence models show effectiveness on absent keyphrase generation. However, the per-formance is still limited due to the hardness of finding absent keyphrases. In this paper, we propose Keyphrase-Focused BART, which exploits the differ-ences between present and absent keyphrase generations, and performs fine-tuning of two separate BART models for present and absent keyphrases. We further show effective approaches of shuffling keyphrases and candidate keyphrase ranking. For absent keyphrases, our Keyphrase-Focused BART achieved new state-of-the-art score on F1@5 in two out of five keyphrase gen-eration benchmark datasets.

 

키프레이즈 생성은 가장 적합한 문구 집합을 식별하는 작업이다 주어진 텍스트의 주요 주제 또는 주제를 다시 전달합니다. 핵심 문구는 배당이다 사전 입력 및 부재 키 구문을 입력합니다. 를 이용한 최근의 접근법 시퀀스 투 시퀀스 모델은 부재한 키프레이즈 생성에 대한 효과를 보여준다. 그러나 발견의 어려움 때문에 성능은 여전히 제한적이다 주요 어구가 하나도. 본 논문에서는 다음과 같은 Keyphrase-Focused BART를 제안한다 현재 키프레이즈 세대와 부재 키프레이즈 세대의 차이점을 활용합니다 현재와 부재에 대해 두 개의 개별 BART 모델의 미세 조정을 수행합니다 주요 어구. 우리는 또한 주요 문구를 섞는 효과적인 접근법을 보여준다 후보 키프레이즈 순위입니다. Keyphrase가 없는 경우, Keyphrase-Focused BART F1@5에서 최신 기술 점수를 5개의 주요 문구 중 2개로 획득했습니다 세대 벤치마크 데이터셋. 

 

 

Comparative Analysis of Contextual Relation Extraction based on Deep Learning Models

 

Contextual Relation Extraction (CRE) is mainly used for constructing a knowledge graph with a help of ontology. It performs various tasks such as semantic search, query answering, and textual entailment. Relation extraction identifies the entities from raw texts and the relations among them. An efficient and accurate CRE system is essential for creating domain knowledge in the biomedical industry. Existing Machine Learning and Natural Language Processing (NLP) techniques are not suitable to predict complex relations from sentences that consist of more than two relations and unspecified entities efficiently. In this work, deep learning techniques have been used to identify the appropriate semantic relation based on the context from multiple sentences. Even though various machine learning models have been used for relation extraction, they provide better results only for binary relations, i.e., relations occurred exactly between the two entities in a sentence. Machine learning models are not suited for complex sentences that consist of the words that have various meanings. To address these issues, hybrid deep learning models have been used to extract the relations from complex sentence effectively. This paper explores the analysis of various deep learning models that are used for relation extraction.

 

CRE(Contextual Relation Extraction)는 주로 CRE(Contextual Relation Extraction)를 구성하는 데 사용된다 온톨로지의 도움으로 지식 그래프를 만듭니다. 다음과 같은 다양한 업무를 수행한다 의미 검색, 질의 응답 및 텍스트 수반. 관계추출 원시 텍스트에서 개체와 개체 간의 관계를 식별합니다. 안 효율적이고 정확한 CRE 시스템은 도메인 지식을 만드는 데 필수적이다 생의학 산업. 기존의 기계학습과 자연어 프로세싱(NLP) 기법은 복잡한 관계를 예측하기에 적합하지 않다 두 개 이상의 관계와 불특정 개체로 구성된 문장 효율적으로. 이 작업에서는 딥 러닝 기법을 사용하여 식별해 왔다 여러 문장의 문맥에 기초한 적절한 의미 관계. 다양한 기계 학습 모델들이 관계를 위해 사용되고 있음에도 불구하고 추출, 그들은 이진 관계에 대해서만 더 나은 결과를 제공한다. 한 문장에서 두 실체 사이에 정확히 관계가 발생했다. 기계. 학습 모델은 단어로 구성된 복잡한 문장에 적합하지 않다 다양한 의미를 내포하고 있습니다. 이러한 문제를 해결하기 위해 하이브리드 딥 러닝(hybrid deep learning) 복잡한 문장에서 관계를 추출하기 위해 모델들이 사용되어 왔다 효과적으로. 본 논문에서는 다양한 딥러닝 모델의 분석을 탐구한다 관계 추출에 사용됩니다. 

 

 

반응형

댓글