본문 바로가기
오늘의 자연어 처리

[2023-07-30] 오늘의 자연어처리

by 지환이아빠 2023. 7. 30.
반응형

Improving Aspect-Based Sentiment with End-to-End Semantic Role Labeling Model

 

This paper presents a series of approaches aimed at enhancing the performance of Aspect-Based Sentiment Analysis (ABSA) by utilizing extracted semantic information from a Semantic Role Labeling (SRL) model. We propose a novel end-to-end Semantic Role Labeling model that effectively captures most of the structured semantic information within the Transformer hidden state. We believe that this end-to-end model is well-suited for our newly proposed models that incorporate semantic information. We evaluate the proposed models in two languages, English and Czech, employing ELECTRA-small models. Our combined models improve ABSA performance in both languages. Moreover, we achieved new state-of-the-art results on the Czech ABSA.

 

본 논문은 성능을 향상시키기 위한 일련의 접근법을 제시한다 추출된 의미론을 활용한 측면기반 감정분석(ABSA) 연구 SRL(Semantic Role Labeling) 모델의 정보입니다. 우리는 소설을 제안한다 대부분을 효과적으로 포착하는 엔드 투 엔드 시맨틱 역할 라벨링 모델 트랜스포머 숨겨진 상태 내의 구조화된 의미 정보입니다. 우리는 믿는다 이 엔드 투 엔드 모델은 다음과 같이 새롭게 제안된 모델에 적합합니다 시맨틱 정보를 통합하다. 우리는 제안된 모델을 두 가지로 평가한다 언어, 영어 및 체코어, ELECTRA 소형 모델을 사용합니다. 우리의 결합된 모델은 두 언어 모두에서 ABSA 성능을 향상시킵니다. 게다가, 우리는 새로운 것을 성취했다 체코 ABSA에 대한 최신 결과입니다. 

 

 

Improving Natural Language Inference in Arabic using Transformer Models and Linguistically Informed Pre-Training

 

This paper addresses the classification of Arabic text data in the field of Natural Language Processing (NLP), with a particular focus on Natural Language Inference (NLI) and Contradiction Detection (CD). Arabic is considered a resource-poor language, meaning that there are few data sets available, which leads to limited availability of NLP methods. To overcome this limitation, we create a dedicated data set from publicly available resources. Subsequently, transformer-based machine learning models are being trained and evaluated. We find that a language-specific model (AraBERT) performs competitively with state-of-the-art multilingual approaches, when we apply linguistically informed pre-training methods such as Named Entity Recognition (NER). To our knowledge, this is the first large-scale evaluation for this task in Arabic, as well as the first application of multi-task pre-training in this context.

 

이 논문은 다음 분야에서 아랍어 텍스트 데이터의 분류를 다룬다 자연어에 특히 초점을 맞춘 자연어 처리(NLP). Natural Language Processing(Natural Language Processing) 추론(NLI)과 모순 탐지(CD). 아랍어는 a로 간주된다 리소스가 부족한 언어, 즉 사용 가능한 데이터 세트가 거의 없다는 것을 의미합니다 NLP 방법의 가용성이 제한됩니다. 이 한계를 극복하기 위해 우리는 공개 리소스에서 전용 데이터 세트를 생성합니다. 그 다음에, 변압기 기반 기계 학습 모델을 훈련하고 평가하고 있다. 우리가 언어별 모델(AraBERT)이 다음과 같이 경쟁적으로 수행된다는 것을 발견하다 우리가 언어학적으로 정보에 입각하여 적용할 때, 최첨단 다국어 접근법 NER(Named Entity Recognition)과 같은 사전 교육 방법. 우리가 아는 바로는, 이것은 아랍어뿐만 아니라 이 작업에 대한 첫 번째 대규모 평가이다 이러한 맥락에서 다중 작업 사전 훈련의 첫 번째 적용. 

 

 

Skill-it! A Data-Driven Skills Framework for Understanding and Training Language Models

 

The quality of training data impacts the performance of pre-trained large language models (LMs). Given a fixed budget of tokens, we study how to best select data that leads to good downstream model performance across tasks. We develop a new framework based on a simple hypothesis: just as humans acquire interdependent skills in a deliberate order, language models also follow a natural order when learning a set of skills from their training data. If such an order exists, it can be utilized for improved understanding of LMs and for data-efficient training. Using this intuition, our framework formalizes the notion of a skill and of an ordered set of skills in terms of the associated data. First, using both synthetic and real data, we demonstrate that these ordered skill sets exist, and that their existence enables more advanced skills to be learned with less data when we train on their prerequisite skills. Second, using our proposed framework, we introduce an online data sampling algorithm, Skill-It, over mixtures of skills for both continual pre-training and fine-tuning regimes, where the objective is to efficiently learn multiple skills in the former and an individual skill in the latter. On the LEGO synthetic in the continual pre-training setting, Skill-It obtains 36.5 points higher accuracy than random sampling. On the Natural Instructions dataset in the fine-tuning setting, Skill-It reduces the validation loss on the target skill by 13.6% versus training on data associated with the target skill itself. We apply our skills framework on the recent RedPajama dataset to continually pre-train a 3B-parameter LM, achieving higher accuracy on the LM Evaluation Harness with 1B tokens than the baseline approach of sampling uniformly over data sources with 3B tokens.

 

교육 데이터의 품질은 사전에 교육된 대규모 기업의 성능에 영향을 미칩니다 언어 모델(LM). 고정된 토큰 예산이 주어지면, 우리는 최선을 다하는 방법을 연구한다 작업 전반에서 우수한 다운스트림 모델 성능으로 이어지는 데이터를 선택합니다. 우리가 인간이 습득하는 것처럼 단순한 가설에 기초하여 새로운 프레임워크를 개발한다 의도적인 순서로 상호 의존적인 기술들, 언어 모델들은 또한 다음을 따른다 훈련 데이터에서 일련의 기술을 배울 때 자연스러운 질서. 그렇다면 주문이 존재하며, 그것은 LM의 이해를 향상시키고 다음을 위해 활용될 수 있다 데이터 효율이 높은 훈련. 이 직관을 사용하여, 우리의 프레임워크는 다음을 공식화한다 관련된 용어로 기술의 개념과 질서 있는 기술 집합의 개념 데이터. 첫째, 합성 데이터와 실제 데이터를 모두 사용하여, 우리는 이것들이 순서화된 기술 집합이 존재하고, 그들의 존재가 더 발전된 기술을 가능하게 한다 우리가 그들의 필수 기술을 훈련할 때 더 적은 데이터로 배울 수 있다. 둘째, 제안된 프레임워크를 사용하여 온라인 데이터 샘플링을 도입한다 알고리즘, 스킬-It, 지속적인 사전 교육을 위한 기술의 혼합 그리고 여러 가지를 효율적으로 학습하는 것이 목표인 미세 조정 체제 전자의 기술과 후자의 개인의 기술. 레고 위에 지속적인 사전 훈련 설정에서 합성, 스킬-36.5점 획득 랜덤 샘플링보다 정확도가 높습니다. 의 자연 지침 데이터 세트 미세 조정 설정, 스킬 - 대상의 검증 손실을 줄입니다 기술은 목표 기술 자체와 관련된 데이터에 대한 교육에 비해 13.6% 향상되었습니다. 우리는 최근 RedPajama 데이터 세트에 대한 기술 프레임워크를 지속적으로 적용한다 LM 평가에서 더 높은 정확도를 달성하면서 3B 매개 변수 LM을 사전 교육합니다 균일하게 샘플링하는 기본 접근 방식보다 1B 토큰으로 사용 3B 토큰이 있는 데이터 소스. 

 

 

반응형

댓글