본문 바로가기
오늘의 자연어 처리

[2023-01-11] 오늘의 자연어처리

by 지환이아빠 2023. 1. 11.
반응형

ERNIE 3.0 Tiny: Frustratingly Simple Method to Improve Task-Agnostic Distillation Generalization

 

Task-agnostic knowledge distillation attempts to address the problem of deploying large pretrained language model in resource-constrained scenarios by compressing a large pretrained model called teacher into a smaller one called student such that the student can be directly finetuned on downstream tasks and retains comparable performance. However, we empirically find that there is a generalization gap between the student and the teacher in existing methods. In this work, we show that we can leverage multi-task learning in task-agnostic distillation to advance the generalization of the resulted student. In particular, we propose Multi-task Infused Task-agnostic Knowledge Distillation (MITKD). We first enhance the teacher by multi-task training it on multiple downstream tasks and then perform distillation to produce the student. Experimental results demonstrate that our method yields a student with much better generalization, significantly outperforms existing baselines, and establishes a new state-of-the-art result on in-domain, out-domain, and low-resource datasets in the setting of task-agnostic distillation. Moreover, our method even exceeds an 8x larger BERT$_{\text{Base}}$ on SQuAD and four GLUE tasks. In addition, by combining ERNIE 3.0, our method achieves state-of-the-art results on 10 Chinese datasets.

 

작업에 구애받지 않는 지식 증류는 다음과 같은 문제를 해결하려고 시도한다 리소스가 제한된 시나리오에서 대규모 사전 훈련된 언어 모델을 배포합니다 선생님이라고 불리는 큰 사전 훈련된 모델을 작은 모델로 압축하는 것은 학생들이 다운스트림 작업에 직접적으로 미세 조정될 수 있도록 학생들 유사한 성능을 유지합니다. 그러나, 우리는 경험적으로 다음이 있다는 것을 발견한다 기존 방법에서 학생과 교사 사이의 일반화 격차. 인 이 작업은 작업에 구애받지 않는 다중 작업 학습을 활용할 수 있음을 보여준다 결과 학생의 일반화를 촉진하기 위한 증류. 인 특히, 우리는 다중 작업 주입된 작업에 구애받지 않는 지식 증류를 제안한다 (MITKD). 우리는 먼저 다중 작업에 대해 다중 작업을 훈련함으로써 교사를 향상시킨다 다운스트림 작업을 수행한 다음 증류를 수행하여 학생을 생산합니다. 실험 결과는 우리의 방법이 많은 것을 가진 학생을 산출한다는 것을 보여준다 더 나은 일반화, 기존 기준선을 크게 능가하고 내부 도메인, 외부 도메인에 대한 새로운 최첨단 결과를 수립합니다 작업에 구애받지 않는 증류 설정에서 리소스가 적은 데이터 세트. 게다가. 우리의 방법은 심지어 SQuAD에서 8배 큰 BERT$_{\text{Base}$와 4개를 초과한다 글루 작업. 게다가, ERNIE 3.0을 결합함으로써, 우리의 방법은 달성한다 10개의 중국 데이터 세트에 대한 최첨단 결과. 

 

 

Removing Non-Stationary Knowledge From Pre-Trained Language Models for Entity-Level Sentiment Classification in Finance

 

Extraction of sentiment signals from news text, stock message boards, and business reports, for stock movement prediction, has been a rising field of interest in finance. Building upon past literature, the most recent works attempt to better capture sentiment from sentences with complex syntactic structures by introducing aspect-level sentiment classification (ASC). Despite the growing interest, however, fine-grained sentiment analysis has not been fully explored in non-English literature due to the shortage of annotated finance-specific data. Accordingly, it is necessary for non-English languages to leverage datasets and pre-trained language models (PLM) of different domains, languages, and tasks to best their performance. To facilitate finance-specific ASC research in the Korean language, we build KorFinASC, a Korean aspect-level sentiment classification dataset for finance consisting of 12,613 human-annotated samples, and explore methods of intermediate transfer learning. Our experiments indicate that past research has been ignorant towards the potentially wrong knowledge of financial entities encoded during the training phase, which has overestimated the predictive power of PLMs. In our work, we use the term "non-stationary knowledge'' to refer to information that was previously correct but is likely to change, and present "TGT-Masking'', a novel masking pattern to restrict PLMs from speculating knowledge of the kind. Finally, through a series of transfer learning with TGT-Masking applied we improve 22.63% of classification accuracy compared to standalone models on KorFinASC.

 

뉴스 텍스트, 주식 게시판에서 감정 신호 추출 및 주식 이동 예측을 위한 비즈니스 보고서는 상승하는 분야였다 금융에 대한 관심. 과거의 문헌을 바탕으로 한 최신작들 복잡한 구문으로 문장에서 감정을 더 잘 포착하려고 시도하다 ASC(aspect-level sentiment classification)를 도입하여 구조. 불구하고 그러나 증가하는 관심은 세밀한 감정 분석이 이루어지지 않고 있다 주석이 부족하기 때문에 영어 이외의 문학에서 충분히 탐구되었다 재무 관련 데이터. 따라서 영어가 아닌 언어의 경우 필요하다 서로 다른 데이터 세트와 사전 훈련된 언어 모델(PLM)을 활용한다 도메인, 언어 및 태스크를 사용하여 성능을 극대화할 수 있습니다. 촉진하기 위해 한국어로 된 금융별 ASC 연구, 우리는 KorFinASC를 구축한다 다음으로 구성된 금융에 대한 한국적 측면 수준의 정서 분류 데이터 세트 12,613개의 인체 표본 및 중간 전이 방법 탐색 학문. 우리의 실험은 과거의 연구가 에 대해 무지했다는 것을 나타낸다 암호화된 금융 실체에 대한 잠재적으로 잘못된 지식 PLM의 예측력을 과대평가한 훈련 단계 작업, 우리는 다음과 같은 정보를 언급하기 위해 "비정적 지식"이라는 용어를 사용한다 이전에 옳았지만 변경될 가능성이 있으며, "TGT-Masking", 즉 PLM이 종류의 지식을 추측하는 것을 제한하는 새로운 마스킹 패턴. 마지막으로, TGT-Masking이 적용된 일련의 전이 학습을 통해 우리는 다음에 대한 독립형 모델과 비교하여 분류 정확도의 22.63%를 향상시킵니다 KorFinASC. 

 

 

Logically at Factify 2023: A Multi-Modal Fact Checking System Based on Evidence Retrieval techniques and Transformer Encoder Architecture

 

In this paper, we present the Logically submissions to De-Factify 2 challenge (DE-FACTIFY 2023) on the task 1 of Multi-Modal Fact Checking. We describes our submissions to this challenge including explored evidence retrieval and selection techniques, pre-trained cross-modal and unimodal models, and a cross-modal veracity model based on the well established Transformer Encoder (TE) architecture which is heavily relies on the concept of self-attention. Exploratory analysis is also conducted on this Factify 2 data set that uncovers the salient multi-modal patterns and hypothesis motivating the architecture proposed in this work. A series of preliminary experiments were done to investigate and benchmarking different pre-trained embedding models, evidence retrieval settings and thresholds. The final system, a standard two-stage evidence based veracity detection system, yields weighted avg. 0.79 on both val set and final blind test set on the task 1, which achieves 3rd place with a small margin to the top performing system on the leaderboard among 9 participants.

 

본 논문에서는 De-Factify 2에 대한 논리적 제출 과제를 제시합니다 (DE-FACTIFY 2023) 멀티모달 팩트 체크 과제 1에 대해. 우리는 우리의 탐색된 증거 검색을 포함하여 이 과제에 대한 제출 선택 기법, 사전 훈련된 교차 모델 및 단일 모달 모델, 그리고 잘 확립된 트랜스포머 인코더를 기반으로 한 교차 모달 진실성 모델 (TE) 자기 주의의 개념에 크게 의존하는 아키텍처. 이 Factify 2 데이터 세트에 대해서도 탐색적 분석이 수행됩니다 건축에 동기를 부여하는 두드러진 다중 요소 패턴과 가설 이 작품에서 제안되었다. 일련의 예비 실험이 행해졌다 다양한 사전 훈련된 임베딩 모델, 증거 조사 및 벤치마킹 검색 설정 및 임계값. 최종 시스템, 표준 2단계 증거 기반 정확도 감지 시스템, 두 값 모두에서 가중 평균 0.79를 산출한다 과제 1에 대한 세트 및 최종 블라인드 테스트 세트로 3위를 달성합니다 9개 중 리더보드의 상위 성과 시스템에 대한 작은 차이 참가자. 

 

 

반응형

댓글