본문 바로가기
오늘의 자연어 처리

[2022-08-19] 오늘의 자연어처리

by 지환이아빠 2022. 8. 19.
반응형

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

 

Current end-to-end machine reading and question answering (Q\&A) models are primarily based on recurrent neural networks (RNNs) with attention. Despite their success, these models are often slow for both training and inference due to the sequential nature of RNNs. We propose a new Q\&A architecture called QANet, which does not require recurrent networks: Its encoder consists exclusively of convolution and self-attention, where convolution models local interactions and self-attention models global interactions. On the SQuAD dataset, our model is 3x to 13x faster in training and 4x to 9x faster in inference, while achieving equivalent accuracy to recurrent models. The speed-up gain allows us to train the model with much more data. We hence combine our model with data generated by backtranslation from a neural machine translation model. On the SQuAD dataset, our single model, trained with augmented data, achieves 84.6 F1 score on the test set, which is significantly better than the best published F1 score of 81.8.

 

현재 종단 간 기계 판독 및 질문 응답(Q\&A) 모델은 다음과 같습니다. 주로 주의를 기울이는 반복 신경망(RNN)을 기반으로 한다. 불구하고 그들의 성공, 이 모델들은 종종 훈련과 추론 모두 느리다. RNN의 순차적 특성. 우리는 다음과 같은 새로운 Q&A 아키텍처를 제안한다. 반복 네트워크가 필요하지 않은 QANet: 인코더는 다음과 같이 구성됩니다. 컨볼루션 모델이 국소적인 컨볼루션과 자기 주의의 독점. 상호 작용과 자기 주의 모델은 글로벌 상호 작용을 모델링합니다. SQUAD에서 데이터셋, 우리의 모델은 교육에서 3배에서 13배, 그리고 4배에서 9배 더 빠르다. 반복 모델과 동등한 정확도를 달성하는 동시에 추론. 그 속도 향상 이득을 통해 훨씬 더 많은 데이터로 모델을 훈련시킬 수 있습니다. 우리 이제 우리의 모델을 신경 기계에서 역번역으로 생성된 데이터와 결합한다. 번역 모형 SQuAD 데이터 세트에서 다음과 같이 훈련된 단일 모델 증강된 데이터, 테스트 세트에서 84.6 F1 점수를 달성합니다. 이것은 매우 중요합니다. 가장 잘 발표된 F1 점수인 81.8보다 낫다. 

 

 

Ered: Enhanced Text Representations with Entities and Descriptions

 

External knowledge,e.g., entities and entity descriptions, can help humans understand texts. Many works have been explored to include external knowledge in the pre-trained models. These methods, generally, design pre-training tasks and implicitly introduce knowledge by updating model weights, alternatively, use it straightforwardly together with the original text. Though effective, there are some limitations. On the one hand, it is implicit and only model weights are paid attention to, the pre-trained entity embeddings are ignored. On the other hand, entity descriptions may be lengthy, and inputting into the model together with the original text may distract the model's attention. This paper aims to explicitly include both entities and entity descriptions in the fine-tuning stage. First, the pre-trained entity embeddings are fused with the original text representation and updated by the backbone model layer by layer. Second, descriptions are represented by the knowledge module outside the backbone model, and each knowledge layer is selectively connected to one backbone layer for fusing. Third, two knowledge-related auxiliary tasks, i.e., entity/description enhancement and entity enhancement/pollution task, are designed to smooth the semantic gaps among evolved representations. We conducted experiments on four knowledge-oriented tasks and two common tasks, and the results achieved new state-of-the-art on several datasets. Besides, we conduct an ablation study to show that each module in our method is necessary. The code is available at this https URL.

 

외부 지식(예: 실체 및 실체 설명)은 인간을 도울 수 있다. 텍스트를 이해하다 외부 지식을 포함하기 위해 많은 작업이 탐구되었다. 사전 훈련된 모델에서. 일반적으로 이러한 방법은 사전 교육 과제를 설계한다. 그리고 모델 가중치를 업데이트함으로써 암묵적으로 지식을 도입한다. 그것을 원문과 함께 직설적으로 사용하시오. 효과적이긴 하지만 몇 가지 제한이 있습니다. 한편으로는, 그것은 암시적이고 유일한 모델이다. 가중치가 주목되고, 사전 훈련된 엔티티 임베딩은 무시된다. 반면에, 엔티티 설명은 길어질 수 있고, 에 입력한다. 모델을 원본 텍스트와 함께 사용하면 모델의 주의가 산만해질 수 있습니다. 이것. 논문은 엔티티와 엔티티 설명을 명시적으로 포함하는 것을 목표로 한다. 미세 조정 단계 첫째, 사전 훈련된 엔티티 임베딩은 원본 텍스트 표현 및 백본 모델에 의해 계층별로 업데이트됩니다. 둘째, 설명은 외부 지식 모듈에 의해 표현됩니다. 백본 모델, 각 지식 계층은 선택적으로 하나에 연결됩니다. 융합을 위한 백본 레이어. 셋째, 두 가지 지식관련 보조과제, 즉 엔티티/설명 향상 및 엔티티 개선/재활 과제: 진화한 표현 사이의 의미적 차이를 완화하기 위해 설계되었다. 우리가 네 가지 지식 지향 과제와 두 가지 공통 과제에 대한 실험을 수행했다. 그리고 그 결과는 여러 데이터 세트에서 새로운 최첨단 기술을 달성했다. 게다가, 우리는 우리 방법의 각 모듈이 필요하다는 것을 보여주기 위해 절제 연구를 수행합니다. 코드는 이 https URL에서 사용할 수 있습니다. 

 

 

A Two-Phase Paradigm for Joint Entity-Relation Extraction

 

An exhaustive study has been conducted to investigate span-based models for the joint entity and relation extraction task. However, these models sample a large number of negative entities and negative relations during the model training, which are essential but result in grossly imbalanced data distributions and in turn cause suboptimal model performance. In order to address the above issues, we propose a two-phase paradigm for the span-based joint entity and relation extraction, which involves classifying the entities and relations in the first phase, and predicting the types of these entities and relations in the second phase. The two-phase paradigm enables our model to significantly reduce the data distribution gap, including the gap between negative entities and other entities, as well as the gap between negative relations and other relations. In addition, we make the first attempt at combining entity type and entity distance as global features, which has proven effective, especially for the relation extraction. Experimental results on several datasets demonstrate that the spanbased joint extraction model augmented with the two-phase paradigm and the global features consistently outperforms previous state-of-the-art span-based models for the joint extraction task, establishing a new standard benchmark. Qualitative and quantitative analyses further validate the effectiveness the proposed paradigm and the global features.

 

다음을 위한 스팬 기반 모델을 조사하기 위한 철저한 연구가 수행되었습니다. 공동 실체 및 관계 추출 작업. 그러나 이 모델들은 표본 a. 모형 동안 많은 수의 음의 도면요소 및 음의 관계 필수적이지만 심각하게 불균형한 데이터를 초래하는 교육 분포는 차선의 모델 성능을 유발합니다. 위하여 위의 문제를 해결하고, 우리는 스팬 기반의 2단계 패러다임을 제안한다. 공동 실체 및 관계 추출, 실체 분류 포함 그리고 첫 번째 단계의 관계, 그리고 이러한 실체의 유형을 예측한다. 두 번째 단계의 관계. 2단계 패러다임은 우리의 모델이 데이터 배포 격차를 크게 줄여줍니다. 음의 실체와 다른 실체, 그리고 음의 간극. 관계 및 기타 관계 게다가, 우리는 첫 번째 시도를 한다. 엔티티 유형과 엔티티 거리를 글로벌 기능으로 결합하는 것이 입증되었습니다. 특히 관계 추출에 효과적입니다. 에 대한 실험 결과 여러 데이터 세트는 스팬 기반 관절 추출 모델을 보여준다. 2단계 패러다임과 글로벌 기능으로 일관되게 강화되었습니다. 관절에 대한 이전의 최첨단 스팬 기반 모델을 능가합니다. 추출 작업, 새로운 표준 벤치마크 설정. 질적 및 정량적 분석은 제안된 패러다임의 효과를 더욱 검증한다. 그리고 글로벌 기능. 

 

 

반응형

댓글