본문 바로가기
오늘의 자연어 처리

[2022-08-20] 오늘의 자연어처리

by 지환이아빠 2022. 8. 20.
반응형

Ask Question First for Enhancing Lifelong Language Learning

 

Lifelong language learning aims to stream learning NLP tasks while retaining knowledge of previous tasks. Previous works based on the language model and following data-free constraint approaches have explored formatting all data as "begin token (\textit{B}) + context (\textit{C}) + question (\textit{Q}) + answer (\textit{A})" for different tasks. However, they still suffer from catastrophic forgetting and are exacerbated when the previous task's pseudo data is insufficient for the following reasons: (1) The model has difficulty generating task-corresponding pseudo data, and (2) \textit{A} is prone to error when \textit{A} and \textit{C} are separated by \textit{Q} because the information of the \textit{C} is diminished before generating \textit{A}. Therefore, we propose the Ask Question First and Replay Question (AQF-RQ), including a novel data format "\textit{BQCA}" and a new training task to train pseudo questions of previous tasks. Experimental results demonstrate that AQF-RQ makes it easier for the model to generate more pseudo data that match corresponding tasks, and is more robust to both sufficient and insufficient pseudo-data when the task boundary is both clear and unclear. AQF-RQ can achieve only 0.36\% lower performance than multi-task learning.

 

평생 언어 학습은 유지하면서도 학습 NLP 작업을 스트리밍하는 것을 목표로 한다. 이전 작업에 대한 지식 언어 모델에 기반한 이전 작품들 다음의 데이터 없는 제약 접근 방식은 다음과 같이 모든 데이터를 포맷하는 것을 탐구했다. "시작 토큰(\textit{B}) + 컨텍스트(\textit{C}) + 질문(\textit{Q}) + 다른 작업에 대해 답변(\textit{A})"을(를) 하지만, 그들은 여전히 고통받고 있다. 치명적인 망각과 이전 작업의 사이비일 때 악화됩니다. 다음과 같은 이유로 데이터가 부족합니다. (1) 모델에 어려움이 있습니다. 작업 대응 유사 데이터 생성 및 (2) \textit{A}은(는) 오류가 발생하기 쉽습니다. \textit{일 때A}와 \textit{C}는 다음과 같은 이유로 \textit{Q}로 분리된다. \textit{C}의 정보는 \textit{를 생성하기 전에 감소한다.A}. 따라서 먼저 질문하고 다시 질문(AQF-RQ)을 제안합니다. 새로운 데이터 형식 "\textit{B" 포함QCA}" 및 교육할 새로운 교육 과제 이전 작업에 대한 유사 질문 실험 결과는 다음을 입증한다. AQF-RQ를 사용하면 모델이 일치하는 더 많은 유사 데이터를 쉽게 생성할 수 있습니다. 해당 작업, 그리고 충분하거나 불충분한 작업 모두에 대해 더 강력하다. 작업 경계가 명확하고 불분명한 경우 유사 데이터. AQF-RQ 캔 멀티태스킹 학습보다 0.36\% 낮은 성능만 달성한다. 

 

 

Neural Embeddings for Text

 

We propose a new kind of embedding for natural language text that deeply represents semantic meaning. Standard text embeddings use the vector output of a pretrained language model. In our method, we let a language model learn from the text and then literally pick its brain, taking the actual weights of the model's neurons to generate a vector. We call this representation of the text a neural embedding. The technique may generalize beyond text and language models, but we first explore its properties for natural language processing. We compare neural embeddings with GPT sentence (SGPT) embeddings on several datasets. We observe that neural embeddings achieve comparable performance with a far smaller model, and the errors are different.

 

우리는 자연어 텍스트를 위한 새로운 종류의 임베딩을 제안한다. 의미론적 의미를 나타냅니다. 표준 텍스트 임베딩은 벡터 출력을 사용합니다. 사전 훈련된 언어 모델 우리의 방법에서, 우리는 언어 모델이 다음을 배우도록 한다. 텍스트와 말 그대로 그것의 뇌를 선택하여 실제 무게를 잰다. 벡터를 생성하기 위한 모델의 뉴런. 우리는 이 텍스트의 표현을 a라고 부른다. 신경 내장 이 기술은 텍스트와 언어 모델을 넘어 일반화될 수 있습니다. 그러나 우리는 먼저 자연어 처리를 위한 그것의 속성을 탐구한다. 우리는 비교한다 여러 데이터 세트에 GPT 문장(SGPT) 임베딩이 있는 신경 임베딩. 우리가 신경 임베딩이 먼 곳과 비슷한 성능을 달성하는지 관찰한다. 더 작은 모델, 그리고 오차는 다릅니다. 

 

 

Adaptive Bi-directional Attention: Exploring Multi-Granularity Representations for Machine Reading Comprehension

 

Recently, the attention-enhanced multi-layer encoder, such as Transformer, has been extensively studied in Machine Reading Comprehension (MRC). To predict the answer, it is common practice to employ a predictor to draw information only from the final encoder layer which generates the \textit{coarse-grained} representations of the source sequences, i.e., passage and question. Previous studies have shown that the representation of source sequence becomes more \textit{coarse-grained} from \textit{fine-grained} as the encoding layer increases. It is generally believed that with the growing number of layers in deep neural networks, the encoding process will gather relevant information for each location increasingly, resulting in more \textit{coarse-grained} representations, which adds the likelihood of similarity to other locations (referring to homogeneity). Such a phenomenon will mislead the model to make wrong judgments so as to degrade the performance. To this end, we propose a novel approach called Adaptive Bidirectional Attention, which adaptively exploits the source representations of different levels to the predictor. Experimental results on the benchmark dataset, SQuAD 2.0 demonstrate the effectiveness of our approach, and the results are better than the previous state-of-the-art model by 2.5$\%$ EM and 2.3$\%$ F1 scores.

 

최근 트랜스포머와 같은 주의력 강화 다층 인코더는 기계 판독 이해(MRC)에서 광범위하게 연구되어 왔다. 예측하기 정답, 정보를 도출하기 위해 예측 변수를 사용하는 것이 일반적인 관행이다. \textit{text-grained}를 생성하는 최종 인코더 계층에서만 해당됩니다. 소스 시퀀스의 표현, 즉 구문과 질문. 이전의 연구는 소스 시퀀스의 표현이 더 많아진다는 것을 보여주었다. \textit{fine-grained}에서 인코딩 계층으로 \textit{fine-grained} 증가한다. 일반적으로 층수가 증가함에 따라 다음과 같이 여겨진다. 심층 신경망, 인코딩 과정은 관련 정보를 수집할 것이다. 각 위치가 점점 더 많아지고, 결과적으로 \textit{text-graintermed-grained} 표현, 다른 위치에 유사성을 추가합니다. (동질성에 영향을 미침). 그러한 현상은 모델이 만들도록 잘못 이끌 것이다. 업적 저하를 초래하는 잘못된 판단 이를 위해, 우리는 적응적 양방향 주의라고 불리는 새로운 접근법 여러 수준의 소스 표현을 예측 변수에 활용합니다. 벤치마크 데이터 세트인 SQuAD 2.0에 대한 실험 결과는 다음을 입증한다. 우리의 접근 방식의 효과, 그리고 결과는 이전보다 더 좋다. 2.5$\%$ EM 및 2에 의한 최첨단 모델.3$\%$ F1 점수. 

 

 

반응형

댓글