본문 바로가기
오늘의 자연어 처리

[2022-12-07] 오늘의 자연어처리

by 지환이아빠 2022. 12. 7.
반응형

Retrieval as Attention: End-to-end Learning of Retrieval and Reading within a Single Transformer

 

Systems for knowledge-intensive tasks such as open-domain question answering (QA) usually consist of two stages: efficient retrieval of relevant documents from a large corpus and detailed reading of the selected documents to generate answers. Retrievers and readers are usually modeled separately, which necessitates a cumbersome implementation and is hard to train and adapt in an end-to-end fashion. In this paper, we revisit this design and eschew the separate architecture and training in favor of a single Transformer that performs Retrieval as Attention (ReAtt), and end-to-end training solely based on supervision from the end QA task. We demonstrate for the first time that a single model trained end-to-end can achieve both competitive retrieval and QA performance, matching or slightly outperforming state-of-the-art separately trained retrievers and readers. Moreover, end-to-end adaptation significantly boosts its performance on out-of-domain datasets in both supervised and unsupervised settings, making our model a simple and adaptable solution for knowledge-intensive tasks. Code and models are available at this https URL.

 

개방형 도메인 질문 답변과 같은 지식 집약적인 작업을 위한 시스템 (QA)는 일반적으로 관련 문서의 효율적인 검색이라는 두 단계로 구성됩니다. 생성하기 위해 선택된 문서의 큰 말뭉치와 상세한 읽기로부터. 답들. 검색기와 판독기는 일반적으로 별도로 모델링됩니다. 번거로운 구현을 필요로 하며 훈련하고 적응하기 어렵다. 유행에 뒤떨어지지 않는 패션 본 논문에서, 우리는 이 설계를 재검토하고 다음을 회피한다. 단일 트랜스포머를 위해 아키텍처와 교육을 분리합니다. Retrieve as Attention(ReAtt) 및 엔드 투 엔드 교육을 단독으로 수행합니다. 최종 QA 태스크의 감독을 받습니다. 우리는 처음으로 그것을 증명한다. 전체적으로 훈련된 단일 모델을 통해 경쟁력 있는 검색 및 QA를 모두 달성할 수 있음 개별적으로 최첨단 기술과 일치하거나 약간 능가하는 성능 훈련된 검색기와 판독기. 또한, 엔드 투 엔드 적응도가 매우 높습니다. 감독된 데이터셋과 도메인 외부 데이터셋 모두에서 성능을 향상시킵니다. 감독되지 않은 설정, 우리의 모델을 단순하고 적응 가능한 솔루션으로 만든다. 지식 집약적인 작업 코드 및 모델은 다음에서 사용할 수 있습니다. 이 https URL. 

 

 

Addressing Distribution Shift at Test Time in Pre-trained Language Models

 

State-of-the-art pre-trained language models (PLMs) outperform other models when applied to the majority of language processing tasks. However, PLMs have been found to degrade in performance under distribution shift, a phenomenon that occurs when data at test-time does not come from the same distribution as the source training set. Equally as challenging is the task of obtaining labels in real-time due to issues like long-labeling feedback loops. The lack of adequate methods that address the aforementioned challenges constitutes the need for approaches that continuously adapt the PLM to a distinct distribution. Unsupervised domain adaptation adapts a source model to an unseen as well as unlabeled target domain. While some techniques such as data augmentation can adapt models in several scenarios, they have only been sparsely studied for addressing the distribution shift problem. In this work, we present an approach (MEMO-CL) that improves the performance of PLMs at test-time under distribution shift. Our approach takes advantage of the latest unsupervised techniques in data augmentation and adaptation to minimize the entropy of the PLM's output distribution. MEMO-CL operates on a batch of augmented samples from a single observation in the test set. The technique introduced is unsupervised, domain-agnostic, easy to implement, and requires no additional data. Our experiments result in a 3% improvement over current test-time adaptation baselines.

 

최첨단 사전 훈련 언어 모델(PLM)은 다른 모델을 능가한다. 대부분의 언어 처리 작업에 적용될 때. 그러나 PLM은 분포 이동 하에서 성능이 저하되는 것으로 확인된 현상. 테스트 시간의 데이터가 다음과 같은 분포를 따르지 않을 때 발생합니다. 소스 트레이닝 세트 마찬가지로 라벨을 얻는 것도 어려운 일이다. 장기적인 피드백 루프와 같은 문제로 인해 실시간으로 사용할 수 있습니다. 의 부족함 앞서 언급한 문제를 해결하는 적절한 방법은 다음을 구성한다. PLM을 구별된 분포에 지속적으로 적응시키는 접근법의 필요성. 감독되지 않은 도메인 적응은 소스 모델을 보이지 않는 것뿐만 아니라 레이블이 없는 대상 도메인입니다. 데이터 확대와 같은 일부 기술은 다음과 같이 할 수 있다. 몇 가지 시나리오에서 모델을 적용합니다. 그들은 단지 드물게 연구되었습니다. 분포 이동 문제를 해결합니다. 이 작업에서, 우리는 접근법을 제시한다. (MEMO-CL) 배포 중 시험 시 PLM의 성능을 향상시킵니다. 우리의 접근법은 최신의 비지도 기술을 이용한다. PLM 출력의 엔트로피를 최소화하기 위한 데이터 확대 및 적응 분배. MEMO-CL은 단일의 증강된 샘플 배치에서 작동합니다. 검사 세트의 관측치입니다. 도입된 기술은 감독되지 않았습니다 도메인에 구애받지 않고 구현이 간편하며 추가 데이터가 필요하지 않습니다. 우리들의 실험 결과 현재 테스트 시간 적응보다 3% 향상됨 기선 

 

 

Addressing Distribution Shift at Test Time in Pre-trained Language Models

 

State-of-the-art pre-trained language models (PLMs) outperform other models when applied to the majority of language processing tasks. However, PLMs have been found to degrade in performance under distribution shift, a phenomenon that occurs when data at test-time does not come from the same distribution as the source training set. Equally as challenging is the task of obtaining labels in real-time due to issues like long-labeling feedback loops. The lack of adequate methods that address the aforementioned challenges constitutes the need for approaches that continuously adapt the PLM to a distinct distribution. Unsupervised domain adaptation adapts a source model to an unseen as well as unlabeled target domain. While some techniques such as data augmentation can adapt models in several scenarios, they have only been sparsely studied for addressing the distribution shift problem. In this work, we present an approach (MEMO-CL) that improves the performance of PLMs at test-time under distribution shift. Our approach takes advantage of the latest unsupervised techniques in data augmentation and adaptation to minimize the entropy of the PLM's output distribution. MEMO-CL operates on a batch of augmented samples from a single observation in the test set. The technique introduced is unsupervised, domain-agnostic, easy to implement, and requires no additional data. Our experiments result in a 3% improvement over current test-time adaptation baselines.

 

최첨단 사전 훈련 언어 모델(PLM)은 다른 모델을 능가한다. 대부분의 언어 처리 작업에 적용될 때. 그러나 PLM은 분포 이동 하에서 성능이 저하되는 것으로 확인된 현상. 테스트 시간의 데이터가 다음과 같은 분포를 따르지 않을 때 발생합니다. 소스 트레이닝 세트 마찬가지로 라벨을 얻는 것도 어려운 일이다. 장기적인 피드백 루프와 같은 문제로 인해 실시간으로 사용할 수 있습니다. 의 부족함 앞서 언급한 문제를 해결하는 적절한 방법은 다음을 구성한다. PLM을 구별된 분포에 지속적으로 적응시키는 접근법의 필요성. 감독되지 않은 도메인 적응은 소스 모델을 보이지 않는 것뿐만 아니라 레이블이 없는 대상 도메인입니다. 데이터 확대와 같은 일부 기술은 다음과 같이 할 수 있다. 몇 가지 시나리오에서 모델을 적용합니다. 그들은 단지 드물게 연구되었습니다. 분포 이동 문제를 해결합니다. 이 작업에서, 우리는 접근법을 제시한다. (MEMO-CL) 배포 중 시험 시 PLM의 성능을 향상시킵니다. 우리의 접근법은 최신의 비지도 기술을 이용한다. PLM 출력의 엔트로피를 최소화하기 위한 데이터 확대 및 적응 분배. MEMO-CL은 단일의 증강된 샘플 배치에서 작동합니다. 검사 세트의 관측치입니다. 도입된 기술은 감독되지 않았습니다 도메인에 구애받지 않고 구현이 간편하며 추가 데이터가 필요하지 않습니다. 우리들의 실험 결과 현재 테스트 시간 적응보다 3% 향상됨 기선 

 

 

반응형

댓글