본문 바로가기
오늘의 자연어 처리

[2022-10-03] 오늘의 자연어처리

by 지환이아빠 2022. 10. 3.
반응형

Depth-Wise Attention (DWAtt): A Layer Fusion Method for Data-Efficient Classification

 

Language Models pretrained on large textual data have been shown to encode different types of knowledge simultaneously. Traditionally, only the features from the last layer are used when adapting to new tasks or data. We put forward that, when using or finetuning deep pretrained models, intermediate layer features that may be relevant to the downstream task are buried too deep to be used efficiently in terms of needed samples or steps. To test this, we propose a new layer fusion method: Depth-Wise Attention (DWAtt), to help re-surface signals from non-final layers. We compare DWAtt to a basic concatenation-based layer fusion method (Concat), and compare both to a deeper model baseline -- all kept within a similar parameter budget. Our findings show that DWAtt and Concat are more step- and sample-efficient than the baseline, especially in the few-shot setting. DWAtt outperforms Concat on larger data sizes. On CoNLL-03 NER, layer fusion shows 3.68-9.73% F1 gain at different few-shot sizes. The layer fusion models presented significantly outperform the baseline in various training scenarios with different data sizes, architectures, and training constraints.

 

큰 텍스트 데이터에 대해 사전 훈련된 언어 모델은 인코딩하는 것으로 나타났다. 동시에 다른 종류의 지식. 기존에는 기능만 제공되었습니다. 마지막 레이어의 from은 새로운 작업이나 데이터에 적응할 때 사용된다. 우리는 내세웠다. 사전 훈련된 심층 모델을 사용하거나 미세 조정할 때 중간 계층 다운스트림 작업과 관련이 있을 수 있는 기능들은 너무 깊이 묻혀서 할 수 없다. 필요한 샘플 또는 단계의 측면에서 효율적으로 사용됩니다. 이것을 테스트하기 위해, 우리는 제안한다. 새로운 층 융합 방법: 깊이별 주의(DWtt), 표면 재설정에 도움이 됩니다. 최종 레이어가 아닌 레이어로부터의 신호. 우리는 DWtt를 기본 연결 기반과 비교한다. 레이어 융합 방법(Concat) 및 두 가지 모두를 보다 심층적인 모델 기준선과 비교한다. 모두 유사한 매개 변수 예산 내에서 유지된다. 우리의 조사 결과는 DWtt와 콘캣은 특히 기준보다 더 단계적이고 샘플 효율적이다. 퓨샷 설정 DWatt는 데이터 크기가 클수록 Concat을 능가합니다. CoNLL-03에서 NER, 레이어 융합은 다양한 퓨샷 크기에서 3.68-9.73% F1 이득을 보여준다. 그 제시된 레이어 융합 모델은 다양한 분야에서 기준치를 크게 능가한다. 데이터 크기, 아키텍처 및 교육이 다른 교육 시나리오 제약. 

 

 

PART: Pre-trained Authorship Representation Transformer

 

Authors writing documents imprint identifying information within their texts: vocabulary, registry, punctuation, misspellings, or even emoji usage. Finding these details is very relevant to profile authors, relating back to their gender, occupation, age, and so on. But most importantly, repeating writing patterns can help attributing authorship to a text. Previous works use hand-crafted features or classification tasks to train their authorship models, leading to poor performance on out-of-domain authors. A better approach to this task is to learn stylometric representations, but this by itself is an open research challenge. In this paper, we propose PART: a contrastively trained model fit to learn \textbf{authorship embeddings} instead of semantics. By comparing pairs of documents written by the same author, we are able to determine the proprietary of a text by evaluating the cosine similarity of the evaluated documents, a zero-shot generalization to authorship identification. To this end, a pre-trained Transformer with an LSTM head is trained with the contrastive training method. We train our model on a diverse set of authors, from literature, anonymous blog posters and corporate emails; a heterogeneous set with distinct and identifiable writing styles. The model is evaluated on these datasets, achieving zero-shot 72.39\% and 86.73\% accuracy and top-5 accuracy respectively on the joint evaluation dataset when determining authorship from a set of 250 different authors. We qualitatively assess the representations with different data visualizations on the available datasets, profiling features such as book types, gender, age, or occupation of the author.

 

문서를 작성하는 작성자는 텍스트 내에서 정보를 식별하는 각인을 찍습니다. 단어, 레지스트리, 구두점, 맞춤법 오류 또는 이모티콘 사용. 찾기 이러한 세부 사항은 프로필 작성자와 매우 관련이 있으며, 그들의 것과 관련이 있다. 성별, 직업, 나이 등등. 하지만 가장 중요한 것은 글을 반복하는 것이다. 패턴은 텍스트에 저자를 귀속시키는 것을 도울 수 있다. 이전 작품 사용 작성자 모델을 교육하기 위한 수작업 기능 또는 분류 작업 도메인 외 작성자의 성능이 저하됩니다. 이에 대한 더 나은 접근 방식 과제는 스타일측정학 표현을 배우는 것이지만, 이것 자체는 개방적이다. 연구 과제 본 논문에서, 우리는 PART: 대조적으로 훈련된 것을 제안한다. 의미론 대신 \textbf{authorship medbings}를 학습하는 데 적합한 모델. 타고 같은 저자에 의해 쓰여진 문서들의 쌍을 비교하면서, 우리는 할 수 있다. 코사인 유사성을 평가하여 텍스트의 독점성을 결정한다. 평가된 문서, 저자 식별에 대한 제로샷 일반화. 이를 위해 LSTM 헤드가 있는 사전 훈련된 트랜스포머는 대비 훈련법 우리는 다양한 작가들을 대상으로 모델을 훈련시킨다. 문학, 익명 블로그 포스터 및 기업 이메일; 이질적인 뚜렷하고 식별 가능한 필기 스타일로 설정한다. 모델은 다음과 같이 평가됩니다. 제로샷 72.39\% 및 86.73\% 정확도와 상위 5위 달성 결정 시 공동 평가 데이터 세트에 대한 정확도 250명의 서로 다른 작가들의 저작. 우리는 질적으로 평가한다. 사용 가능한 데이터 세트에서 서로 다른 데이터 시각화를 사용한 표현 책 종류, 성별, 나이 또는 직업과 같은 프로파일링 기능 작가. 

 

 

Zero-Shot Retrieval with Search Agents and Hybrid Environments

 

Learning to search is the task of building artificial agents that learn to autonomously use a search box to find information. So far, it has been shown that current language models can learn symbolic query reformulation policies, in combination with traditional term-based retrieval, but fall short of outperforming neural retrievers. We extend the previous learning to search setup to a hybrid environment, which accepts discrete query refinement operations, after a first-pass retrieval step performed by a dual encoder. Experiments on the BEIR task show that search agents, trained via behavioral cloning, outperform the underlying search system based on a combined dual encoder retriever and cross encoder reranker. Furthermore, we find that simple heuristic Hybrid Retrieval Environments (HRE) can improve baseline performance by several nDCG points. The search agent based on HRE (HARE) produces state-of-the-art performance on both zero-shot and in-domain evaluations. We carry out an extensive qualitative analysis to shed light on the agents policies.

 

검색을 배우는 것은 다음을 배우는 인공 에이전트를 만드는 작업이다. 검색 상자를 사용하여 정보를 자동으로 찾습니다. 지금까지, 그것은 보여졌다. 현재 언어 모델은 상징적인 쿼리 재구성 정책을 배울 수 있다. 전통적인 용어 기반 검색과 결합하여, 그러나에는 미치지 못한다. 신경 검색기보다 성능이 뛰어납니다. 이전 학습을 검색으로 확장합니다. 하이브리드 환경으로 설정, 이산 쿼리 정교함을 수용 듀얼 인코더에 의해 수행되는 첫 번째 패스 검색 단계 후 작업. BIER 작업에 대한 실험은 행동을 통해 훈련된 검색 에이전트가 있음을 보여준다. 복제, 결합된 듀얼을 기반으로 하는 기본 검색 시스템보다 성능이 우수합니다. 인코더 검색기 및 크로스 인코더 리랭커. 게다가, 우리는 그것이 간단하다는 것을 발견한다. 휴리스틱 하이브리드 검색 환경(HRE)을 통해 기본 성능 향상 몇 nDCG 포인트 차이로. HRE(HARE) 기반 검색 에이전트는 다음을 생성합니다. 제로샷 및 도메인 내 평가 모두에서 최첨단 성능을 제공합니다. 우리가 대리인을 밝히기 위해 광범위한 정성적 분석을 하다. 정책들. 

 

 

반응형

댓글