본문 바로가기
오늘의 자연어 처리

[2023-07-09] 오늘의 자연어처리

by 지환이아빠 2023. 7. 9.
반응형

Generative Zero-Shot Prompt Learning for Cross-Domain Slot Filling with Inverse Prompting

 

Zero-shot cross-domain slot filling aims to transfer knowledge from the labeled source domain to the unlabeled target domain. Existing models either encode slot descriptions and examples or design handcrafted question templates using heuristic rules, suffering from poor generalization capability or robustness. In this paper, we propose a generative zero-shot prompt learning framework for cross-domain slot filling, both improving generalization and robustness than previous work. Besides, we introduce a novel inverse prompting strategy to distinguish different slot types to avoid the multiple prediction problem, and an efficient prompt-tuning strategy to boost higher performance by only training fewer prompt parameters. Experiments and analysis demonstrate the effectiveness of our proposed framework, especially huge improvements (+13.44% F1) on the unseen slots.

 

제로샷 교차 도메인 슬롯 채우기는 지식을 전달하는 것을 목표로 한다 레이블이 지정된 소스 도메인에서 레이블이 지정되지 않은 대상 도메인으로 이동합니다. 기존 모델 중 하나 슬롯 설명 및 예제 인코딩 또는 수작업 질문 템플릿 설계 휴리스틱 규칙을 사용하여, 열악한 일반화 기능으로 고통받거나 견실함. 본 논문에서, 우리는 생성적 제로샷 즉각적인 학습을 제안한다 교차 도메인 슬롯 채우기를 위한 프레임워크로, 일반화 및 전작보다 견실함. 게다가, 우리는 새로운 반전 프롬프트를 소개한다 다중 예측을 피하기 위해 서로 다른 슬롯 유형을 구별하는 전략 문제 및 효율적인 프롬프트 조정 전략을 통해 성능을 향상시킬 수 있습니다 더 적은 프롬프트 매개 변수만 교육합니다. 실험과 분석은 다음을 입증한다 제안된 프레임워크의 효과, 특히 큰 개선(+13.44%) F1)이 보이지 않는 슬롯에 있습니다. 

 

 

LEA: Improving Sentence Similarity Robustness to Typos Using Lexical Attention Bias

 

Textual noise, such as typos or abbreviations, is a well-known issue that penalizes vanilla Transformers for most downstream tasks. We show that this is also the case for sentence similarity, a fundamental task in multiple domains, e.g. matching, retrieval or paraphrasing. Sentence similarity can be approached using cross-encoders, where the two sentences are concatenated in the input allowing the model to exploit the inter-relations between them. Previous works addressing the noise issue mainly rely on data augmentation strategies, showing improved robustness when dealing with corrupted samples that are similar to the ones used for training. However, all these methods still suffer from the token distribution shift induced by typos. In this work, we propose to tackle textual noise by equipping cross-encoders with a novel LExical-aware Attention module (LEA) that incorporates lexical similarities between words in both sentences. By using raw text similarities, our approach avoids the tokenization shift problem obtaining improved robustness. We demonstrate that the attention bias introduced by LEA helps cross-encoders to tackle complex scenarios with textual noise, specially in domains with short-text descriptions and limited context. Experiments using three popular Transformer encoders in five e-commerce datasets for product matching show that LEA consistently boosts performance under the presence of noise, while remaining competitive on the original (clean) splits. We also evaluate our approach in two datasets for textual entailment and paraphrasing showing that LEA is robust to typos in domains with longer sentences and more natural context. Additionally, we thoroughly analyze several design choices in our approach, providing insights about the impact of the decisions made and fostering future research in cross-encoders dealing with typos.

 

오타나 약어와 같은 텍스트 노이즈는 다음과 같은 잘 알려진 문제이다 는 대부분의 다운스트림 작업에 대해 바닐라 트랜스포머에 불이익을 줍니다. 우리는 이것이 또한 여러 도메인에서 기본 작업인 문장 유사성의 경우, 예: 일치, 검색 또는 바꿔치기. 문장 유사성에 접근할 수 있다 두 문장이 입력에서 연결된 교차 인코더를 사용합니다 모델이 그들 사이의 상호 관계를 이용할 수 있도록 허용합니다. 전작 소음 문제를 다루는 것은 주로 데이터 확대 전략에 의존한다 다음과 유사한 손상된 샘플을 처리할 때 향상된 견고성 수련에 쓰이는 것들. 그러나 이 모든 방법은 여전히 토큰으로 인해 어려움을 겪고 있다 오타에 의해 유도된 분배. 이 작업에서, 우리는 텍스트를 다룰 것을 제안한다 교차 인코더에 새로운 어휘 인식 주의 모듈을 장착하여 노이즈 발생 (LEA)는 두 문장에서 단어 사이의 어휘적 유사성을 통합한다. 원시 텍스트 유사성을 사용하여 우리의 접근 방식은 토큰화 전환을 방지한다 향상된 견고성을 얻는 문제. 우리는 주의력 편향이 LEA에 의해 도입된 교차 인코더는 텍스트로 복잡한 시나리오를 해결하는 데 도움이 된다 노이즈, 특히 짧은 텍스트 설명과 제한된 컨텍스트를 가진 도메인에서. 5개의 전자 상거래에서 인기 있는 3개의 트랜스포머 인코더를 사용한 실험 제품 매칭을 위한 데이터 세트는 LEA가 지속적으로 성능을 향상시킨다는 것을 보여줍니다 원본에 대해 경쟁력을 유지하면서 소음이 있는 상태에서 갈라지다. 우리는 또한 텍스트에 대한 두 개의 데이터 세트에서 우리의 접근 방식을 평가한다 LEA가 도메인의 오타에 강하다는 것을 보여주는 수반과 패러프레이징 더 긴 문장과 더 자연스러운 맥락. 또한, 우리는 철저하게 분석한다 영향에 대한 통찰력을 제공하는 우리 접근 방식의 몇 가지 설계 선택 결정을 내리고 처리하는 교차 인코더의 미래 연구를 육성한다 오타. 

 

 

Efficient Domain Adaptation of Sentence Embeddings using Adapters

 

Sentence embeddings enable us to capture the semantic similarity of short texts. Most sentence embedding models are trained for general semantic textual similarity (STS) tasks. Therefore, to use sentence embeddings in a particular domain, the model must be adapted to it in order to achieve good results. Usually, this is done by fine-tuning the entire sentence embedding model for the domain of interest. While this approach yields state-of-the-art results, all of the model's weights are updated during fine-tuning, making this method resource-intensive. Therefore, instead of fine-tuning entire sentence embedding models for each target domain individually, we propose to train lightweight adapters. These domain-specific adapters do not require fine-tuning all underlying sentence embedding model parameters. Instead, we only train a small number of additional parameters while keeping the weights of the underlying sentence embedding model fixed. Training domain-specific adapters allows always using the same base model and only exchanging the domain-specific adapters to adapt sentence embeddings to a specific domain. We show that using adapters for parameter-efficient domain adaptation of sentence embeddings yields competitive performance within 1% of a domain-adapted, entirely fine-tuned sentence embedding model while only training approximately 3.6% of the parameters.

 

문장 임베딩은 우리가 짧은 것의 의미론적 유사성을 포착할 수 있게 해준다 텍스트. 대부분의 문장 임베딩 모델은 일반적인 의미 텍스트를 위해 훈련된다 유사성(STS) 태스크. 그러므로, 특정한 문장의 임베딩을 사용하기 위해서 도메인, 좋은 결과를 얻기 위해서는 모델이 그것에 적응해야 한다. 일반적으로, 이것은 전체 문장 임베딩 모델을 미세 조정함으로써 수행된다 관심 영역. 이 접근법이 최첨단 결과를 산출하는 동안, 미세 조정 중에 모델의 모든 가중치가 업데이트되어 이 방법을 만듭니다 자원 집약적인. 따라서 전체 문장 임베딩을 미세 조정하는 대신 각 대상 도메인에 대한 모델은 개별적으로, 우리는 경량화를 훈련시킬 것을 제안한다 어댑터. 이러한 도메인별 어댑터는 모두 미세 조정할 필요가 없습니다 기본 문장 임베딩 모델 매개 변수입니다. 대신에, 우리는 작은 것만 훈련시킨다 기본 매개 변수의 가중치를 유지하는 동안 추가 매개 변수의 수 문장 임베딩 모델이 고정되었습니다. 도메인별 어댑터 교육을 통해 항상 사용 가능 동일한 기본 모델을 사용하고 도메인별 어댑터만 에 교환합니다 문장 임베딩을 특정 영역에 적용합니다. 우리는 어댑터를 다음에 사용하는 것을 보여준다 문장 임베딩의 매개 변수 효율적인 도메인 적응은 경쟁력을 산출한다 도메인에 포함된, 완전히 세분화된 문장의 1% 이내의 성능 매개 변수의 약 3.6%만 학습하면서 모델을 포함한다. 

 

 

반응형

댓글