본문 바로가기
오늘의 자연어 처리

[2023-06-01] 오늘의 자연어처리

by 지환이아빠 2023. 6. 1.
반응형

Mitigating Label Biases for In-context Learning

 

Various design settings for in-context learning (ICL), such as the choice and order of the in-context examples, can bias the model's predictions. While many studies discuss these design choices, there have been few systematic investigations into categorizing them and mitigating their impact. In this work, we define a typology for three types of label biases in ICL for text classification: vanilla-label bias, context-label bias, and domain-label bias (which we conceptualize and detect for the first time). Our analysis demonstrates that prior label bias calibration methods fall short of addressing all three types of biases. Specifically, domain-label bias restricts LLMs to random-level performance on many tasks regardless of the choice of in-context examples. To mitigate the effect of these biases, we propose a simple bias calibration method that estimates a language model's label bias using random in-domain words from the task corpus. After controlling for this estimated bias when making predictions, our novel domain-context calibration significantly improves the ICL performance of GPT-J and GPT-3 on a wide range of tasks. The gain is substantial on tasks with large domain-label bias (up to 37% in Macro-F1). Furthermore, our results generalize to models with different scales, pretraining methods, and manually-designed task instructions, showing the prevalence of label biases in ICL.

 

선택과 같은 ICL(In-Context Learning)을 위한 다양한 설계 설정 모형 내 예제의 순서는 모형의 예측을 편향시킬 수 있습니다. 많은 동안에 연구는 이러한 설계 선택에 대해 논의하고, 체계적인 것은 거의 없었다 그들을 분류하고 그들의 영향을 완화하기 위한 조사. 이 점에서. 작업, 우리는 텍스트에 대한 ICL에서 세 가지 유형의 레이블 편향에 대한 유형을 정의한다 분류: 바닐라 레이블 편향, 컨텍스트 레이블 편향, 도메인 레이블 편향 (우리가 처음으로 개념화하고 감지하는 것). 우리의 분석 이전의 라벨 바이어스 보정 방법이 주소 지정에 미치지 못함을 보여줍니다 세 가지 유형의 편견. 특히, 도메인 레이블 편향은 LLM을 다음과 같이 제한한다 다양한 작업에 대한 랜덤 수준의 성능 제공(내부 작업 선택에 관계 없음) 예. 이러한 편향의 영향을 완화하기 위해, 우리는 간단한 편향을 제안한다 랜덤을 사용하여 언어 모델의 레이블 편향을 추정하는 보정 방법 작업 코퍼스의 도메인 내 단어. 이 추정된 편향에 대해 제어한 후 예측을 할 때, 우리의 새로운 도메인-스캐너 교정은 상당히 다양한 작업에서 GPT-J 및 GPT-3의 ICL 성능을 향상시킵니다. 그 도메인 레이블 편향이 큰 작업에서 이득이 크다(최대 37%) 매크로-F1). 게다가, 우리의 결과는 다른 규모의 모델로 일반화된다, 사전 교육 방법 및 수동으로 설계된 작업 지침을 보여줍니다 ICL에서 라벨 편향의 유병률. 

 

 

Translation-Enhanced Multilingual Text-to-Image Generation

 

Research on text-to-image generation (TTI) still predominantly focuses on the English language due to the lack of annotated image-caption data in other languages; in the long run, this might widen inequitable access to TTI technology. In this work, we thus investigate multilingual TTI (termed mTTI) and the current potential of neural machine translation (NMT) to bootstrap mTTI systems. We provide two key contributions. 1) Relying on a multilingual multi-modal encoder, we provide a systematic empirical study of standard methods used in cross-lingual NLP when applied to mTTI: Translate Train, Translate Test, and Zero-Shot Transfer. 2) We propose Ensemble Adapter (EnsAd), a novel parameter-efficient approach that learns to weigh and consolidate the multilingual text knowledge within the mTTI framework, mitigating the language gap and thus improving mTTI performance. Our evaluations on standard mTTI datasets COCO-CN, Multi30K Task2, and LAION-5B demonstrate the potential of translation-enhanced mTTI systems and also validate the benefits of the proposed EnsAd which derives consistent gains across all datasets. Further investigations on model variants, ablation studies, and qualitative analyses provide additional insights on the inner workings of the proposed mTTI approaches.

 

텍스트-이미지 생성(TTI)에 대한 연구는 여전히 주로 다음에 초점을 맞추고 있다 주석이 달린 다른 이미지 캡션 데이터가 부족하여 영어 언어; 장기적으로, 이것은 TTI에 대한 불평등한 접근을 넓힐 수 있다 기술. 이 연구에서, 우리는 따라서 다국어 TTI(mTTI라고 함)를 조사한다 그리고 mTTI를 부트스트랩하기 위한 신경 기계 번역(NMT)의 현재 잠재력 시스템들. 우리는 두 가지 주요 기여를 제공한다. 1) 다국어에 의존하기 다중 프로토콜 인코더, 우리는 표준에 대한 체계적인 경험적 연구를 제공한다 mTTI에 적용할 때 교차 언어 NLP에 사용되는 방법: 열차 번역, 테스트 번역 및 제로샷 전송. 2) 앙상블 어댑터(EnsAd)를 제안합니다, 무게를 측정하고 통합하는 방법을 배우는 새로운 매개 변수 효율적인 접근법 mTTI 프레임워크 내의 다국어 텍스트 지식, 언어 완화 갭으로 인해 mTTI 성능이 향상됩니다. 표준 mTTI에 대한 평가 데이터 세트 COCO-CN, Multi30K Task2 및 LAION-5B는 다음과 같은 잠재력을 보여줍니다 번역 기능이 향상된 mTTI 시스템 및 시스템의 이점을 검증합니다 모든 데이터 세트에서 일관된 이득을 도출하는 제안된 EnsAd. 더 모델 변형, 절제 연구 및 정성 분석에 대한 조사 제안된 mTTI의 내부 작동에 대한 추가 통찰력을 제공한다 접근합니다. 

 

 

Document-Level Multi-Event Extraction with Event Proxy Nodes and Hausdorff Distance Minimization

 

Document-level multi-event extraction aims to extract the structural information from a given document automatically. Most recent approaches usually involve two steps: (1) modeling entity interactions; (2) decoding entity interactions into events. However, such approaches ignore a global view of inter-dependency of multiple events. Moreover, an event is decoded by iteratively merging its related entities as arguments, which might suffer from error propagation and is computationally inefficient. In this paper, we propose an alternative approach for document-level multi-event extraction with event proxy nodes and Hausdorff distance minimization. The event proxy nodes, representing pseudo-events, are able to build connections with other event proxy nodes, essentially capturing global information. The Hausdorff distance makes it possible to compare the similarity between the set of predicted events and the set of ground-truth events. By directly minimizing Hausdorff distance, the model is trained towards the global optimum directly, which improves performance and reduces training time. Experimental results show that our model outperforms previous state-of-the-art method in F1-score on two datasets with only a fraction of training time.

 

문서 수준의 다중 이벤트 추출은 구조를 추출하는 것을 목표로 한다 지정된 문서의 정보를 자동으로 입력합니다. 일반적으로 가장 최근의 접근 방식 (1) 엔티티 상호작용 모델링, (2) 엔티티 디코딩의 두 단계를 포함한다 이벤트에 대한 상호 작용. 그러나, 그러한 접근법은 세계적인 관점을 무시한다 여러 사건의 상호 의존성. 게다가, 사건은 다음과 같이 디코딩된다 반복적으로 관련 엔티티를 인수로 병합할 수 있으며, 이로 인해 어려움을 겪을 수 있다 오류 전파이며 계산적으로 비효율적입니다. 이 논문에서, 우리는 제안한다 이벤트를 포함한 문서 수준의 다중 이벤트 추출을 위한 대안적 접근법 프록시 노드 및 하우스도르프 거리 최소화. 이벤트 프록시 노드, 유사 이벤트를 대표하여, 다른 이벤트와 연결을 구축할 수 있습니다 프록시 노드, 기본적으로 글로벌 정보를 캡처합니다. 하우스도르프 거리 예측 이벤트 집합 간의 유사성을 비교할 수 있습니다 그리고 일련의 사건들의 현장. 하우스도르프 거리를 직접적으로 최소화함으로써, 모델은 전역 최적을 향해 직접 훈련되며, 이는 개선된다 교육 시간을 단축할 수 있습니다. 실험 결과는 우리의 모델이 두 개의 데이터 세트에서 F1 점수에서 이전의 최첨단 방법을 능가한다 훈련 시간의 극히 일부에 불과합니다. 

 

 

반응형

댓글