본문 바로가기
오늘의 자연어 처리

[2022-12-19] 오늘의 자연어처리

by 지환이아빠 2022. 12. 19.
반응형

Retrieval-based Disentanglement with Distant Supervision

 

Disentangled representation learning remains challenging as ground truth factors of variation do not naturally exist. To address this, we present Vocabulary Disentanglement Retrieval~(VDR), a simple yet effective retrieval-based disentanglement framework that leverages nature language as distant supervision. Our approach is built upon the widely-used bi-encoder architecture with disentanglement heads and is trained on data-text pairs that are readily available on the web or in existing datasets. This makes our approach task- and modality-agnostic with potential for a wide range of downstream applications. We conduct experiments on 16 datasets in both text-to-text and cross-modal scenarios and evaluate VDR in a zero-shot setting. With the incorporation of disentanglement heads and a minor increase in parameters, VDR achieves significant improvements over the base retriever it is built upon, with a 9% higher on NDCG@10 scores in zero-shot text-to-text retrieval and an average of 13% higher recall in cross-modal retrieval. In comparison to other baselines, VDR outperforms them in most tasks, while also improving explainability and efficiency.

 

분리된 표현 학습은 기본 진실로서 여전히 도전적이다. 변동 요인은 자연적으로 존재하지 않습니다. 이 문제를 해결하기 위해, 우리는 발표한다. 단순하면서도 효과적인 VDR(Disangle Retrieve) 어휘 분리 검색 자연 언어를 활용하는 검색 기반 분리 프레임워크 원격 감시 우리의 접근 방식은 널리 사용되는 바이 인코더를 기반으로 한다. 분리 헤드가 있는 아키텍처이며 데이터 텍스트 쌍에 대해 훈련됩니다. 웹 또는 기존 데이터 세트에서 쉽게 사용할 수 있습니다. 이것은 우리를 만든다. 다양한 범위의 잠재력을 가진 작업 및 양식에 구애받지 않고 접근한다. 다운스트림 응용 프로그램 우리는 두 가지 모두에서 16개의 데이터 세트에 대한 실험을 수행한다. 텍스트 대 텍스트 및 교차 모드 시나리오를 사용하고 제로샷 설정에서 VDR을 평가합니다. 분리 헤드의 통합과 약간의 증가로 인해 매개 변수, VDR은 기본 검색기에 비해 상당히 개선되었습니다. 제로샷 텍스트 투 텍스트에서 NDCG@10 점수에서 9% 더 높은 점수를 기반으로 합니다. 검색 및 교차 검색에서 평균 13% 더 높은 회수율을 보입니다. 인 다른 기준선과 비교하여 VDR은 대부분의 작업에서 이 기준선을 능가합니다. 설명 가능성과 효율성을 개선합니다. 

 

 

The effects of gender bias in word embeddings on depression prediction

 

Word embeddings are extensively used in various NLP problems as a state-of-the-art semantic feature vector representation. Despite their success on various tasks and domains, they might exhibit an undesired bias for stereotypical categories due to statistical and societal biases that exist in the dataset they are trained on. In this study, we analyze the gender bias in four different pre-trained word embeddings specifically for the depression category in the mental disorder domain. We use contextual and non-contextual embeddings that are trained on domain-independent as well as clinical domain-specific data. We observe that embeddings carry bias for depression towards different gender groups depending on the type of embeddings. Moreover, we demonstrate that these undesired correlations are transferred to the downstream task for depression phenotype recognition. We find that data augmentation by simply swapping gender words mitigates the bias significantly in the downstream task.

 

단어 임베딩은 다양한 NLP 문제에서 광범위하게 사용된다. 최첨단 의미론적 특징 벡터 표현. 그들의 성공에도 불구하고 다양한 작업과 영역에서, 그들은 원하지 않는 편향을 보일 수 있다. 에 존재하는 통계적, 사회적 편견으로 인한 고정관념적 범주 그들이 훈련받은 데이터 세트. 이 연구에서, 우리는 성 편견을 분석한다. 우울증을 위해 특별히 미리 훈련된 네 가지 단어 임베딩 정신 장애 영역의 범주입니다. 우리는 문맥적이고 비문맥적인 방법을 사용한다. 임상적으로뿐만 아니라 도메인 독립적으로 훈련된 임베딩 도메인별 데이터. 우리는 임베딩이 우울증에 대한 편견을 가지고 있다는 것을 관찰한다. 임베딩 유형에 따라 다른 성별 그룹으로 이동합니다. 게다가. 우리는 이러한 원하지 않는 상관관계가 다음과 같이 전달된다는 것을 증명한다. 우울증 표현형 인식을 위한 다운스트림 작업. 우리는 그 자료를 찾았다. 단순히 성별 단어를 교환함으로써 증가는 편견을 상당히 완화시킨다. 다운스트림 작업에서. 

 

 

Retrieval-based Disentanglement with Distant Supervision

 

Disentangled representation learning remains challenging as ground truth factors of variation do not naturally exist. To address this, we present Vocabulary Disentanglement Retrieval~(VDR), a simple yet effective retrieval-based disentanglement framework that leverages nature language as distant supervision. Our approach is built upon the widely-used bi-encoder architecture with disentanglement heads and is trained on data-text pairs that are readily available on the web or in existing datasets. This makes our approach task- and modality-agnostic with potential for a wide range of downstream applications. We conduct experiments on 16 datasets in both text-to-text and cross-modal scenarios and evaluate VDR in a zero-shot setting. With the incorporation of disentanglement heads and a minor increase in parameters, VDR achieves significant improvements over the base retriever it is built upon, with a 9% higher on NDCG@10 scores in zero-shot text-to-text retrieval and an average of 13% higher recall in cross-modal retrieval. In comparison to other baselines, VDR outperforms them in most tasks, while also improving explainability and efficiency.

 

분리된 표현 학습은 기본 진실로서 여전히 도전적이다. 변동 요인은 자연적으로 존재하지 않습니다. 이 문제를 해결하기 위해, 우리는 발표한다. 단순하면서도 효과적인 VDR(Disangle Retrieve) 어휘 분리 검색 자연 언어를 활용하는 검색 기반 분리 프레임워크 원격 감시 우리의 접근 방식은 널리 사용되는 바이 인코더를 기반으로 한다. 분리 헤드가 있는 아키텍처이며 데이터 텍스트 쌍에 대해 훈련됩니다. 웹 또는 기존 데이터 세트에서 쉽게 사용할 수 있습니다. 이것은 우리를 만든다. 다양한 범위의 잠재력을 가진 작업 및 양식에 구애받지 않고 접근한다. 다운스트림 응용 프로그램 우리는 두 가지 모두에서 16개의 데이터 세트에 대한 실험을 수행한다. 텍스트 대 텍스트 및 교차 모드 시나리오를 사용하고 제로샷 설정에서 VDR을 평가합니다. 분리 헤드의 통합과 약간의 증가로 인해 매개 변수, VDR은 기본 검색기에 비해 상당히 개선되었습니다. 제로샷 텍스트 투 텍스트에서 NDCG@10 점수에서 9% 더 높은 점수를 기반으로 합니다. 검색 및 교차 검색에서 평균 13% 더 높은 회수율을 보입니다. 인 다른 기준선과 비교하여 VDR은 대부분의 작업에서 이 기준선을 능가합니다. 설명 가능성과 효율성을 개선합니다. 

 

 

반응형

댓글