본문 바로가기
오늘의 자연어 처리

[2022-11-10] 오늘의 자연어처리

by 지환이아빠 2022. 11. 10.
반응형

SocioProbe: What, When, and Where Language Models Learn about Sociodemographics

 

Pre-trained language models (PLMs) have outperformed other NLP models on a wide range of tasks. Opting for a more thorough understanding of their capabilities and inner workings, researchers have established the extend to which they capture lower-level knowledge like grammaticality, and mid-level semantic knowledge like factual understanding. However, there is still little understanding of their knowledge of higher-level aspects of language. In particular, despite the importance of sociodemographic aspects in shaping our language, the questions of whether, where, and how PLMs encode these aspects, e.g., gender or age, is still unexplored. We address this research gap by probing the sociodemographic knowledge of different single-GPU PLMs on multiple English data sets via traditional classifier probing and information-theoretic minimum description length probing. Our results show that PLMs do encode these sociodemographics, and that this knowledge is sometimes spread across the layers of some of the tested PLMs. We further conduct a multilingual analysis and investigate the effect of supplementary training to further explore to what extent, where, and with what amount of pre-training data the knowledge is encoded. Our overall results indicate that sociodemographic knowledge is still a major challenge for NLP. PLMs require large amounts of pre-training data to acquire the knowledge and models that excel in general language understanding do not seem to own more knowledge about these aspects.

 

사전 훈련된 언어 모델(PLM)은 다른 NLP 모델보다 성능이 우수합니다. 폭넓은 업무 그들의 더 철저한 이해를 선택하기 역량 및 내부 작업, 연구자들은 까지 확장을 설정했습니다. 문법성, 중간 수준 같은 낮은 수준의 지식을 포착합니다. 사실적 이해와 같은 의미론적 지식. 하지만, 아직 거의 없다. 언어의 더 높은 수준의 측면에 대한 그들의 지식의 이해 인 특히, 사회 인구 통계학적 측면의 중요성에도 불구하고, 우리의 형성에 있어서. 언어, PLM이 이러한 측면을 인코딩하는지 여부, 위치 및 방법에 대한 질문, 예를 들어, 성별이나 나이는 아직 탐구되지 않았다. 우리는 이 연구 격차를 다음과 같이 해결한다. 다중에서 서로 다른 단일 GPU PLM에 대한 사회 인구 통계학적 지식 조사 전통적인 분류기 프로빙 및 정보이론을 통한 영어 데이터 세트 최소 설명 길이 탐색. 우리의 결과는 PLM이 이것들을 인코딩한다는 것을 보여준다. 사회 인구 통계학, 그리고 이 지식은 때때로 전체에 퍼진다. 일부 테스트된 PLM의 레이어. 우리는 다국어 분석을 추가로 수행한다. 그리고 무엇을 더 탐구하기 위한 보충 훈련의 효과를 조사한다. 지식의 범위, 장소, 그리고 얼마나 많은 양의 사전 교육 데이터를 가지고 있는가? 부호화된 우리의 전반적인 결과는 사회 인구학적 지식이 여전히 NLP를 위한 주요 도전. PLM은 많은 양의 사전 훈련 데이터를 필요로 한다. 일반언어이해에 뛰어난 지식과 모델을 습득하다. 이러한 측면에 대해 더 많은 지식을 소유하고 있는 것 같지 않다. 

 

 

Hyperbolic Centroid Calculations for Text Classification

 

A new development in NLP is the construction of hyperbolic word embeddings. As opposed to their Euclidean counterparts, hyperbolic embeddings are represented not by vectors, but by points in hyperbolic space. This makes the most common basic scheme for constructing document representations, namely the averaging of word vectors, meaningless in the hyperbolic setting. We reinterpret the vector mean as the centroid of the points represented by the vectors, and investigate various hyperbolic centroid schemes and their effectiveness at text classification.

 

NLP의 새로운 발전은 쌍곡선 단어 임베딩의 구성이다. 유클리드와 반대로 쌍곡선 임베딩은 다음과 같다. 벡터가 아닌 쌍곡선 공간의 점으로 표현됩니다. 이것이 만든다. 문서 표현을 구성하기 위한 가장 일반적인 기본 계획, 즉 쌍곡선 설정에서 의미가 없는 단어 벡터의 평균입니다. 우리가 벡터 평균을 점들의 중심점으로 재해석한다. 벡터들, 그리고 다양한 쌍곡선 중심 체계와 그것들의 조사. 텍스트 분류의 효과. 

 

 

Active Relation Discovery: Towards General and Label-aware Open Relation Extraction

 

Open Relation Extraction (OpenRE) aims to discover novel relations from open domains. Previous OpenRE methods mainly suffer from two problems: (1) Insufficient capacity to discriminate between known and novel relations. When extending conventional test settings to a more general setting where test data might also come from seen classes, existing approaches have a significant performance decline. (2) Secondary labeling must be performed before practical application. Existing methods cannot label human-readable and meaningful types for novel relations, which is urgently required by the downstream tasks. To address these issues, we propose the Active Relation Discovery (ARD) framework, which utilizes relational outlier detection for discriminating known and novel relations and involves active learning for labeling novel relations. Extensive experiments on three real-world datasets show that ARD significantly outperforms previous state-of-the-art methods on both conventional and our proposed general OpenRE settings. The source code and datasets will be available for reproducibility.

 

개방형 관계 추출(OpenRE)은 개방형으로부터 새로운 관계를 발견하는 것을 목표로 한다. 도메인 이전의 OpenRE 방법은 주로 다음과 같은 두 가지 문제를 겪는다. 알려진 관계와 새로운 관계를 구별할 수 있는 능력이 부족합니다. 언제 기존 테스트 설정을 테스트 데이터가 있는 보다 일반적인 설정으로 확장 또한 보이는 클래스에서 나올 수 있으며, 기존 접근 방식은 중요하다. 성능저하. (2) 2차 라벨링은 반드시 시행되어야 한다. 어플. 기존 방법은 사람이 읽을 수 있고 의미 있는 유형에 라벨을 붙일 수 없다. 다운스트림 작업에 의해 긴급하게 요구되는 새로운 관계를 위해. 로. 이러한 문제를 해결하고, 능동적 관계 탐색(ARD) 프레임워크를 제안한다. 알려진 것과 새로운 것을 구별하기 위해 관계형 특이치 탐지를 활용한다. 새로운 관계에 라벨을 붙이기 위한 적극적인 학습을 포함한다. 광범위한 3개의 실제 데이터 세트에 대한 실험은 ARD가 유의하게 있음을 보여준다. 기존 및 NAT 모두에서 이전의 최첨단 방법을 능가합니다. 제안된 일반 OpenRE 설정. 소스 코드 및 데이터 세트는 재현성에 사용할 수 있습니다. 

 

 

반응형

댓글