본문 바로가기
오늘의 자연어 처리

[2022-08-21] 오늘의 자연어처리

by 지환이아빠 2022. 8. 21.
반응형

Learning Transductions to Test Systematic Compositionality

 

Recombining known primitive concepts into larger novel combinations is a quintessentially human cognitive capability. Whether large neural models in NLP acquire this ability while learning from data is an open question. In this paper, we look at this problem from the perspective of formal languages. We use deterministic finite-state transducers to make an unbounded number of datasets with controllable properties governing compositionality. By randomly sampling over many transducers, we explore which of their properties (number of states, alphabet size, number of transitions etc.) contribute to learnability of a compositional relation by a neural network. In general, we find that the models either learn the relations completely or not at all. The key is transition coverage, setting a soft learnability limit at 400 examples per transition.

 

알려진 원시 개념을 더 큰 새로운 조합으로 재결합하는 것은 전형적으로 인간의 인지 능력. NLP의 대형 신경 모델이 있는지 여부 데이터에서 배우는 동안 이 능력을 습득하는 것은 미해결 문제이다. 이 점에서. 논문, 우리는 형식 언어의 관점에서 이 문제를 본다. 우리는 사용한다 무한한 수의 데이터 세트를 만들기 위한 결정론적 유한 상태 변환기 구성성을 제어하는 제어 가능한 특성을 가지고 있습니다. 랜덤 표본 추출에 의한 많은 변환기에 걸쳐서, 우리는 어떤 특성(상태의 수, 알파벳 크기, 전환 횟수 등)의 학습 능력에 기여한다. 신경망에 의한 구성 관계 일반적으로, 우리는 모델들이 관계를 완전히 배우거나 아예 배우지 않거나 둘 중 하나입니다. 핵심은 전환이다. 적용 범위, 전환당 400개의 예제로 소프트 학습 가능성 제한 설정. 

 

 

Understanding Interpersonal Conflict Types and their Impact on Perception Classification

 

Studies on interpersonal conflict have a long history and contain many suggestions for conflict typology. We use this as the basis of a novel annotation scheme and release a new dataset of situations and conflict aspect annotations. We then build a classifier to predict whether someone will perceive the actions of one individual as right or wrong in a given situation, outperforming previous work on this task. Our analyses include conflict aspects, but also generated clusters, which are human validated, and show differences in conflict content based on the relationship of participants to the author. Our findings have important implications for understanding conflict and social norms.

 

대인관계 갈등에 대한 연구는 오랜 역사를 가지고 있고 많은 것을 포함하고 있다. 충돌 유형학에 대한 제안 우리는 이것을 소설의 기초로 사용한다. 상황 및 충돌 측면의 새로운 데이터 세트 구성 및 릴리스 주석 그런 다음 우리는 누군가가 할 것인지 아닌지를 예측하기 위해 분류기를 만든다. 주어진 상황에서 한 개인의 행동을 옳고 그름으로 인식한다. 이 작업에 대한 이전 작업을 능가합니다. 우리의 분석은 갈등을 포함한다. 측면뿐만 아니라 생성된 클러스터, 즉 사람이 검증하고 다음을 보여줍니다. 에 대한 참가자의 관계에 기초한 갈등 내용의 차이 저자 우리의 발견은 갈등을 이해하는 데 중요한 영향을 미친다. 그리고 사회 규범. 

 

 

A Two-Phase Paradigm for Joint Entity-Relation Extraction

 

An exhaustive study has been conducted to investigate span-based models for the joint entity and relation extraction task. However, these models sample a large number of negative entities and negative relations during the model training, which are essential but result in grossly imbalanced data distributions and in turn cause suboptimal model performance. In order to address the above issues, we propose a two-phase paradigm for the span-based joint entity and relation extraction, which involves classifying the entities and relations in the first phase, and predicting the types of these entities and relations in the second phase. The two-phase paradigm enables our model to significantly reduce the data distribution gap, including the gap between negative entities and other entities, as well as the gap between negative relations and other relations. In addition, we make the first attempt at combining entity type and entity distance as global features, which has proven effective, especially for the relation extraction. Experimental results on several datasets demonstrate that the spanbased joint extraction model augmented with the two-phase paradigm and the global features consistently outperforms previous state-of-the-art span-based models for the joint extraction task, establishing a new standard benchmark. Qualitative and quantitative analyses further validate the effectiveness the proposed paradigm and the global features.

 

다음을 위한 스팬 기반 모델을 조사하기 위한 철저한 연구가 수행되었습니다. 공동 실체 및 관계 추출 작업. 그러나 이 모델들은 표본 a. 모형 동안 많은 수의 음의 도면요소 및 음의 관계 필수적이지만 심각하게 불균형한 데이터를 초래하는 교육 분포는 차선의 모델 성능을 유발합니다. 위하여 위의 문제를 해결하고, 우리는 스팬 기반의 2단계 패러다임을 제안한다. 공동 실체 및 관계 추출, 실체 분류 포함 그리고 첫 번째 단계의 관계, 그리고 이러한 실체의 유형을 예측한다. 두 번째 단계의 관계. 2단계 패러다임은 우리의 모델이 데이터 배포 격차를 크게 줄여줍니다. 음의 실체와 다른 실체, 그리고 음의 간극. 관계 및 기타 관계 게다가, 우리는 첫 번째 시도를 한다. 엔티티 유형과 엔티티 거리를 글로벌 기능으로 결합하는 것이 입증되었습니다. 특히 관계 추출에 효과적입니다. 에 대한 실험 결과 여러 데이터 세트는 스팬 기반 관절 추출 모델을 보여준다. 2단계 패러다임과 글로벌 기능으로 일관되게 강화되었습니다. 관절에 대한 이전의 최첨단 스팬 기반 모델을 능가합니다. 추출 작업, 새로운 표준 벤치마크 설정. 질적 및 정량적 분석은 제안된 패러다임의 효과를 더욱 검증한다. 그리고 글로벌 기능. 

 

 

반응형

댓글