본문 바로가기
오늘의 자연어 처리

[2022-10-19] 오늘의 자연어처리

by 지환이아빠 2022. 10. 19.
반응형

KPI-EDGAR: A Novel Dataset and Accompanying Metric for Relation Extraction from Financial Documents

 

We introduce KPI-EDGAR, a novel dataset for Joint Named Entity Recognition and Relation Extraction building on financial reports uploaded to the Electronic Data Gathering, Analysis, and Retrieval (EDGAR) system, where the main objective is to extract Key Performance Indicators (KPIs) from financial documents and link them to their numerical values and other attributes. We further provide four accompanying baselines for benchmarking potential future research. Additionally, we propose a new way of measuring the success of said extraction process by incorporating a word-level weighting scheme into the conventional F1 score to better model the inherently fuzzy borders of the entity pairs of a relation in this domain.

 

우리는 공동 명명된 엔티티 인식을 위한 새로운 데이터 세트인 KPI-EDGAR를 소개한다. 그리고 재무 보고서에 대한 관계 추출 구축 전자 데이터 수집, 분석 및 검색(EDGAR) 시스템, 여기서 주요 목표는 재무에서 핵심 성과 지표(KPI)를 추출하는 것입니다. 문서와 숫자 값 및 기타 속성에 연결합니다. 우리가 잠재적 미래를 벤치마킹하기 위한 네 가지 부수적인 기준을 추가로 제공합니다. 조사. 또한, 우리는 상기 성공 여부를 측정하는 새로운 방법을 제안한다. 단어 수준 가중치 체계를 통합함으로써 추출 과정 기존의 F1 점수는 본질적으로 모호한 경계를 더 잘 모델링하기 위한 것이다. 이 도메인에 있는 관계의 엔티티 쌍입니다. 

 

 

Pseudo-OOD training for robust language models

 

While pre-trained large-scale deep models have garnered attention as an important topic for many downstream natural language processing (NLP) tasks, such models often make unreliable predictions on out-of-distribution (OOD) inputs. As such, OOD detection is a key component of a reliable machine-learning model for any industry-scale application. Common approaches often assume access to additional OOD samples during the training stage, however, outlier distribution is often unknown in advance. Instead, we propose a post hoc framework called POORE - POsthoc pseudo-Ood REgularization, that generates pseudo-OOD samples using in-distribution (IND) data. The model is fine-tuned by introducing a new regularization loss that separates the embeddings of IND and OOD data, which leads to significant gains on the OOD prediction task during testing. We extensively evaluate our framework on three real-world dialogue systems, achieving new state-of-the-art in OOD detection.

 

사전 훈련된 대형 딥 모델이 주목받는 가운데 많은 다운스트림 자연어 처리(NLP) 작업에 대한 중요한 주제, 이러한 모형은 종종 OD(Out-of-Distribution)에 대해 신뢰할 수 없는 예측을 합니다. 입력. 이와 같이, OOD 감지는 신뢰할 수 있는 핵심 구성 요소이다. 모든 산업 규모의 응용 프로그램을 위한 기계 학습 모델. 일반적인 접근법 종종 훈련 단계 동안 추가 OOD 샘플에 대한 접근을 가정한다. 그러나 특이치 분포는 종종 미리 알려지지 않습니다. 대신, 우리는 제안한다. FOBER - Posthoc 유사 우드 정규화라고 불리는 사후 프레임워크. 분포 내(IND) 데이터를 사용하여 유사 OOD 표본을 생성합니다. 모델은. 분리하는 새로운 정규화 손실을 도입함으로써 미세 조정된다. IND 및 OOD 데이터의 임베딩으로 OOD에 상당한 이득을 가져옵니다. 테스트하는 동안 예측 작업을 수행합니다. 우리는 세 가지에 대한 우리의 프레임워크를 광범위하게 평가한다. 실제 대화 시스템, OOD 탐지 분야에서 새로운 최첨단 기술을 달성합니다. 

 

 

Joint Multilingual Knowledge Graph Completion and Alignment

 

Knowledge graph (KG) alignment and completion are usually treated as two independent tasks. While recent work has leveraged entity and relation alignments from multiple KGs, such as alignments between multilingual KGs with common entities and relations, a deeper understanding of the ways in which multilingual KG completion (MKGC) can aid the creation of multilingual KG alignments (MKGA) is still limited. Motivated by the observation that structural inconsistencies -- the main challenge for MKGA models -- can be mitigated through KG completion methods, we propose a novel model for jointly completing and aligning knowledge graphs. The proposed model combines two components that jointly accomplish KG completion and alignment. These two components employ relation-aware graph neural networks that we propose to encode multi-hop neighborhood structures into entity and relation representations. Moreover, we also propose (i) a structural inconsistency reduction mechanism to incorporate information from the completion into the alignment component, and (ii) an alignment seed enlargement and triple transferring mechanism to enlarge alignment seeds and transfer triples during KGs alignment. Extensive experiments on a public multilingual benchmark show that our proposed model outperforms existing competitive baselines, obtaining new state-of-the-art results on both MKGC and MKGA tasks.

 

지식 그래프(KG) 정렬 및 완료는 일반적으로 두 가지로 취급됩니다. 자주적인 일 최근의 연구는 실체와 관계를 활용했다. 다국어 KG 간의 정렬과 같은 여러 KG의 정렬 공통의 실체와 관계, 그 방식에 대한 더 깊은 이해 다국어 KG 완료(MKGC)는 다국어 KG를 만드는 데 도움이 될 수 있습니다. 선형(MKGA)은 여전히 제한됩니다. 라는 관찰에 의해 동기부여가 되었다. MKGA 모델의 주요 과제인 구조적 불일치는 다음과 같을 수 있다. KG 완료 방법을 통해 완화되었으며, 우리는 공동으로 새로운 모델을 제안한다. 지식 그래프를 완성하고 정렬합니다. 제안된 모델은 두 가지를 결합한다. KG 완료 및 정렬을 공동으로 수행하는 구성 요소. 이 둘 구성 요소는 우리가 제안하는 관계 인식 그래프 신경망을 사용한다. 멀티홉 이웃 구조를 엔티티 및 관계로 인코딩한다. 표현 더욱이, 우리는 또한 (i) 구조적 불일치를 제안한다. 완성의 정보를 통합하기 위한 환원 메커니즘 정렬 구성 요소, 그리고 (ii) 정렬 시드 확대 및 삼중 정렬 시드 확대 및 3중 이동 메커니즘 KGs 정렬. 공개 다국어 벤치마크 쇼에 대한 광범위한 실험 제안된 모델이 기존 경쟁 기준보다 성능이 뛰어나다는 것을 알 수 있습니다. MKGC 및 MKGA 작업 모두에 대한 새로운 최첨단 결과. 

 

 

반응형

댓글