본문 바로가기
오늘의 자연어 처리

[2022-08-18] 오늘의 자연어처리

by 지환이아빠 2022. 8. 18.
반응형

Temporal Concept Drift and Alignment: An empirical approach to comparing Knowledge Organization Systems over time

 

This research explores temporal concept drift and temporal alignment in knowledge organization systems (KOS). A comparative analysis is pursued using the 1910 Library of Congress Subject Headings, 2020 FAST Topical, and automatic indexing. The use case involves a sample of 90 nineteenth-century Encyclopedia Britannica entries. The entries were indexed using two approaches: 1) full-text indexing; 2) Named Entity Recognition was performed upon the entries with Stanza, Stanford's NLP toolkit, and entities were automatically indexed with the Helping Interdisciplinary Vocabulary application (HIVE), using both 1910 LCSH and FAST Topical. The analysis focused on three goals: 1) identifying results that were exclusive to the 1910 LCSH output; 2) identifying terms in the exclusive set that have been deprecated from the contemporary LCSH, demonstrating temporal concept drift; and 3) exploring the historical significance of these deprecated terms. Results confirm that historical vocabularies can be used to generate anachronistic subject headings representing conceptual drift across time in KOS and historical resources. A methodological contribution is made demonstrating how to study changes in KOS over time and improve the contextualization of historical humanities resources.

 

이 연구는 시간적 개념 드리프트와 시간적 정렬을 탐구한다. KOS(Knowledge Organization System)를 참조하십시오. 다음을 사용하여 비교 분석을 추구한다. 1910년 미국 의회 도서관 주제 제목, 2020년 FAST Topic, 그리고 자동. 색인화 사용 사례는 90 19세기 백과사전의 샘플을 포함한다. 브리태니커 표제. 항목은 다음 두 가지 접근 방식을 사용하여 인덱싱되었습니다. 1) 전체 텍스트 인덱싱; 2) 명명된 엔티티 인식이 다음 항목에 대해 수행되었습니다. 스탠자, 스탠퍼드의 NLP 툴킷 및 엔티티는 다음과 같이 자동으로 인덱싱되었습니다. 1910을 모두 사용하는 HIVE(Helping Inter-Sciency Vorderic Application) LCSH 및 FAST Topic. 분석은 다음 세 가지 목표에 초점을 맞췄다: 1) 식별 1910년 LCSH 출력에 배타적이었던 결과; 2) 용어 식별 현대의 LCSH에서 사용되지 않는 배타적 세트, 시간적 개념 드리프트 입증; 그리고 3) 역사적 탐구 이러한 사용되지 않는 용어의 의미. 결과는 역사적 사실을 확인시켜준다. 어휘는 시대착오적인 주제 제목을 생성하는 데 사용될 수 있다. KOS 및 역사적 자원에서 시간 경과에 따른 개념 표류를 나타낸다. a KOS의 변화를 연구하는 방법을 보여주는 방법론적 기여가 이루어진다. 시간이 지남에 따라 역사적 인문학 자원의 문맥화를 개선한다. 

 

 

Entity Anchored ICD Coding

 

Medical coding is a complex task, requiring assignment of a subset of over 72,000 ICD codes to a patient's notes. Modern natural language processing approaches to these tasks have been challenged by the length of the input and size of the output space. We limit our model inputs to a small window around medical entities found in our documents. From those local contexts, we build contextualized representations of both ICD codes and entities, and aggregate over these representations to form document-level predictions. In contrast to existing methods which use a representation fixed either in size or by codes seen in training, we represent ICD codes by encoding the code description with local context. We discuss metrics appropriate to deploying coding systems in practice. We show that our approach is superior to existing methods in both standard and deployable measures, including performance on rare and unseen codes.

 

의료 코딩은 복잡한 작업이며, 이 작업에는 다음과 같은 부분집합이 필요하다. 72,000개의 ICD 코드가 환자 노트에 있습니다. 현대 자연어 처리 이러한 작업에 대한 접근 방식은 입력 길이와 출력 공간의 크기입니다. 모델 입력을 주변의 작은 창으로 제한합니다. 우리 문서에서 발견된 의료 기관들. 이러한 지역적 맥락에서, 우리는 ICD 코드와 엔티티의 상황별 표현 및 집계 문서 수준 예측을 형성하기 위해 이러한 표현을 사용합니다. 와는 대조적으로 크기 또는 코드에 의해 고정된 표현을 사용하는 기존 방법 훈련에서 볼 수 있듯이, 우리는 코드 설명을 로 인코딩함으로써 ICD 코드를 나타낸다. 국소적 맥락 코딩 시스템을 배포하는 데 적합한 메트릭스를 논의합니다. 연습을 하다 우리는 우리의 접근 방식이 두 가지 모두에서 기존 방법보다 우수하다는 것을 보여준다. 희귀하고 보이지 않는 것에 대한 성능을 포함하여 표준적이고 배포 가능한 측정 암호 

 

 

Global-aware Beam Search for Neural Abstractive Summarization

 

This study develops a calibrated beam-based algorithm with awareness of the global attention distribution for neural abstractive summarization, aiming to improve the local optimality problem of the original beam search in a rigorous way. Specifically, a novel global protocol is proposed based on the attention distribution to stipulate how a global optimal hypothesis should attend to the source. A global scoring mechanism is then developed to regulate beam search to generate summaries in a near-global optimal fashion. This novel design enjoys a distinctive property, i.e., the global attention distribution could be predicted before inference, enabling step-wise improvements on the beam search through the global scoring mechanism. Extensive experiments on nine datasets show that the global (attention)-aware inference significantly improves state-of-the-art summarization models even using empirical hyper-parameters. The algorithm is also proven robust as it remains to generate meaningful texts with corrupted attention distributions. The codes and a comprehensive set of examples are available.

 

이 연구는 다음과 같은 인식으로 보정된 빔 기반 알고리즘을 개발한다. 신경 추상 요약에 대한 글로벌 주의 분포, 목표: 원본 빔 검색의 국소 최적성 문제를 엄격하게 개선합니다. 방법. 구체적으로, 주목에 기초하여 새로운 글로벌 프로토콜이 제안된다. 글로벌 최적 가설이 어떻게 적용되어야 하는지를 규정하는 분포 소스. 그런 다음 빔 검색을 조절하기 위해 글로벌 스코어링 메커니즘이 개발되었다. 거의 전역 최적 방식으로 요약을 생성합니다. 이 새로운 디자인은 다음을 즐긴다. 독특한 특성, 즉, 글로벌 주의 분포는 다음과 같을 수 있다. 추론 전에 예측, 빔 검색에 대한 단계적 개선 가능 글로벌 스코어링 메커니즘을 통해. 9개의 데이터 세트에 대한 광범위한 실험 글로벌(주의) 인식 추론이 크게 개선된다는 것을 보여준다. 경험적 초 매개 변수를 사용하는 최첨단 요약 모델. 알고리듬은 또한 의미 있는 텍스트를 생성하기 위해 남아 있기 때문에 강력하다는 것이 입증되었다. 주의력 분산이 손상되었습니다. 코드와 포괄적인 집합은 예를 사용할 수 있습니다. 

 

 

반응형

댓글