오늘의 자연어 처리

[2023-03-25] 오늘의 자연어처리

by 지환이아빠 2023. 3. 25.

Leveraging Foundation Models for Clinical Text Analysis


Infectious diseases are a significant public health concern globally, and extracting relevant information from scientific literature can facilitate the development of effective prevention and treatment strategies. However, the large amount of clinical data available presents a challenge for information extraction. To address this challenge, this study proposes a natural language processing (NLP) framework that uses a pre-trained transformer model fine-tuned on task-specific data to extract key information related to infectious diseases from free-text clinical data. The proposed framework includes three components: a data layer for preparing datasets from clinical texts, a foundation model layer for entity extraction, and an assessment layer for performance analysis. The results of the evaluation indicate that the proposed method outperforms standard methods, and leveraging prior knowledge through the pre-trained transformer model makes it useful for investigating other infectious diseases in the future.


전염병은 전 세계적으로 중요한 공중 보건 관심사이다 과학 문헌으로부터 관련 정보를 추출하는 것은 다음을 촉진할 수 있다 효과적인 예방 및 치료 전략의 개발. 하지만, 그 이용 가능한 많은 양의 임상 데이터는 정보에 대한 도전을 제시한다 추출. 이 문제를 해결하기 위해, 이 연구는 자연어를 제안한다 미세 조정된 사전 훈련된 변압기 모델을 사용하는 처리(NLP) 프레임워크 감염성 질환과 관련된 핵심 정보를 추출하기 위한 업무별 데이터에 대해 자유 텍스트 임상 데이터로부터. 제안된 프레임워크는 세 가지 구성요소를 포함한다: 임상 텍스트에서 데이터 세트를 준비하기 위한 데이터 계층, 기초 모델 엔티티 추출을 위한 계층 및 성능 분석을 위한 평가 계층. 평가 결과는 제안된 방법이 성능을 능가한다는 것을 나타낸다 표준 방법 및 사전 교육을 통한 사전 지식 활용 변압기 모델은 그것을 다른 전염병을 조사하는 데 유용하게 만든다 미래에. 



Fine-tuning ClimateBert transformer with ClimaText for the disclosure analysis of climate-related financial risks


In recent years there has been a growing demand from financial agents, especially from particular and institutional investors, for companies to report on climate-related financial risks. A vast amount of information, in text format, can be expected to be disclosed in the short term by firms in order to identify these types of risks in their financial and non financial reports, particularly in response to the growing regulation that is being passed on the matter. To this end, this paper applies state-of-the-art NLP techniques to achieve the detection of climate change in text corpora. We use transfer learning to fine-tune two transformer models, BERT and ClimateBert -a recently published DistillRoBERTa-based model that has been specifically tailored for climate text classification-. These two algorithms are based on the transformer architecture which enables learning the contextual relationships between words in a text. We carry out the fine-tuning process of both models on the novel Clima-Text database, consisting of data collected from Wikipedia, 10K Files Reports and web-based claims. Our text classification model obtained from the ClimateBert fine-tuning process on ClimaText, outperforms the models created with BERT and the current state-of-the-art transformer in this particular problem. Our study is the first one to implement on the ClimaText database the recently published ClimateBert algorithm. Based on our results, it can be said that ClimateBert fine-tuned on ClimaText is an outstanding tool within the NLP pre-trained transformer models that may and should be used by investors, institutional agents and companies themselves to monitor the disclosure of climate risk in financial reports. In addition, our transfer learning methodology is cheap in computational terms, thus allowing any organization to perform it.


최근 몇 년간 금융 대리점들의 수요가 증가하고 있다, 특히 특정 및 기관 투자자들로부터, 기업들이 보고할 수 있도록 기후와 관련된 재정적 위험에 대해. 텍스트로 된 방대한 양의 정보 형식, 기업들에 의해 단기적으로 공개될 것으로 예상할 수 있다 재무 및 비재무 보고서에서 이러한 유형의 위험을 식별한다, 특히 증가하는 규제에 대응하여 이를 위해, 이 논문은 최첨단 NLP 기술을 적용한다 텍스트 말뭉치에서 기후 변화 감지를 달성합니다. 우리는 환승을 사용한다 최근 BERT와 ClimateBert라는 두 가지 변압기 모델을 미세 조정하는 방법을 배웠습니다 특별히 제작된 TrueRoBERTa 기반 모델을 공개했습니다 기후 텍스트 분류-. 이 두 알고리즘은 변압기를 기반으로 한다 단어들 사이의 문맥적 관계를 학습할 수 있게 해주는 구조 본문에서. 우리는 소설에서 두 모델의 미세 조정 과정을 수행한다 Wikipedia, 10K 파일에서 수집한 데이터로 구성된 Clima-Text 데이터베이스 보고서 및 웹 기반 클레임. 우리의 텍스트 분류 모델은 에서 얻었다 ClimaText에서 ClimaBert 미세 조정 프로세스, 생성된 모델보다 성능이 우수합니다 BERT와 이 특별한 최신 트랜스포머로 문제. 우리의 연구는 ClimaText 데이터베이스에 구현된 첫 번째 연구이다 최근에 발표된 ClimateBert 알고리즘. 우리의 결과에 따르면, 그것은 말할 수 있다 ClimaText에서 미세 조정된 ClimaBert는 NLP 내에서 탁월한 도구입니다 투자자가 사용할 수 있고 사용해야 하는 사전 훈련된 변압기 모델, 공개를 모니터링하기 위한 기관 요원과 회사 자체 재무 보고서의 기후 위험. 게다가, 우리의 전이 학습 방법론은 계산적인 측면에서 저렴하다, 그래서 어떤 조직이든 할 수 있게 한다 그것을 실행하다. 



Revealing Weaknesses of Vietnamese Language Models Through Unanswerable Questions in Machine Reading Comprehension


Although the curse of multilinguality significantly restricts the language abilities of multilingual models in monolingual settings, researchers now still have to rely on multilingual models to develop state-of-the-art systems in Vietnamese Machine Reading Comprehension. This difficulty in researching is because of the limited number of high-quality works in developing Vietnamese language models. In order to encourage more work in this research field, we present a comprehensive analysis of language weaknesses and strengths of current Vietnamese monolingual models using the downstream task of Machine Reading Comprehension. From the analysis results, we suggest new directions for developing Vietnamese language models. Besides this main contribution, we also successfully reveal the existence of artifacts in Vietnamese Machine Reading Comprehension benchmarks and suggest an urgent need for new high-quality benchmarks to track the progress of Vietnamese Machine Reading Comprehension. Moreover, we also introduced a minor but valuable modification to the process of annotating unanswerable questions for Machine Reading Comprehension from previous work. Our proposed modification helps improve the quality of unanswerable questions to a higher level of difficulty for Machine Reading Comprehension systems to solve.


비록 다국어의 저주가 언어를 상당히 제한하지만 단일 언어 환경에서 다국어 모델의 능력, 연구자들은 여전히 최첨단 시스템을 개발하기 위해 다국어 모델에 의존해야 한다 베트남어 기계 독해력. 이 연구의 어려움은 베트남어를 개발하는 고급 작품의 수가 제한되어 있기 때문에 언어 모델. 이 연구 분야에서 더 많은 작업을 장려하기 위해, 우리는 언어의 약점과 강점에 대한 종합적인 분석을 제시하다 기계의 다운스트림 작업을 사용하는 현재 베트남어 단일 언어 모델 독해력. 분석 결과로부터, 우리는 다음과 같은 새로운 방향을 제안한다 베트남어 모델을 개발하고 있습니다. 이 주요 기여 외에도, 우리는 또한 베트남 기계 판독에서 유물의 존재를 성공적으로 밝히다 이해력 벤치마크 및 새로운 고품질에 대한 시급한 필요성 제시 베트남어 기계 독해의 진행 상황을 추적하기 위한 벤치마크. 게다가, 우리는 또한 그 과정에 작지만 가치 있는 수정을 도입했다 기계 판독 이해에 대한 답할 수 없는 질문에 주석 달기 전작. 우리가 제안한 수정은 품질을 향상시키는 데 도움이 된다 기계 독해의 난이도를 높이기 위한 답할 수 없는 질문들 해결해야 할 이해 시스템. 



