본문 바로가기
오늘의 자연어 처리

[2022-12-04] 오늘의 자연어처리

by 지환이아빠 2022. 12. 4.
반응형

Biomedical NER for the Enterprise with Distillated BERN2 and the Kazu Framework

 

In order to assist the drug discovery/development process, pharmaceutical companies often apply biomedical NER and linking techniques over internal and public corpora. Decades of study of the field of BioNLP has produced a plethora of algorithms, systems and datasets. However, our experience has been that no single open source system meets all the requirements of a modern pharmaceutical company. In this work, we describe these requirements according to our experience of the industry, and present Kazu, a highly extensible, scalable open source framework designed to support BioNLP for the pharmaceutical sector. Kazu is a built around a computationally efficient version of the BERN2 NER model (TinyBERN2), and subsequently wraps several other BioNLP technologies into one coherent system. KAZU framework is open-sourced: this https URL

 

의약품 발견/개발 과정을 지원하기 위해 의약품, 회사들은 종종 바이오메디컬 NER와 내부 그리고 연결 기술을 적용한다. 공공 말뭉치 바이오 NLP 분야에 대한 수십 년간의 연구는 많은 양을 생산했다. 알고리즘, 시스템 및 데이터 세트를 제공합니다. 하지만, 우리의 경험은 아니다. 단일 오픈 소스 시스템은 현대 의약품의 모든 요구 사항을 충족합니다. 회사. 이 작업에서, 우리는 이러한 요구사항을 다음과 같이 설명한다. 업계의 경험과 확장성이 뛰어난 Kazu를 소개합니다. 제약 부문을 위한 BioNLP를 지원하도록 설계된 오픈 소스 프레임워크. Kazu는 BERN2 NER의 계산 효율적인 버전을 기반으로 구축되었습니다. 모델(TinyBERN2), 그리고 그 후에 몇 가지 다른 바이오 NLP 기술을 포장합니다. 하나의 일관된 체계로. KAZU 프레임워크는 오픈 소스이다. 이 https URL 

 

 

Biomedical NER for the Enterprise with Distillated BERN2 and the Kazu Framework

 

In order to assist the drug discovery/development process, pharmaceutical companies often apply biomedical NER and linking techniques over internal and public corpora. Decades of study of the field of BioNLP has produced a plethora of algorithms, systems and datasets. However, our experience has been that no single open source system meets all the requirements of a modern pharmaceutical company. In this work, we describe these requirements according to our experience of the industry, and present Kazu, a highly extensible, scalable open source framework designed to support BioNLP for the pharmaceutical sector. Kazu is a built around a computationally efficient version of the BERN2 NER model (TinyBERN2), and subsequently wraps several other BioNLP technologies into one coherent system. KAZU framework is open-sourced: this https URL

 

의약품 발견/개발 과정을 지원하기 위해 의약품, 회사들은 종종 바이오메디컬 NER와 내부 그리고 연결 기술을 적용한다. 공공 말뭉치 바이오 NLP 분야에 대한 수십 년간의 연구는 많은 양을 생산했다. 알고리즘, 시스템 및 데이터 세트를 제공합니다. 하지만, 우리의 경험은 아니다. 단일 오픈 소스 시스템은 현대 의약품의 모든 요구 사항을 충족합니다. 회사. 이 작업에서, 우리는 이러한 요구사항을 다음과 같이 설명한다. 업계의 경험과 확장성이 뛰어난 Kazu를 소개합니다. 제약 부문을 위한 BioNLP를 지원하도록 설계된 오픈 소스 프레임워크. Kazu는 BERN2 NER의 계산 효율적인 버전을 기반으로 구축되었습니다. 모델(TinyBERN2), 그리고 그 후에 몇 가지 다른 바이오 NLP 기술을 포장합니다. 하나의 일관된 체계로. KAZU 프레임워크는 오픈 소스이다. 이 https URL 

 

 

A Commonsense-Infused Language-Agnostic Learning Framework for Enhancing Prediction of Political Polarity in Multilingual News Headlines

 

Predicting the political polarity of news headlines is a challenging task that becomes even more challenging in a multilingual setting with low-resource languages. To deal with this, we propose to utilise the Inferential Commonsense Knowledge via a Translate-Retrieve-Translate strategy to introduce a learning framework. To begin with, we use the method of translation and retrieval to acquire the inferential knowledge in the target language. We then employ an attention mechanism to emphasise important inferences. We finally integrate the attended inferences into a multilingual pre-trained language model for the task of bias prediction. To evaluate the effectiveness of our framework, we present a dataset of over 62.6K multilingual news headlines in five European languages annotated with their respective political polarities. We evaluate several state-of-the-art multilingual pre-trained language models since their performance tends to vary across languages (low/high resource). Evaluation results demonstrate that our proposed framework is effective regardless of the models employed. Overall, the best performing model trained with only headlines show 0.90 accuracy and F1, and 0.83 jaccard score. With attended knowledge in our framework, the same model show an increase in 2.2% accuracy and F1, and 3.6% jaccard score. Extending our experiments to individual languages reveals that the models we analyze for Slovenian perform significantly worse than other languages in our dataset. To investigate this, we assess the effect of translation quality on prediction performance. It indicates that the disparity in performance is most likely due to poor translation quality. We release our dataset and scripts at: this https URL for future research. Our framework has the potential to benefit journalists, social scientists, news producers, and consumers.

 

뉴스 헤드라인의 정치적 극성을 예측하는 것은 어려운 작업이다. 리소스가 적은 다국어 환경에서는 더욱 어려워집니다. 언어들. 이를 다루기 위해 추론 상식을 활용할 것을 제안한다. 학습 소개를 위한 번역-검색-번역 전략을 통한 지식 골조 우선, 우리는 번역과 검색의 방법을 사용한다. 목적어의 추론적 지식을 습득하다 그리고 나서 우리는 다음을 고용한다. 중요한 추론을 강조하기 위한 주의 메커니즘. 마지막으로 통합합니다. 작업을 위해 다국어 사전 훈련된 언어 모델에 대한 추론에 참석했다. 편향 예측의. 프레임워크의 효과를 평가하기 위해, 우리는 다음을 제시한다. 5개의 유럽 언어로 된 62,600개 이상의 다국어 뉴스 헤드라인의 데이터 세트 그들 각자의 정치적 양극성에 주석을 달았다. 우리는 몇 가지를 평가한다. 그들 이후로 최첨단 다국어 사전 훈련된 언어 모델. 성능은 언어(낮은/높은 리소스)에 따라 다양한 경향이 있습니다. 평가하기 결과는 우리가 제안한 프레임워크가 효과적이라는 것을 증명한다. 채용된 모델 전체적으로 헤드라인만으로 훈련된 최고의 성능 모델 0.90 정확도와 F1, 그리고 0.83 jaccard 점수를 보여준다. 에 대한 지식을 가지고. 우리의 프레임워크, 동일한 모델은 2.2% 정확도와 F1의 증가를 보여준다. 3.6%의 Jaccard 점수. 개별 언어로 실험을 확장하면 우리가 슬로베니아를 위해 분석한 모델들이 다른 모델들보다 훨씬 더 나쁜 성능을 발휘한다는 것. 데이터 세트의 언어. 이를 조사하기 위해, 우리는 다음의 효과를 평가한다. 예측 성능에 대한 번역 품질. 그것은 그 차이를 나타낸다. 성능 저하는 번역 품질 저하 때문일 가능성이 높습니다. 우리는 우리의 데이터 집합 및 스크립트 위치: 향후 이 https URL 조사. 우리의 프레임워크는 언론인, 사회인에게 이익을 줄 수 있는 잠재력을 가지고 있다. 과학자들, 뉴스 제작자들, 그리고 소비자들. 

 

 

반응형

댓글