본문 바로가기
오늘의 자연어 처리

[2022-09-30] 오늘의 자연어처리

by 지환이아빠 2022. 9. 30.
반응형

METS-CoV: A Dataset of Medical Entity and Targeted Sentiment on COVID-19 Related Tweets

 

The COVID-19 pandemic continues to bring up various topics discussed or debated on social media. In order to explore the impact of pandemics on people's lives, it is crucial to understand the public's concerns and attitudes towards pandemic-related entities (e.g., drugs, vaccines) on social media. However, models trained on existing named entity recognition (NER) or targeted sentiment analysis (TSA) datasets have limited ability to understand COVID-19-related social media texts because these datasets are not designed or annotated from a medical perspective. This paper releases METS-CoV, a dataset containing medical entities and targeted sentiments from COVID-19-related tweets. METS-CoV contains 10,000 tweets with 7 types of entities, including 4 medical entity types (Disease, Drug, Symptom, and Vaccine) and 3 general entity types (Person, Location, and Organization). To further investigate tweet users' attitudes toward specific entities, 4 types of entities (Person, Organization, Drug, and Vaccine) are selected and annotated with user sentiments, resulting in a targeted sentiment dataset with 9,101 entities (in 5,278 tweets). To the best of our knowledge, METS-CoV is the first dataset to collect medical entities and corresponding sentiments of COVID-19-related tweets. We benchmark the performance of classical machine learning models and state-of-the-art deep learning models on NER and TSA tasks with extensive experiments. Results show that the dataset has vast room for improvement for both NER and TSA tasks. METS-CoV is an important resource for developing better medical social media tools and facilitating computational social science research, especially in epidemiology. Our data, annotation guidelines, benchmark models, and source code are publicly available (this https URL) to ensure reproducibility.

 

COVID-19 팬데믹은 계속해서 논의된 다양한 주제들을 끄집어내고 있다. 소셜 미디어에서 토론했습니다. 전염병이 에 미치는 영향을 탐구하기 위해서. 사람들의 삶, 대중의 관심사와 태도를 이해하는 것은 중요하다. 소셜 미디어에서 팬데믹 관련 주체(예: 약물, 백신)를 향하여. 그러나 기존 명명된 엔티티 인식(NER) 또는 대상 모델에 대해 훈련된 모델 정서 분석(TSA) 데이터셋의 이해 능력이 제한됨 이러한 데이터 세트가 설계되거나 설계되지 않았기 때문에 COVID-19 관련 소셜 미디어 텍스트 의학적인 관점에서 주석을 달았다. 이 논문은 데이터 세트인 METS-CoV를 공개한다. COVID-19 관련 의료 기관 및 표적 감정 포함 트윗. METS-CoV는 4개를 포함한 7가지 유형의 엔티티와 함께 10,000개의 트윗을 포함합니다. 의료 실체 유형(질병, 약물, 증상 및 백신) 및 3개의 일반 실체 유형(사용자, 위치 및 조직)을 선택합니다. 트윗 사용자의 정보를 추가로 조사 특정 실체에 대한 태도, 4가지 유형의 실체(개인, 조직, Drug, and Vacuine)을 선택하고 사용자 정서에 주석을 달면 다음과 같은 결과가 나온다. 9,101개의 엔티티가 있는 표적 감정 데이터 세트(5,278개의 트윗)에서. 에게 우리가 아는 한, METS-CoV는 의학을 수집하는 첫 번째 데이터 세트이다. 코로나19 관련 트윗의 실체와 그에 상응하는 감정. 벤치마킹 고전적인 기계 학습 모델과 최첨단 딥의 성능 광범위한 실험을 통해 NER 및 TSA 작업에 대한 학습 모델. 결과 표시 데이터 세트가 NER 및 TSA 작업 모두에 대해 개선의 여지가 크다는 것을 의미한다. METS-CoV는 더 나은 의료 소셜 미디어를 개발하기 위한 중요한 자원이다. 도구와 컴퓨터 사회과학 연구를 용이하게 하는 것, 특히. 역학의 데이터, 주석 지침, 벤치마크 모델 및 소스 코드를 공개적으로 사용할 수 있습니다(이 https URL). 재현성 

 

 

Natural Language Processing Methods to Identify Oncology Patients at High Risk for Acute Care with Clinical Notes

 

Clinical notes are an essential component of a health record. This paper evaluates how natural language processing (NLP) can be used to identify the risk of acute care use (ACU) in oncology patients, once chemotherapy starts. Risk prediction using structured health data (SHD) is now standard, but predictions using free-text formats are complex. This paper explores the use of free-text notes for the prediction of ACU instead of SHD. Deep Learning models were compared to manually engineered language features. Results show that SHD models minimally outperform NLP models; an l1-penalised logistic regression with SHD achieved a C-statistic of 0.748 (95%-CI: 0.735, 0.762), while the same model with language features achieved 0.730 (95%-CI: 0.717, 0.745) and a transformer-based model achieved 0.702 (95%-CI: 0.688, 0.717). This paper shows how language models can be used in clinical applications and underlines how risk bias is different for diverse patient groups, even using only free-text data.

 

임상 기록은 건강 기록의 필수 구성 요소입니다. 이 종이 자연어 처리(NLP)가 식별을 위해 어떻게 사용될 수 있는지 평가한다. 항암치료가 시작되면 종양 환자에서 급성 치료 사용 위험(ACU)이 발생할 수 있습니다. 구조화된 건강 데이터(SHD)를 이용한 위험 예측은 이제 표준이지만 자유 텍스트 형식을 사용하는 예측은 복잡합니다. 이 백서는 다음과 같은 용도를 탐구한다. SHD 대신 ACU 예측을 위한 자유 텍스트 노트. 딥 러닝 모델 수동으로 설계된 언어 기능과 비교되었습니다. 결과는 SHD를 보여준다. 모형이 NLP 모형보다 최소 성능, l1 패널티 로지스틱 회귀 분석 SHD는 0.748(95%-CI: 0.735, 0.762)의 C-통계량을 달성한 반면, 같은 경우 언어 기능이 0.730(95%-CI: 0.717, 0.745)을 달성한 모델 변압기 기반 모델은 0.702(95%-CI: 0.688, 0.717)를 달성했다. 이 논문은 다음을 보여준다. 언어 모델이 임상 응용 프로그램에서 어떻게 사용될 수 있는지 그리고 어떻게 강조할 수 있는지 자유 텍스트만 사용하는 경우에도 다양한 환자 그룹에 대해 위험 편향이 다르다. 데이터. 

 

 

Effective General-Domain Data Inclusion for the Machine Translation Task by Vanilla Transformers

 

One of the vital breakthroughs in the history of machine translation is the development of the Transformer model. Not only it is revolutionary for various translation tasks, but also for a majority of other NLP tasks. In this paper, we aim at a Transformer-based system that is able to translate a source sentence in German to its counterpart target sentence in English. We perform the experiments on the news commentary German-English parallel sentences from the WMT'13 dataset. In addition, we investigate the effect of the inclusion of additional general-domain data in training from the IWSLT'16 dataset to improve the Transformer model performance. We find that including the IWSLT'16 dataset in training helps achieve a gain of 2 BLEU score points on the test set of the WMT'13 dataset. Qualitative analysis is introduced to analyze how the usage of general-domain data helps improve the quality of the produced translation sentences.

 

기계 번역의 역사에서 중요한 돌파구 중 하나는 다음과 같다. 트랜스포머 모델의 개발. 그것은 다양한 사람들에게 혁명적일 뿐만 아니라 번역 작업뿐만 아니라 대부분의 다른 NLP 작업에 대해서도 마찬가지입니다. 이 논문에서, 우리는 소스를 번역할 수 있는 트랜스포머 기반 시스템을 목표로 한다. 독일어로 된 문장과 영어로 된 상대적인 대상 문장에 대한 문장. 우리는 공연한다 에서 나온 뉴스 해설 독일어-영어 병렬문장에 대한 실험. WMT'13 데이터 세트 또한, 우리는 다음을 포함하는 것의 영향을 조사한다. IWSLT'16 데이터 세트의 추가 일반 도메인 데이터 개선 Transformer 모델 성능. 우리는 IWSLT'16 데이터 세트를 포함하여 훈련은 테스트 세트에서 BLEU 점수 2점을 획득하는 것을 돕는다. WMT'13 데이터 세트. 질적 분석이 도입되어 사용 방법을 분석합니다. 일반 도메인 데이터는 생성된 번역의 품질을 향상시키는 데 도움이 됩니다. 문장들. 

 

 

반응형

댓글