본문 바로가기
오늘의 자연어 처리

[2022-08-07] 오늘의 자연어처리

by 지환이아빠 2022. 8. 7.
반응형

Vocabulary Transfer for Medical Texts

 

Vocabulary transfer is a transfer learning subtask in which language models fine-tune with the corpus-specific tokenization instead of the default one, which is being used during pretraining. This usually improves the resulting performance of the model, and in the paper, we demonstrate that vocabulary transfer is especially beneficial for medical text processing. Using three different medical natural language processing datasets, we show vocabulary transfer to provide up to ten extra percentage points for the downstream classifier accuracy.

 

어휘 이전은 언어 모델이 있는 이전 학습 하위 작업입니다. 기본 토큰화 대신 말뭉치별 토큰화로 미세 조정한다. 사전 교육 중에 사용되고 있습니다. 이것은 보통 결과를 개선한다. 모델의 성능, 그리고 논문에서, 우리는 그 어휘를 입증한다. 전송은 의료 텍스트 처리에 특히 유용합니다. 3개 사용 다양한 의료 자연어 처리 데이터 세트, 우리는 어휘를 보여준다. 다운스트림에 최대 10퍼센트 포인트를 추가하기 위한 전송 분류기 정확도 

 

 

Cross-Lingual Knowledge Transfer for Clinical Phenotyping

 

Clinical phenotyping enables the automatic extraction of clinical conditions from patient records, which can be beneficial to doctors and clinics worldwide. However, current state-of-the-art models are mostly applicable to clinical notes written in English. We therefore investigate cross-lingual knowledge transfer strategies to execute this task for clinics that do not use the English language and have a small amount of in-domain data available. We evaluate these strategies for a Greek and a Spanish clinic leveraging clinical notes from different clinical domains such as cardiology, oncology and the ICU. Our results reveal two strategies that outperform the state-of-the-art: Translation-based methods in combination with domain-specific encoders and cross-lingual encoders plus adapters. We find that these strategies perform especially well for classifying rare phenotypes and we advise on which method to prefer in which situation. Our results show that using multilingual data overall improves clinical phenotyping models and can compensate for data sparseness.

 

임상 표현형을 통해 임상 조건의 자동 추출이 가능합니다. 전 세계의 의사와 클리닉에 도움이 될 수 있는 환자 기록으로부터. 그러나 현재 최신 모델은 대부분 임상시험에 적용 가능하다. 영어로 쓰여진 노트 따라서 우리는 교차 언어 지식을 조사한다. 이 작업을 수행하기 위해 전략을 이전합니다. 영어 및 소량의 도메인 내 데이터를 사용할 수 있습니다. 우리가 그리스 및 스페인 클리닉을 위한 이러한 전략을 임상적으로 활용하여 평가한다. 심장학, 종양학, ICU와 같은 다른 임상 영역의 노트. 우리의 결과는 최첨단 기술을 능가하는 두 가지 전략을 보여준다. 도메인별 인코더와 결합된 번역 기반 방법 다국어 인코더 및 어댑터 이러한 전략이 수행된다는 것을 알게 되었다. 특히 희귀한 표현형을 분류하는 데 적합하며 우리는 어떤 방법에 대해 조언한다. 어떤 상황을 선호하는지. 우리의 결과는 다국어 데이터를 사용하는 것을 보여준다. 전반적으로 임상 표현형 모델을 개선하고 데이터를 보상할 수 있다. 희소성 

 

 

Vocabulary Transfer for Medical Texts

 

Vocabulary transfer is a transfer learning subtask in which language models fine-tune with the corpus-specific tokenization instead of the default one, which is being used during pretraining. This usually improves the resulting performance of the model, and in the paper, we demonstrate that vocabulary transfer is especially beneficial for medical text processing. Using three different medical natural language processing datasets, we show vocabulary transfer to provide up to ten extra percentage points for the downstream classifier accuracy.

 

어휘 이전은 언어 모델이 있는 이전 학습 하위 작업입니다. 기본 토큰화 대신 말뭉치별 토큰화로 미세 조정한다. 사전 교육 중에 사용되고 있습니다. 이것은 보통 결과를 개선한다. 모델의 성능, 그리고 논문에서, 우리는 그 어휘를 입증한다. 전송은 의료 텍스트 처리에 특히 유용합니다. 3개 사용 다양한 의료 자연어 처리 데이터 세트, 우리는 어휘를 보여준다. 다운스트림에 최대 10퍼센트 포인트를 추가하기 위한 전송 분류기 정확도 

 

 

반응형

댓글