본문 바로가기
오늘의 자연어 처리

[2023-03-27] 오늘의 자연어처리

by 지환이아빠 2023. 3. 27.
반응형

Retrieval-Augmented Classification with Decoupled Representation

 

Pretrained language models (PLMs) have shown marvelous improvements across various NLP tasks. Most Chinese PLMs simply treat an input text as a sequence of characters, and completely ignore word information. Although Whole Word Masking can alleviate this, the semantics in words is still not well represented. In this paper, we revisit the segmentation granularity of Chinese PLMs. We propose a mixed-granularity Chinese BERT (MigBERT) by considering both characters and words. To achieve this, we design objective functions for learning both character and word-level representations. We conduct extensive experiments on various Chinese NLP tasks to evaluate existing PLMs as well as the proposed MigBERT. Experimental results show that MigBERT achieves new SOTA performance on all these tasks. Further analysis demonstrates that words are semantically richer than characters. More interestingly, we show that MigBERT also works with Japanese. Our code has been released here~\footnote{\url{this https URL}} and you can download our model here~\footnote{\url{this https URL}}.

 

사전 훈련된 언어 모델(PLM)은 전체적으로 놀라운 개선을 보여주었다 다양한 NLP 작업. 대부분의 중국 PLM은 단순히 입력 텍스트를 시퀀스로 처리합니다 단어 정보를 완전히 무시하고 문자를 완전히 무시합니다. 비록 완전한 단어지만 마스킹은 이것을 완화시킬 수 있다, 단어의 의미론은 여전히 좋지 않다 대표의. 이 논문에서, 우리는 중국어의 세분화 세분성을 재검토한다 PLM. 우리는 두 가지를 모두 고려하여 혼합 입자성 중국어 BERT(MigBERT)를 제안한다 문자와 단어. 이를 달성하기 위해, 우리는 다음을 위한 객관적인 기능을 설계한다 문자와 단어 수준의 표현을 모두 학습합니다. 우리는 광범위하게 실시한다 다양한 중국어 NLP 작업에 대한 실험을 통해 기존 PLM 및 제안된 미그버트. 실험 결과는 MigBERT가 새로운 SOTA를 달성한다는 것을 보여준다 이 모든 작업에 대한 성능. 추가 분석은 단어들이 문자보다 의미적으로 풍부합니다. 더 흥미롭게도, 우리는 MigBERT가 일본어로도 작동합니다. 코드가 공개되었습니다 여기서~\footnote{\url{thttps URL}} 다운로드할 수 있습니다 모델이 여기 있습니다. -\footnote{\url{thttps URL}}. 

 

 

Development and validation of a natural language processing algorithm to pseudonymize documents in the context of a clinical data warehouse

 

The objective of this study is to address the critical issue of de-identification of clinical reports in order to allow access to data for research purposes, while ensuring patient privacy. The study highlights the difficulties faced in sharing tools and resources in this domain and presents the experience of the Greater Paris University Hospitals (AP-HP) in implementing a systematic pseudonymization of text documents from its Clinical Data Warehouse. We annotated a corpus of clinical documents according to 12 types of identifying entities, and built a hybrid system, merging the results of a deep learning model as well as manual rules. Our results show an overall performance of 0.99 of F1-score. We discuss implementation choices and present experiments to better understand the effort involved in such a task, including dataset size, document types, language models, or rule addition. We share guidelines and code under a 3-Clause BSD license.

 

이 연구의 목적은 중요한 문제를 다루는 것이다 데이터에 대한 액세스를 허용하기 위해 임상 보고서의 비식별화 환자의 프라이버시를 보장하면서 연구 목적. 이 연구는 다음을 강조합니다 이 도메인에서 도구와 리소스를 공유하고 제시하는 데 어려움이 있습니다 파리 대학 병원(AP-HP)의 경험 Clinical에서 텍스트 문서의 체계적인 가명화 구현 데이터 웨어하우스. 우리는 12에 따라 임상 문서의 코퍼스에 주석을 달았다 개체를 식별하는 유형, 그리고 하이브리드 시스템을 구축하여 결과를 병합합니다 수동 규칙뿐만 아니라 딥 러닝 모델의. 우리의 결과는 전체적으로 보여준다 F1 점수의 0.99 성능. 구현 선택 사항에 대해 논의하고 발표합니다 그러한 작업에 관련된 노력을 더 잘 이해하기 위한 실험들은 다음을 포함한다 데이터 집합 크기, 문서 유형, 언어 모델 또는 규칙 추가. 우리는 공유 3-Clause BSD 라이센스에 따른 지침 및 코드. 

 

 

Extracting Physical Rehabilitation Exercise Information from Clinical Notes: a Comparison of Rule-Based and Machine Learning Natural Language Processing Techniques

 

Physical rehabilitation plays a crucial role in the recovery process of post-stroke patients. By personalizing therapies for patients leveraging predictive modeling and electronic health records (EHRs), healthcare providers can make the rehabilitation process more efficient. Before predictive modeling can provide decision support for the assignment of treatment plans, automated methods are necessary to extract physical rehabilitation exercise information from unstructured EHRs. We introduce a rule-based natural language processing algorithm to annotate therapeutic procedures for stroke patients and compare it to several small machine learning models. We find that our algorithm outperforms these models in extracting half of the concepts where sufficient data is available, and individual exercise descriptions can be assigned binary labels with an f-score of no less than 0.75 per concept. More research needs to be done before these algorithms can be deployed on unlabeled documents, but current progress gives promise to the potential of precision rehabilitation research.

 

신체적 재활은 회복 과정에서 중요한 역할을 한다 뇌졸중 후의 환자. 활용하는 환자를 위한 치료법을 개인화함으로써 예측 모델링 및 전자 건강 기록(EHR), 의료 기관 재활 과정을 더 효율적으로 만들 수 있습니다. 예측 모형화 전 치료 계획의 할당을 위한 의사결정 지원을 제공할 수 있음, 자동화됨 신체 재활 운동 정보를 추출하는 데 필요한 방법 구조화되지 않은 EHR로부터. 우리는 규칙 기반 자연어 처리를 소개한다 뇌졸중 환자의 치료 절차에 주석을 달거나 비교하는 알고리즘 몇 가지 작은 기계 학습 모델로. 우리의 알고리즘이 충분한 경우 개념의 절반을 추출하는 데 있어 이러한 모델을 능가한다 데이터를 사용할 수 있으며 개별 연습 설명은 이진법으로 할당할 수 있습니다 개념당 0.75 이상의 f-점수를 가진 레이블. 하기 위해 더 많은 연구가 필요하다 이러한 알고리즘이 라벨이 부착되지 않은 문서에 배치되기 전에 수행되어야 한다 현재의 진전은 정밀 재활의 가능성에 대한 약속을 준다 조사. 

 

 

반응형

댓글