본문 바로가기
오늘의 자연어 처리

[2023-03-22] 오늘의 자연어처리

by 지환이아빠 2023. 3. 22.
반응형

DeID-GPT: Zero-shot Medical Text De-Identification by GPT-4

 

The digitization of healthcare has facilitated the sharing and re-using of medical data but has also raised concerns about confidentiality and privacy. HIPAA (Health Insurance Portability and Accountability Act) mandates removing re-identifying information before the dissemination of medical records. Thus, effective and efficient solutions for de-identifying medical data, especially those in free-text forms, are highly needed. While various computer-assisted de-identification methods, including both rule-based and learning-based, have been developed and used in prior practice, such solutions still lack generalizability or need to be fine-tuned according to different scenarios, significantly imposing restrictions in wider use. The advancement of large language models (LLM), such as ChatGPT and GPT-4, have shown great potential in processing text data in the medical domain with zero-shot in-context learning, especially in the task of privacy protection, as these models can identify confidential information by their powerful named entity recognition (NER) capability. In this work, we developed a novel GPT4-enabled de-identification framework ("DeID-GPT") to automatically identify and remove the identifying information. Compared to existing commonly used medical text data de-identification methods, our developed DeID-GPT showed the highest accuracy and remarkable reliability in masking private information from the unstructured medical text while preserving the original structure and meaning of the text. This study is one of the earliest to utilize ChatGPT and GPT-4 for medical text data processing and de-identification, which provides insights for further research and solution development on the use of LLMs such as ChatGPT/GPT-4 in healthcare. Codes and benchmarking data information are available at this https URL.

 

의료의 디지털화는 다음의 공유와 재사용을 촉진했다 의료 데이터뿐만 아니라 기밀성 및 개인 정보 보호에 대한 우려도 제기되었습니다. HIPAA(건강보험 휴대성 및 책임법)는 제거를 의무화한다 의료 기록을 배포하기 전에 정보를 다시 확인합니다. 따라서, 특히 의료 데이터의 식별을 해제하기 위한 효과적이고 효율적인 솔루션 자유 텍스트 형태의 것들은 매우 필요하다. 다양한 컴퓨터 지원을 받는 동안 규칙 기반 및 학습 기반을 모두 포함하는 비식별화 방법은 이전 관행에서 개발되고 사용되었지만, 그러한 해결책은 여전히 부족하다 일반화 가능성 또는 다양한 시나리오에 따라 미세 조정이 필요함, 광범위한 사용에 있어 현저하게 제한을 가합니다. 대규모의 발전 ChatGPT와 GPT-4와 같은 언어 모델(LLM)은 큰 잠재력을 보여주었다 제로샷 인스톨 학습으로 의료 영역의 텍스트 데이터를 처리한다, 이 모델들이 식별할 수 있듯이, 특히 사생활 보호 작업에서 강력한 명명된 엔티티 인식(NER)을 통한 기밀 정보 능력. 이 연구에서, 우리는 새로운 GPT4 사용 비식별화를 개발했다 틀 ("De")ID-GPT")를 사용하여 식별 정보를 자동으로 식별하고 제거합니다 정보. 기존의 일반적으로 사용되는 의료용 텍스트 데이터와 비교 비식별화 방법, 우리가 개발한 DeID-GPT가 가장 높은 정확도를 보였다 비구조적인 조직으로부터 개인 정보를 보호하는 데 있어 탁월한 신뢰성을 제공합니다 본문의 원래 구조와 의미를 보존하면서 의학적 본문. 이 연구는 의학 텍스트에 ChatGPT과 GPT-4를 활용한 가장 초기의 연구 중 하나이다 데이터 처리 및 비식별화, 추가 정보 제공 ChatGPT/GPT-4와 같은 LLM의 사용에 대한 연구 및 솔루션 개발 건강 관리. 코드 및 벤치마킹 데이터 정보는 다음 사이트에서 확인할 수 있습니다 이 https URL. 

 

 

On-the-fly Text Retrieval for End-to-End ASR Adaptation

 

End-to-end speech recognition models are improved by incorporating external text sources, typically by fusion with an external language model. Such language models have to be retrained whenever the corpus of interest changes. Furthermore, since they store the entire corpus in their parameters, rare words can be challenging to recall. In this work, we propose augmenting a transducer-based ASR model with a retrieval language model, which directly retrieves from an external text corpus plausible completions for a partial ASR hypothesis. These completions are then integrated into subsequent predictions by an adapter, which is trained once, so that the corpus of interest can be switched without incurring the computational overhead of retraining. Our experiments show that the proposed model significantly improves the performance of a transducer baseline on a pair of question-answering datasets. Further, it outperforms shallow fusion on recognition of named entities by about 7 relative; when the two are combined, the relative improvement increases to 13%.

 

단대단 음성 인식 모델은 외부를 통합하여 개선됩니다 텍스트 소스, 일반적으로 외부 언어 모델과의 융합에 의해. 그런 언어 모델은 관심의 말뭉치가 바뀔 때마다 재교육되어야 한다. 게다가, 그들은 전체 말뭉치를 그들의 매개변수에 저장하기 때문에, 희귀한 단어들 기억하기 어려울 수 있습니다. 이 작업에서, 우리는 다음과 같은 기능을 강화할 것을 제안한다 검색 언어 모델이 있는 변환기 기반 ASR 모델, 즉 부분 ASR에 대해 외부 텍스트 말뭉치에서 타당한 완료를 검색합니다 가설. 그런 다음 이러한 완료는 후속 예측에 통합됩니다 관심의 말뭉치가 될 수 있도록 한 번 훈련된 어댑터에 의해 재교육의 계산 오버헤드를 발생시키지 않고 전환할 수 있습니다. 우리들의 실험은 제안된 모델이 성능을 크게 향상시킨다는 것을 보여준다 한 쌍의 질문 응답 데이터 세트에 대한 변환기 기준선의. 게다가, 그것은 명명된 엔티티를 인식할 때 얕은 융합을 약 7만큼 능가합니다 상대적. 두 가지를 결합하면 상대적 개선이 13%로 증가합니다. 

 

 

Self-Improving-Leaderboard(SIL): A Call for Real-World Centric Natural Language Processing Leaderboards

 

Leaderboard systems allow researchers to objectively evaluate Natural Language Processing (NLP) models and are typically used to identify models that exhibit superior performance on a given task in a predetermined setting. However, we argue that evaluation on a given test dataset is just one of many performance indications of the model. In this paper, we claim leaderboard competitions should also aim to identify models that exhibit the best performance in a real-world setting. We highlight three issues with current leaderboard systems: (1) the use of a single, static test set, (2) discrepancy between testing and real-world application (3) the tendency for leaderboard-centric competition to be biased towards the test set. As a solution, we propose a new paradigm of leaderboard systems that addresses these issues of current leaderboard system. Through this study, we hope to induce a paradigm shift towards more real -world-centric leaderboard competitions.

 

리더보드 시스템을 통해 연구자는 자연을 객관적으로 평가할 수 있습니다 언어 처리(NLP) 모델이며 일반적으로 다음 모델을 식별하는 데 사용됩니다 미리 설정된 설정에서 주어진 작업에 대해 우수한 성능을 발휘합니다. 그러나 우리는 주어진 테스트 데이터 세트에 대한 평가가 많은 것 중 하나일 뿐이라고 주장한다 모델의 성능 표시. 이 논문에서, 우리는 리더보드를 주장한다 경쟁은 또한 최고를 나타내는 모델을 식별하는 것을 목표로 해야 한다 실제 환경에서의 성능. 현재의 세 가지 문제를 강조합니다 리더보드 시스템: (1) 단일 정적 테스트 세트의 사용, (2) 불일치 테스트와 실제 적용 사이(3)의 경향 테스트 세트에 편향된 리더보드 중심의 경쟁. 로서 해결책, 우리는 이것들을 해결하는 리더보드 시스템의 새로운 패러다임을 제안한다 현재 리더보드 시스템의 문제. 이 연구를 통해, 우리는 다음을 유도하기를 희망한다 보다 현실적인 리더보드 경쟁을 향한 패러다임의 전환. 

 

 

반응형

댓글