SPEER: Sentence-Level Planning of Long Clinical Summaries via Embedded Entity Retrieval
Abstract:Clinician must write a lengthy summary each time a patient is discharged from the hospital. This task is time-consuming due to the sheer number of unique clinical concepts covered in the admission. Identifying and covering salient entities is vital for the summary to be clinically useful. We fine-tune open-source LLMs (Mistral-7B-Instruct and Zephyr-7B-\b{eta}) on the task and find that they generate incomplete and unfaithful summaries. To increase entity coverage, we train a smaller, encoder-only model to predict salient entities, which are treated as content-plans to guide the LLM. To encourage the LLM to focus on specific mentions in the source notes, we propose SPEER: Sentence-level Planning via Embedded Entity Retrieval. Specifically, we mark each salient entity span with special "{ }" boundary tags and instruct the LLM to retrieve marked spans before generating each sentence. Sentence-level planning acts as a form of state tracking in that the model is explicitly recording the entities it uses. We fine-tune Mistral and Zephyr variants on a large-scale, diverse dataset of ~167k in-patient hospital admissions and evaluate on 3 datasets. SPEER shows gains in both coverage and faithfulness metrics over non-guided and guided baselines.
추상화:임상의는 환자가 퇴원할 때마다 긴 요약본을 작성해야 한다. 이 작업은 입원에서 다루는 고유한 임상 개념의 수가 너무 많기 때문에 시간이 많이 걸린다. 중요한 개체를 식별하고 포괄하는 것은 요약이 임상적으로 유용하기 위해 필수적이다. 우리는 작업에 대해 오픈 소스 LLM(Mistral-7B-Instruct 및 Zepyr-7B-\b{eta})을 미세 조정하고 불완전하고 불성실한 요약을 생성한다는 것을 발견했다. 개체 적용 범위를 늘리기 위해, 우리는 LLM을 안내하기 위한 내용 계획으로 취급되는 현저한 개체를 예측하기 위해 더 작은 인코더 전용 모델을 훈련시킨다. LLM이 소스 노트의 특정 언급에 집중하도록 장려하기 위해, 우리는 임베디드 엔티티 검색을 통한 SPEER: 문장 수준 계획을 제안한다. 구체적으로, 우리는 각 현저한 엔티티 스팬을 특별한 "{}" 경계 태그로 표시하고 각 문장을 생성하기 전에 LLM에 표시된 스팬을 검색하도록 지시한다. 문장 수준 계획은 모델이 사용하는 개체를 명시적으로 기록하고 있다는 점에서 상태 추적의 한 형태로 작용한다. 우리는 ~167k 입원 병원 입원의 대규모 다양한 데이터 세트에서 미스트랄 및 제퍼 변이체를 미세 조정하고 3개 데이터 세트에서 평가한다. SPEER는 비유도 및 유도 기준선에 비해 적용 범위 및 충실도 메트릭 모두에서 증가를 보여준다.
Shayona@SMM4H23: COVID-19 Self diagnosis classification using BERT and LightGBM models
Abstract:This paper describes approaches and results for shared Task 1 and 4 of SMMH4-23 by Team Shayona. Shared Task-1 was binary classification of english tweets self-reporting a COVID-19 diagnosis, and Shared Task-4 was Binary classification of English Reddit posts self-reporting a social anxiety disorder diagnosis. Our team has achieved the highest f1-score 0.94 in Task-1 among all participants. We have leveraged the Transformer model (BERT) in combination with the LightGBM model for both tasks.
추상화:본 논문은 팀 샤요나에 의한 SMMH4-23의 공유 과제 1과 4에 대한 접근 및 결과를 기술한다. 공유 과제-1은 코로나19 진단을 자가 보고하는 영어 트윗의 이진 분류였고, 공유 과제-4는 사회 불안 장애 진단을 자가 보고하는 영어 레딧 게시물의 이진 분류였다. 우리 팀은 과제-1에서 전체 참가자 중 가장 높은 f1-점수 0.94를 달성했다. 우리는 두 작업 모두에 대해 트랜스포머 모델(BERT)을 LightGBM 모델과 결합하여 활용했다.
Generalist embedding models are better at short-context clinical semantic search than specialized embedding models
Abstract:The increasing use of tools and solutions based on Large Language Models (LLMs) for various tasks in the medical domain has become a prominent trend. Their use in this highly critical and sensitive domain has thus raised important questions about their robustness, especially in response to variations in input, and the reliability of the generated outputs. This study addresses these questions by constructing a textual dataset based on the ICD-10-CM code descriptions, widely used in US hospitals and containing many clinical terms, and their easily reproducible rephrasing. We then benchmarked existing embedding models, either generalist or specialized in the clinical domain, in a semantic search task where the goal was to correctly match the rephrased text to the original description. Our results showed that generalist models performed better than clinical models, suggesting that existing clinical specialized models are more sensitive to small changes in input that confuse them. The highlighted problem of specialized models may be due to the fact that they have not been trained on sufficient data, and in particular on datasets that are not diverse enough to have a reliable global language understanding, which is still necessary for accurate handling of medical documents.
추상화:의료 영역의 다양한 작업에 LLM(Large Language Model)을 기반으로 한 도구 및 솔루션의 사용 증가는 두드러진 추세가 되었다. 따라서 이 매우 중요하고 민감한 영역에서의 그들의 사용은 특히 입력의 변화에 대한 응답 및 생성된 출력의 신뢰성에 대한 그들의 견고성에 대한 중요한 질문을 제기했다. 이 연구는 미국 병원에서 널리 사용되고 많은 임상 용어를 포함하는 ICD-10-CM 코드 설명을 기반으로 텍스트 데이터 세트를 구성하여 이러한 질문을 해결하고 쉽게 재현할 수 있다. 그런 다음 재구성된 텍스트를 원래 설명과 올바르게 일치시키는 것이 목표인 의미론적 검색 작업에서 일반론적이거나 임상 영역에 특화된 기존 임베딩 모델을 벤치마킹했다. 우리의 결과는 일반주의 모델이 임상 모델보다 더 우수한 성능을 나타냈으며, 이는 기존의 임상 전문 모델이 이들을 혼란스럽게 하는 작은 입력 변화에 더 민감하다는 것을 시사한다. 전문화된 모델의 문제점이 부각된 것은 충분한 데이터, 특히 의료 문서의 정확한 처리를 위해 여전히 필요한 신뢰할 수 있는 글로벌 언어 이해를 가질 만큼 다양하지 않은 데이터 세트에 대해 교육을 받지 못했기 때문일 수 있다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2024-01-10] 오늘의 자연어처리 (0) | 2024.01.10 |
---|---|
[2024-01-09] 오늘의 자연어처리 (2) | 2024.01.09 |
[2024-01-07] 오늘의 자연어처리 (0) | 2024.01.07 |
[2024-01-06] 오늘의 자연어처리 (1) | 2024.01.06 |
[2024-01-05] 오늘의 자연어처리 (0) | 2024.01.05 |
댓글