본문 바로가기
오늘의 자연어 처리

[2023-04-08] 오늘의 자연어처리

by 지환이아빠 2023. 4. 8.
반응형

Automatic ICD-10 Code Association: A Challenging Task on French Clinical Texts

 

Automatically associating ICD codes with electronic health data is a well-known NLP task in medical research. NLP has evolved significantly in recent years with the emergence of pre-trained language models based on Transformers architecture, mainly in the English language. This paper adapts these models to automatically associate the ICD codes. Several neural network architectures have been experimented with to address the challenges of dealing with a large set of both input tokens and labels to be guessed. In this paper, we propose a model that combines the latest advances in NLP and multi-label classification for ICD-10 code association. Fair experiments on a Clinical dataset in the French language show that our approach increases the $F_1$-score metric by more than 55\% compared to state-of-the-art results.

 

ICD 코드를 전자 건강 데이터와 자동으로 연결하는 것은 의학 연구에서 잘 알려진 NLP 작업. NLP는 크게 발전했다 최근 몇 년 동안에 기반을 둔 사전 훈련된 언어 모델의 출현 주로 영어로 된 트랜스포머 아키텍처. 이 논문은 적합하다 ICD 코드를 자동으로 연결하는 모델입니다. 여러 신경망 건축물들은 거래의 도전들을 해결하기 위해 실험되어 왔다 추측할 수 있는 입력 토큰과 레이블의 큰 세트. 이 논문에서, 우리는 NLP의 최신 발전과 다중 레이블을 결합한 모델을 제안한다 ICD-10 코드 연결을 위한 분류. 임상에 대한 공정한 실험 프랑스어 데이터 세트는 우리의 접근 방식이 $F_1$-점수를 증가시킨다는 것을 보여준다 최첨단 결과와 비교하여 55\% 이상 측정한다. 

 

 

Instruction Tuning with GPT-4

 

Prior work has shown that finetuning large language models (LLMs) using machine-generated instruction-following data enables such models to achieve remarkable zero-shot capabilities on new tasks, and no human-written instructions are needed. In this paper, we present the first attempt to use GPT-4 to generate instruction-following data for LLM finetuning. Our early experiments on instruction-tuned LLaMA models show that the 52K English and Chinese instruction-following data generated by GPT-4 leads to superior zero-shot performance on new tasks to the instruction-following data generated by previous state-of-the-art models. We also collect feedback and comparison data from GPT-4 to enable a comprehensive evaluation and reward model training. We make our data generated using GPT-4 as well as our codebase publicly available.

 

이전 연구는 다음을 사용하여 대규모 언어 모델(LLM)을 미세 조정하는 것을 보여주었다 기계가 생성한 명령어 수집 데이터는 그러한 모델이 달성할 수 있도록 한다 새로운 작업에 대한 놀라운 제로샷 기능 및 사람이 직접 작성한 기능 없음 지시가 필요합니다. 이 논문에서, 우리는 다음을 사용하려는 첫 번째 시도를 제시한다 GPT-4 - LLM 미세 조정을 위한 명령 추종 데이터를 생성합니다. 우리의 초기 명령 튜닝된 LLaMA 모델에 대한 실험은 52K 영어와 GPT-4에 의해 생성된 중국어 지시에 따른 데이터는 우수한 것으로 이어진다 생성된 명령 실행 데이터에 대한 새로운 작업에 대한 제로샷 성능 이전의 최첨단 모델에 의해. 또한 피드백과 비교를 수집합니다 포괄적인 평가와 보상 모델 교육을 가능하게 하는 GPT-4의 데이터. 우리는 GPT-4와 코드베이스를 사용하여 생성된 데이터를 공개한다 이용할 수 있는. 

 

 

Selective Data Augmentation for Robust Speech Translation

 

Speech translation (ST) systems translate speech in one language to text in another language. End-to-end ST systems (e2e-ST) have gained popularity over cascade systems because of their enhanced performance due to reduced latency and computational cost. Though resource intensive, e2e-ST systems have the inherent ability to retain para and non-linguistic characteristics of the speech unlike cascade systems. In this paper, we propose to use an e2e architecture for English-Hindi (en-hi) ST. We use two imperfect machine translation (MT) services to translate Libri-trans en text into hi text. While each service gives MT data individually to generate parallel ST data, we propose a data augmentation strategy of noisy MT data to aid robust ST. The main contribution of this paper is the proposal of a data augmentation strategy. We show that this results in better ST (BLEU score) compared to brute force augmentation of MT data. We observed an absolute improvement of 1.59 BLEU score with our approach.

 

음성 번역(ST) 시스템은 한 언어로 된 음성을 텍스트로 번역한다 타국어. 엔드 투 엔드 ST 시스템(e2e-ST)은 다음과 같이 널리 사용되고 있습니다 지연 시간 감소로 인한 성능 향상으로 인한 캐스케이드 시스템 그리고 계산 비용. 자원 집약적이지만 e2e-ST 시스템은 파라 및 비결정론적 특성을 유지할 수 있는 고유한 능력 캐스케이드 시스템과는 다른 음성. 이 논문에서, 우리는 e2e를 사용할 것을 제안한다 영어-힌디(en-hi) ST를 위한 건축. 우리는 두 개의 불완전한 기계를 사용한다 Libri-trans 텍스트를 하이 텍스트로 번역하는 번역(MT) 서비스. 하는 동안에 각 서비스는 MT 데이터를 개별적으로 제공하여 병렬 ST 데이터를 생성합니다 강력한 ST를 지원하기 위해 노이즈가 많은 MT 데이터의 데이터 확대 전략을 제안한다. 그 이 논문의 주요 기여는 데이터 확대의 제안이다 전략. 우리는 이것이 브루트에 비해 더 나은 ST(BLEU 점수)를 초래한다는 것을 보여준다 MT 데이터의 강제 확대. 우리는 1.59 BLEU의 절대적인 개선을 관찰했다 우리의 접근으로 점수를 매기다. 

 

 

반응형

댓글