본문 바로가기
오늘의 자연어 처리

[2023-09-25] 오늘의 자연어처리

by 지환이아빠 2023. 9. 25.
반응형

Accelerating Thematic Investment with Prompt Tuned Pretrained Language Models

 

Abstract:Prompt Tuning is emerging as a scalable and cost-effective method to fine-tune Pretrained Language Models (PLMs). This study benchmarks the performance and computational efficiency of Prompt Tuning and baseline methods on a multi-label text classification task. This is applied to the use case of classifying companies into an investment firm's proprietary industry taxonomy, supporting their thematic investment strategy. Text-to-text classification with PLMs is frequently reported to outperform classification with a classification head, but has several limitations when applied to a multi-label classification problem where each label consists of multiple tokens: (a) Generated labels may not match any label in the industry taxonomy; (b) During fine-tuning, multiple labels must be provided in an arbitrary order; (c) The model provides a binary decision for each label, rather than an appropriate confidence score. Limitation (a) is addressed by applying constrained decoding using Trie Search, which slightly improves classification performance. All limitations (a), (b), and (c) are addressed by replacing the PLM's language head with a classification head. This improves performance significantly, while also reducing computational costs during inference. The results indicate the continuing need to adapt state-of-the-art methods to domain-specific tasks, even in the era of PLMs with strong generalization abilities.

 

초록:PLM(Prempt Tuning)을 미세 조정하기 위한 확장 가능하고 비용 효율적인 방법으로 프롬프트 튜닝(Prempt Tuning)이 떠오르고 있다. 본 연구는 다중 레이블 텍스트 분류 작업에 대한 Prompt Tuning 및 기준 방법의 성능 및 계산 효율성을 벤치마크한다. 이는 투자회사의 독자적인 산업분류로 기업을 분류하여 테마별 투자전략을 뒷받침하는 활용사례에 적용된다. PLM을 사용한 텍스트 대 텍스트 분류는 분류 헤드를 사용한 분류보다 성능이 우수한 것으로 자주 보고되지만, 각 레이블이 여러 토큰으로 구성되는 다중 레이블 분류 문제에 적용될 때 몇 가지 제한 사항이 있다: (a) 생성된 레이블은 산업 분류학의 어떤 레이블과도 일치하지 않을 수 있다; (b) 미세 조정 중에, 다중 레이블은 임의의 순서로 제공되어야 합니다. (c) 모형은 적절한 신뢰 점수가 아니라 각 레이블에 대한 이항 결정을 제공합니다. 제한(a)은 Trie Search를 이용하여 제한된 디코딩을 적용함으로써 해결되며, 이는 분류 성능을 약간 향상시킨다. PLM의 언어 헤드를 분류 헤드로 대체하여 (a), (b), (c)의 모든 제한을 해결한다. 이를 통해 성능이 크게 향상되는 동시에 추론 중 계산 비용도 절감할 수 있다. 이러한 결과는 일반화 능력이 강한 PLM 시대에도 최첨단 방법을 도메인별 작업에 적용할 필요성이 지속적으로 제기되고 있음을 보여준다. 

 

 

Improving VTE Identification through Adaptive NLP Model Selection and Clinical Expert Rule-based Classifier from Radiology Reports

 

Abstract:Rapid and accurate identification of Venous thromboembolism (VTE), a severe cardiovascular condition including deep vein thrombosis (DVT) and pulmonary embolism (PE), is important for effective treatment. Leveraging Natural Language Processing (NLP) on radiology reports, automated methods have shown promising advancements in identifying VTE events from retrospective data cohorts or aiding clinical experts in identifying VTE events from radiology reports. However, effectively training Deep Learning (DL) and the NLP models is challenging due to limited labeled medical text data, the complexity and heterogeneity of radiology reports, and data imbalance. This study proposes novel method combinations of DL methods, along with data augmentation, adaptive pre-trained NLP model selection, and a clinical expert NLP rule-based classifier, to improve the accuracy of VTE identification in unstructured (free-text) radiology reports. Our experimental results demonstrate the model's efficacy, achieving an impressive 97\% accuracy and 97\% F1 score in predicting DVT, and an outstanding 98.3\% accuracy and 98.4\% F1 score in predicting PE. These findings emphasize the model's robustness and its potential to significantly contribute to VTE research.

 

초록:심부정맥혈전증(DVT)과 폐색전증(PE)을 포함한 중증 심혈관 질환인 정맥혈전색전증(VTE)의 신속하고 정확한 확인이 효과적인 치료를 위해 중요하다. 방사선학 보고서에 자연어 처리(NLP)를 활용하여 자동화된 방법은 소급 데이터 코호트에서 VTE 이벤트를 식별하거나 방사선학 보고서에서 VTE 이벤트를 식별하는 임상 전문가를 지원하는 데 있어 유망한 발전을 보여주었다. 그러나 라벨링된 의료 텍스트 데이터의 제한, 방사선 보고서의 복잡성 및 이질성, 데이터 불균형으로 인해 딥 러닝(DL)과 NLP 모델을 효과적으로 훈련하는 것은 어렵다. 본 연구는 비정형(자유 텍스트) 방사선학 보고서에서 VTE 식별의 정확도를 향상시키기 위해 데이터 확대, 적응적 사전 훈련된 NLP 모델 선택 및 임상 전문가 NLP 규칙 기반 분류기와 함께 DL 방법의 새로운 방법 조합을 제안한다. 우리의 실험 결과는 모델의 효과를 입증하여 DVT 예측에서 97\%의 정확도와 97\%의 F1 점수를 달성하고 98을 능가한다.PE 예측에서 3\% 정확도와 98.4\% F1 점수. 이러한 결과는 모델의 견고성과 VTE 연구에 크게 기여할 수 있는 가능성을 강조한다. 

 

 

SQUARE: Automatic Question Answering Evaluation using Multiple Positive and Negative References

 

Abstract:Evaluation of QA systems is very challenging and expensive, with the most reliable approach being human annotations of correctness of answers for questions. Recent works (AVA, BEM) have shown that transformer LM encoder based similarity metrics transfer well for QA evaluation, but they are limited by the usage of a single correct reference answer. We propose a new evaluation metric: SQuArE (Sentence-level QUestion AnsweRing Evaluation), using multiple reference answers (combining multiple correct and incorrect references) for sentence-form QA. We evaluate SQuArE on both sentence-level extractive (Answer Selection) and generative (GenQA) QA systems, across multiple academic and industrial datasets, and show that it outperforms previous baselines and obtains the highest correlation with human annotations.

 

초록:QA 시스템의 평가는 매우 어렵고 비용이 많이 들며, 가장 신뢰할 수 있는 접근 방식은 질문에 대한 답변의 정확성에 대한 인간의 주석이다. 최근 연구(AVA, BEM)에서는 QA 평가를 위해 변압기 LM 인코더 기반 유사성 메트릭이 잘 전달된다는 것을 보여주었지만, 단일 정확한 참조 답변의 사용으로 제한된다. 우리는 다음과 같은 새로운 평가 지표를 제안한다: SQuArE (Sentence-level Queension Answering Evaluation), 문장 양식 QA에 대해 여러 참조 답변(여러 개의 올바른 참조와 잘못된 참조를 결합)을 사용합니다. 우리는 여러 학술 및 산업 데이터 세트에 걸쳐 문장 수준 추출(응답 선택) 및 생성(GenQA) QA 시스템 모두에서 SQuArE를 평가하고, 이전 기준선을 능가하고 인간 주석과 가장 높은 상관 관계를 얻는다는 것을 보여준다. 

 

 

반응형

댓글