본문 바로가기
오늘의 자연어 처리

[2023-03-20] 오늘의 자연어처리

by 지환이아빠 2023. 3. 20.
반응형

Team SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual approaches for news genre, topic and persuasion technique classification

 

This paper describes our approach for SemEval-2023 Task 3: Detecting the category, the framing, and the persuasion techniques in online news in a multi-lingual setup. For Subtask 1 (News Genre), we propose an ensemble of fully trained and adapter mBERT models which was ranked joint-first for German, and had the highest mean rank of multi-language teams. For Subtask 2 (Framing), we achieved first place in 3 languages, and the best average rank across all the languages, by using two separate ensembles: a monolingual RoBERTa-MUPPETLARGE and an ensemble of XLM-RoBERTaLARGE with adapters and task adaptive pretraining. For Subtask 3 (Persuasion Techniques), we train a monolingual RoBERTa-Base model for English and a multilingual mBERT model for the remaining languages, which achieved top 10 for all languages, including 2nd for English. For each subtask, we compare monolingual and multilingual approaches, and consider class imbalance techniques.

 

이 논문은 SemEval-2023 과제 3: 탐지를 위한 우리의 접근 방식을 설명한다 온라인 뉴스에서 카테고리, 프레임, 그리고 설득 기술 다국어 설정. 하위 작업 1(뉴스 장르)의 경우, 우리는 다음과 같은 앙상블을 제안한다 완전한 훈련과 어댑터 mBERT 모델은 독일에서 공동 1위에 올랐다, 그리고 다국어 팀의 평균 순위가 가장 높았다. 하위 작업 2(프레임화)의 경우, 우리는 3개 국어에서 1등을 했고, 모든 언어에서 최고의 평균 순위를 얻었다 두 개의 개별 앙상블을 사용하여 언어: 단일 언어 RoBERTa-MUPPET LARGE 및 어댑터 및 작업이 포함된 XLM-RoBERTa LARGE 앙상블 적응적 사전 훈련. 하위 작업 3(설득 기법)의 경우 다음을 교육합니다 영어를 위한 단일 언어 RoBERTa-Base 모델 및 다음을 위한 다국어 mBERT 모델 나머지 언어들은 2위를 포함한 모든 언어에서 상위 10위를 달성했다 영어를 위해서. 각 하위 작업에 대해 단일 언어와 다국어를 비교합니다 접근법, 그리고 클래스 불균형 기술을 고려한다. 

 

 

Towards Robust Bangla Complex Named Entity Recognition

 

Named Entity Recognition (NER) is a fundamental task in natural language processing that involves identifying and classifying named entities in text. But much work hasn't been done for complex named entity recognition in Bangla, despite being the seventh most spoken language globally. CNER is a more challenging task than traditional NER as it involves identifying and classifying complex and compound entities, which are not common in Bangla language. In this paper, we present the winning solution of Bangla Complex Named Entity Recognition Challenge - addressing the CNER task on BanglaCoNER dataset using two different approaches, namely Conditional Random Fields (CRF) and finetuning transformer based Deep Learning models such as BanglaBERT. The dataset consisted of 15300 sentences for training and 800 sentences for validation, in the .conll format. Exploratory Data Analysis (EDA) on the dataset revealed that the dataset had 7 different NER tags, with notable presence of English words, suggesting that the dataset is synthetic and likely a product of translation. We experimented with a variety of feature combinations including Part of Speech (POS) tags, word suffixes, Gazetteers, and cluster information from embeddings, while also finetuning the BanglaBERT (large) model for NER. We found that not all linguistic patterns are immediately apparent or even intuitive to humans, which is why Deep Learning based models has proved to be the more effective model in NLP, including CNER task. Our fine tuned BanglaBERT (large) model achieves an F1 Score of 0.79 on the validation set. Overall, our study highlights the importance of Bangla Complex Named Entity Recognition, particularly in the context of synthetic datasets. Our findings also demonstrate the efficacy of Deep Learning models such as BanglaBERT for NER in Bangla language.

 

명명된 엔티티 인식(NER)은 자연어로 된 기본 작업이다 텍스트에서 명명된 엔터티를 식별하고 분류하는 처리를 포함합니다. 하지만 방글라데시에서 복잡한 이름의 실체를 인식하기 위한 많은 작업이 이루어지지 않았습니다, 세계적으로 7번째로 많이 사용되는 언어임에도 불구하고. CNER가 더 기존 NER보다 까다로운 작업을 식별하고 방글라데시에서 일반적이지 않은 복합 및 복합 엔터티 분류 언어. 본 논문에서, 우리는 Bangla Complex의 성공적인 솔루션을 제시합니다 명명된 엔티티 인식 과제 - BanglaCo에 대한 CNER 과제 해결NER 두 가지 다른 접근 방식, 즉 조건부 무작위 필드(CRF)를 사용하는 데이터 세트 그리고 BanglaBERT와 같은 딥 러닝 모델을 기반으로 하는 미세 조정 변압기. 데이터 세트는 훈련을 위한 15300개의 문장과 800개의 문장으로 구성되었다 유효성 검사(.conll 형식). 탐색적 데이터 분석(EDA) 데이터 세트는 데이터 세트가 7개의 다른 NER 태그를 가지고 있다는 것을 드러냈습니다 데이터 세트가 합성적이고 가능성이 있음을 시사하는 영어 단어의 존재 번역의 산물. Part of를 포함한 다양한 기능 조합을 실험했습니다 음성(POS) 태그, 단어 접미사, 가제트 및 클러스터 정보 임베딩, NER에 대한 BanglaBERT(대) 모델을 미세 조정한다. 우리가 모든 언어 패턴이 즉시 명백하거나 심지어는 그렇지 않다는 것을 발견했다 인간에게 직관적이며, 이것이 딥 러닝 기반 모델이 증명된 이유이다 CNER 작업을 포함하여 NLP에서 더 효과적인 모델. 우리의 미세한 튜닝된 BanglaBERT (대) 모델은 유효성 검사 세트에서 0.79의 F1 점수를 달성한다. 전체적으로 우리의 연구는 방글라데시 복합 명명된 실체 인식의 중요성을 강조한다, 특히 합성 데이터 세트의 맥락에서. 우리의 발견 또한 NER에 대한 BanglaBERT와 같은 딥 러닝 모델의 효과를 입증합니다 방글라데시 언어. 

 

 

The Scope of In-Context Learning for the Extraction of Medical Temporal Constraints

 

Medications often impose temporal constraints on everyday patient activity. Violations of such medical temporal constraints (MTCs) lead to a lack of treatment adherence, in addition to poor health outcomes and increased healthcare expenses. These MTCs are found in drug usage guidelines (DUGs) in both patient education materials and clinical texts. Computationally representing MTCs in DUGs will advance patient-centric healthcare applications by helping to define safe patient activity patterns. We define a novel taxonomy of MTCs found in DUGs and develop a novel context-free grammar (CFG) based model to computationally represent MTCs from unstructured DUGs. Additionally, we release three new datasets with a combined total of N = 836 DUGs labeled with normalized MTCs. We develop an in-context learning (ICL) solution for automatically extracting and normalizing MTCs found in DUGs, achieving an average F1 score of 0.62 across all datasets. Finally, we rigorously investigate ICL model performance against a baseline model, across datasets and MTC types, and through in-depth error analysis.

 

약물은 종종 일상적인 환자 활동에 시간적 제약을 가한다. 그러한 의료 시간적 제약(MTC)의 위반은 다음의 부족을 초래한다 치료 준수, 건강 악화 및 증가 의료비. 이러한 MTC는 의 약물 사용 지침(DUG)에서 발견된다 환자 교육 자료와 임상 문서 모두. 계산적으로 DUG에서 MTC를 대표하는 것은 환자 중심의 의료 애플리케이션을 발전시킬 것이다 안전한 환자 활동 패턴을 정의하는 데 도움이 됩니다. 우리는 새로운 분류법을 정의한다 DUG에서 발견된 MTC의 수와 새로운 맥락 없는 문법(CFG) 기반을 개발한다 구조화되지 않은 DUG에서 MTC를 계산적으로 나타내는 모델. 또한. N = 836 DUG의 합계 레이블이 지정된 세 개의 새로운 데이터 세트를 릴리스한다 정규화된 MTC를 사용합니다. 우리는 다음을 위한 컨텍스트 내 학습(ICL) 솔루션을 개발한다 DUG에서 발견된 MTC를 자동으로 추출하고 정규화하여 모든 데이터 세트에서 평균 F1 점수 0.62. 마지막으로, 우리는 엄격하게 ICL 모델 성능을 기준 모델과 비교하여 데이터 세트 전반에 걸쳐 조사합니다 MTC 유형, 그리고 심층 오류 분석을 통해. 

 

 

반응형

댓글