Automated speech- and text-based classification of neuropsychiatric conditions in a multidiagnostic setting
Speech patterns have been identified as potential diagnostic markers for neuropsychiatric conditions. However, most studies only compare a single clinical group to healthy controls, whereas clinical practice often requires differentiating between multiple potential diagnoses (multiclass settings). To address this, we assembled a dataset of repeated recordings from 420 participants (67 with major depressive disorder, 106 with schizophrenia and 46 with autism, as well as matched controls), and tested the performance of a range of conventional machine learning models and advanced Transformer models on both binary and multiclass classification, based on voice and text features. While binary models performed comparably to previous research (F1 scores between 0.54-0.75 for autism spectrum disorder, ASD; 0.67-0.92 for major depressive disorder, MDD; and 0.71-0.83 for schizophrenia); when differentiating between multiple diagnostic groups performance decreased markedly (F1 scores between 0.35-0.44 for ASD, 0.57-0.75 for MDD, 0.15-0.66 for schizophrenia, and 0.38-0.52 macro F1). Combining voice and text-based models yielded increased performance, suggesting that they capture complementary diagnostic information. Our results indicate that models trained on binary classification may learn to rely on markers of generic differences between clinical and non-clinical populations, or markers of clinical features that overlap across conditions, rather than identifying markers specific to individual conditions. We provide recommendations for future research in the field, suggesting increased focus on developing larger transdiagnostic datasets that include more fine-grained clinical features, and that can support the development of models that better capture the complexity of neuropsychiatric conditions and naturalistic diagnostic assessment.
음성 패턴은 다음과 같은 잠재적인 진단 마커로 확인되었습니다 신경 정신 질환. 그러나 대부분의 연구는 단 하나만 비교한다 건강한 대조군에 대한 임상 그룹, 반면에 임상 실습은 종종 필요하다 여러 잠재적 진단 간의 구별(모범 클래스 설정). 로. 이를 해결하고, 우리는 420에서 반복되는 기록의 데이터 세트를 조립했다 참가자(중대 우울증 67명, 정신분열증 106명, 46명) 자폐증, 일치된 대조군) 및 성능을 테스트했습니다 전통적인 기계 학습 모델과 고급 트랜스포머 모델의 범위 음성 및 텍스트 기능을 기반으로 하는 이진 및 다중 클래스 분류에 대해 설명합니다. 이진 모델이 이전 연구와 비교하여 수행되는 동안(F1 점수) 자폐 스펙트럼 장애, ASD의 경우 0.54-0.75 사이, 전공의 경우 0.67-0.92 우울증, MDD; 정신분열증의 경우 0.71-0.83); 경우 여러 진단 그룹 간의 차별화 성능 저하 현저하게 (ASD의 경우 F1 점수는 0.35-0.44, MDD의 경우 0.57-0.75, 0.15-0.66 사이이다.) 0.38-0.52 매크로 F1). 음성 및 텍스트 기반 모델 결합 상호 보완적인 것을 포착하는 것을 제안하면서 향상된 성능을 산출했다 진단 정보. 우리의 결과는 이진 분류에 대해 훈련된 모델이 학습할 수 있음을 나타낸다 임상과 비임상 사이의 일반적인 차이를 나타내는 지표에 의존하다 여러 조건에 걸쳐 중복되는 모집단 또는 임상적 특징의 마커, 개별 조건에 특정한 마커를 식별하는 것보다. 제공합니다 그 분야에서 미래 연구를 위한 권고 사항들, 더 많은 초점을 제안한다 보다 세분화된 데이터 세트를 포함하는 대규모 트랜스 진단 데이터 세트 개발 임상적 특징, 그리고 그것은 더 나은 모델의 개발을 지원할 수 있다 신경정신의학적 상태와 자연주의적 상태의 복잡성을 포착하다 진단 평가.
BERT-ERC: Fine-tuning BERT is Enough for Emotion Recognition in Conversation
Previous works on emotion recognition in conversation (ERC) follow a two-step paradigm, which can be summarized as first producing context-independent features via fine-tuning pretrained language models (PLMs) and then analyzing contextual information and dialogue structure information among the extracted features. However, we discover that this paradigm has several limitations. Accordingly, we propose a novel paradigm, i.e., exploring contextual information and dialogue structure information in the fine-tuning step, and adapting the PLM to the ERC task in terms of input text, classification structure, and training strategy. Furthermore, we develop our model BERT-ERC according to the proposed paradigm, which improves ERC performance in three aspects, namely suggestive text, fine-grained classification module, and two-stage training. Compared to existing methods, BERT-ERC achieves substantial improvement on four datasets, indicating its effectiveness and generalization capability. Besides, we also set up the limited resources scenario and the online prediction scenario to approximate real-world scenarios. Extensive experiments demonstrate that the proposed paradigm significantly outperforms the previous one and can be adapted to various scenes.
대화에서 감정 인식(ERC)에 대한 이전 연구는 두 단계를 따른다 문맥에 의존하지 않는 첫 번째 생산으로 요약될 수 있는 패러다임 사전 훈련된 언어 모델(PLM)을 미세 조정한 다음 분석을 통해 기능을 제공합니다 추출된 내용 정보 및 대화 구조 정보 특징들. 그러나 이 패러다임에는 몇 가지 한계가 있음을 발견했다. 따라서, 우리는 새로운 패러다임, 즉 맥락 탐색을 제안한다 미세 조정 단계의 정보 및 대화 구조 정보 입력 텍스트, 분류 측면에서 ERC 작업에 PLM 적용 구조, 그리고 훈련 전략. 또한, 우리는 우리의 모델 BERT-ERC를 개발한다 제안된 패러다임에 따르면, ERC 성능을 세 가지로 향상시킨다 측면, 즉 암시적 텍스트, 세분화된 분류 모듈 및 2단계 훈련. 기존 방법과 비교하여 BERT-ERC는 상당한 성과를 달성한다 효과와 일반화를 나타내는 4개의 데이터 세트에 대한 개선 능력. 게다가, 우리는 또한 제한된 자원 시나리오와 온라인 예측 시나리오를 사용하여 실제 시나리오를 근사화할 수 있습니다. 광범위한 실험은 제안된 패러다임이 상당히 성능이 뛰어나다는 것을 보여준다 다양한 장면에 적응할 수 있습니다.
Prompting Large Language Model for Machine Translation: A Case Study
Research on prompting has shown excellent performance with little or even no supervised training across many tasks. However, prompting for machine translation is still under-explored in the literature. We fill this gap by offering a systematic study on prompting strategies for translation, examining various factors for prompt template and demonstration example selection. We further explore the use of monolingual data and the feasibility of cross-lingual, cross-domain, and sentence-to-document transfer learning in prompting. Extensive experiments with GLM-130B (Zeng et al., 2022) as the testbed show that 1) the number and the quality of prompt examples matter, where using suboptimal examples degenerates translation; 2) several features of prompt examples, such as semantic similarity, show significant Spearman correlation with their prompting performance; yet, none of the correlations are strong enough; 3) using pseudo parallel prompt examples constructed from monolingual data via zero-shot prompting could improve translation; and 4) improved performance is achievable by transferring knowledge from prompt examples selected in other settings. We finally provide an analysis on the model outputs and discuss several problems that prompting still suffers from.
프롬프트에 대한 연구는 거의 또는 심지어 전혀 없는 우수한 성능을 보여주었다 여러 작업에 걸쳐 지도 훈련을 실시했습니다. 그러나 시스템에 대한 프롬프트 번역은 아직 문헌에서 미흡하다. 우리는 이 공백을 메운다 번역 촉진 전략에 대한 체계적인 연구 제공, 검토 신속한 템플릿 및 데모 예제 선택을 위한 다양한 요인. 우리가 단일 언어 데이터의 사용과 실행 가능성을 추가로 탐구한다 교차 언어, 교차 도메인 및 문장 간 전달 학습 재촉하는. GLM-130B에 대한 광범위한 실험(Zeng 외, 2022) 테스트베드는 1) 신속한 사례의 수와 품질이 중요하다는 것을 보여준다, 여기서 차선의 예를 사용하는 것은 번역을 저하시킨다; 2)의 몇 가지 특징 의미론적 유사성과 같은 즉각적인 예는 중요한 스피어맨을 보여준다 그들의 촉진 성과와의 상관관계; 그러나, 어떤 상관관계도 없다 충분히 강하다; 3) 다음으로부터 구성된 유사 병렬 프롬프트 예제를 사용한다 제로샷 프롬프트를 통한 단일 언어 데이터는 번역을 향상시킬 수 있다; 그리고 4) 향상된 성능은 즉각적인 지식을 전달함으로써 달성할 수 있다 다른 설정에서 선택한 예제입니다. 최종적으로 분석을 제공합니다 출력을 모델링하고 프롬프트에 여전히 문제가 있는 몇 가지 문제에 대해 논의합니다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-01-21] 오늘의 자연어처리 (0) | 2023.01.21 |
---|---|
[2023-01-20] 오늘의 자연어처리 (0) | 2023.01.20 |
[2023-01-18] 오늘의 자연어처리 (0) | 2023.01.18 |
[2023-01-17] 오늘의 자연어처리 (0) | 2023.01.17 |
[2023-01-16] 오늘의 자연어처리 (0) | 2023.01.16 |
댓글