Automatic Severity Assessment of Dysarthric speech by using Self-supervised Model with Multi-task Learning
Automatic assessment of dysarthric speech is essential for sustained treatments and rehabilitation. However, obtaining atypical speech is challenging, often leading to data scarcity issues. To tackle the problem, we propose a novel automatic severity assessment method for dysarthric speech, using the self-supervised model in conjunction with multi-task learning. Wav2vec 2.0 XLS-R is jointly trained for two different tasks: severity level classification and an auxilary automatic speech recognition (ASR). For the baseline experiments, we employ hand-crafted features such as eGeMaps and linguistic features, and SVM, MLP, and XGBoost classifiers. Explored on the Korean dysarthric speech QoLT database, our model outperforms the traditional baseline methods, with a relative percentage increase of 4.79% for classification accuracy. In addition, the proposed model surpasses the model trained without ASR head, achieving 10.09% relative percentage improvements. Furthermore, we present how multi-task learning affects the severity classification performance by analyzing the latent representations and regularization effect.
이관절 언어 장애의 자동 평가는 지속되기 위해 필수적이다. 치료와 재활. 하지만, 전형적인 연설문을 얻는 것은 종종 데이터 부족 문제로 이어집니다. 그 문제를 해결하기 위해, 우리는 이관절 언어 장애에 대한 새로운 자동 심각도 평가 방법을 제안합니다. 다중 작업 학습과 함께 자체 지도 모델을 사용합니다. Wav2vec 2.0 XLS-R은 두 가지 다른 작업에 대해 공동으로 훈련된다: 심각도 수준 분류 및 보조 자동 음성 인식(ASR)입니다. 를 위해 기본 실험, 우리는 eGeMaps와 같은 수작업 기능을 사용한다. 언어 기능, SVM, MLP 및 XGBoost 분류기를 사용할 수 있습니다. 에서 탐색했습니다. 한국어 이질 음성 QoLT 데이터베이스, 우리 모델은 전통적인 것보다 성능이 우수합니다. 기준 방법, 4.79%의 상대적인 증가율 분류 정확도 게다가, 제안된 모델은 모델을 능가한다. ASR 헤드가 없는 교육을 통해 10.09%의 상대적 백분율 개선을 달성했습니다. 또한, 우리는 다중 작업 학습이 심각도에 어떻게 영향을 미치는지 제시한다. 잠재적 표현 분석을 통한 분류 성능 정규화 효과
Exploring Predictive Uncertainty and Calibration in NLP: A Study on the Impact of Method & Data Scarcity
We investigate the problem of determining the predictive confidence (or, conversely, uncertainty) of a neural classifier through the lens of low-resource languages. By training models on sub-sampled datasets in three different languages, we assess the quality of estimates from a wide array of approaches and their dependence on the amount of available data. We find that while approaches based on pre-trained models and ensembles achieve the best results overall, the quality of uncertainty estimates can surprisingly suffer with more data. We also perform a qualitative analysis of uncertainties on sequences, discovering that a model's total uncertainty seems to be influenced to a large degree by its data uncertainty, not model uncertainty. All model implementations are open-sourced in a software package.
우리는 예측 신뢰도를 결정하는 문제를 조사한다(또는, 반대로, 불확실성)의 렌즈를 통한 신경 분류기의. 저자원 언어 하위 샘플링된 데이터 세트에 대한 모델을 3가지로 교육합니다. 다양한 언어, 우리는 광범위한 범위의 추정치의 품질을 평가한다. 접근 방식과 사용 가능한 데이터 양에 대한 의존성. 을 발견한다. 사전 훈련된 모델과 앙상블을 기반으로 한 접근법이 최고의 성과를 달성한다. 전반적으로, 불확실성 추정의 품질은 놀랍게도 악화될 수 있다. 더 많은 데이터를 제공합니다. 우리는 또한 불확실성에 대한 질적 분석을 수행한다. 시퀀스, 모델의 전체 불확실성이 영향을 받는 것으로 보인다는 것을 발견함 모델 불확실성이 아니라 데이터 불확실성에 의해 상당 부분. 전모델 구현은 소프트웨어 패키지에서 개방되어 있습니다.
Automatic Severity Assessment of Dysarthric speech by using Self-supervised Model with Multi-task Learning
Automatic assessment of dysarthric speech is essential for sustained treatments and rehabilitation. However, obtaining atypical speech is challenging, often leading to data scarcity issues. To tackle the problem, we propose a novel automatic severity assessment method for dysarthric speech, using the self-supervised model in conjunction with multi-task learning. Wav2vec 2.0 XLS-R is jointly trained for two different tasks: severity level classification and an auxilary automatic speech recognition (ASR). For the baseline experiments, we employ hand-crafted features such as eGeMaps and linguistic features, and SVM, MLP, and XGBoost classifiers. Explored on the Korean dysarthric speech QoLT database, our model outperforms the traditional baseline methods, with a relative percentage increase of 4.79% for classification accuracy. In addition, the proposed model surpasses the model trained without ASR head, achieving 10.09% relative percentage improvements. Furthermore, we present how multi-task learning affects the severity classification performance by analyzing the latent representations and regularization effect.
이관절 언어 장애의 자동 평가는 지속되기 위해 필수적이다. 치료와 재활. 하지만, 전형적인 연설문을 얻는 것은 종종 데이터 부족 문제로 이어집니다. 그 문제를 해결하기 위해, 우리는 이관절 언어 장애에 대한 새로운 자동 심각도 평가 방법을 제안합니다. 다중 작업 학습과 함께 자체 지도 모델을 사용합니다. Wav2vec 2.0 XLS-R은 두 가지 다른 작업에 대해 공동으로 훈련된다: 심각도 수준 분류 및 보조 자동 음성 인식(ASR)입니다. 를 위해 기본 실험, 우리는 eGeMaps와 같은 수작업 기능을 사용한다. 언어 기능, SVM, MLP 및 XGBoost 분류기를 사용할 수 있습니다. 에서 탐색했습니다. 한국어 이질 음성 QoLT 데이터베이스, 우리 모델은 전통적인 것보다 성능이 우수합니다. 기준 방법, 4.79%의 상대적인 증가율 분류 정확도 게다가, 제안된 모델은 모델을 능가한다. ASR 헤드가 없는 교육을 통해 10.09%의 상대적 백분율 개선을 달성했습니다. 또한, 우리는 다중 작업 학습이 심각도에 어떻게 영향을 미치는지 제시한다. 잠재적 표현 분석을 통한 분류 성능 정규화 효과
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-11-01] 오늘의 자연어처리 (0) | 2022.11.01 |
---|---|
[2022-10-31] 오늘의 자연어처리 (0) | 2022.10.31 |
[2022-10-29] 오늘의 자연어처리 (0) | 2022.10.29 |
[2022-10-28] 오늘의 자연어처리 (0) | 2022.10.28 |
[2022-10-27] 오늘의 자연어처리 (0) | 2022.10.27 |
댓글