본문 바로가기
오늘의 자연어 처리

[2023-03-05] 오늘의 자연어처리

by 지환이아빠 2023. 3. 5.
반응형

Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages

 

We introduce the Universal Speech Model (USM), a single large model that performs automatic speech recognition (ASR) across 100+ languages. This is achieved by pre-training the encoder of the model on a large unlabeled multilingual dataset of 12 million (M) hours spanning over 300 languages, and fine-tuning on a smaller labeled dataset. We use multilingual pre-training with random-projection quantization and speech-text modality matching to achieve state-of-the-art performance on downstream multilingual ASR and speech-to-text translation tasks. We also demonstrate that despite using a labeled training set 1/7-th the size of that used for the Whisper model, our model exhibits comparable or better performance on both in-domain and out-of-domain speech recognition tasks across many languages.

 

우리는 다음과 같은 단일 대형 모델인 범용 음성 모델(USM)을 소개한다 는 100개 이상의 언어에 걸쳐 자동 음성 인식(ASR)을 수행합니다. 이것은 레이블이 없는 대규모에서 모델의 인코더를 사전 교육함으로써 달성된다 300개 이상의 언어에 걸친 1200만 시간의 다국어 데이터 세트 레이블이 지정된 더 작은 데이터 세트에서 미세 조정합니다. 다음과 같은 다국어 사전 교육을 사용합니다 무작위 투영 양자화 및 달성하기 위한 음성 텍스트 양식 일치 다운스트림 다국어 ASR 및 음성-텍스트에 대한 최첨단 성능 번역 작업. 또한 레이블링된 교육을 사용했음에도 불구하고 Whisper 모델에 사용되는 크기의 1/7을 설정합니다. 우리 모델은 전시합니다 도메인 내 및 도메인 외부 음성 모두에서 동등하거나 더 나은 성능 제공 여러 언어에 걸쳐 인식 작업을 수행합니다. 

 

 

Language-Universal Adapter Learning with Knowledge Distillation for End-to-End Multilingual Speech Recognition

 

In this paper, we propose a language-universal adapter learning framework based on a pre-trained model for end-to-end multilingual automatic speech recognition (ASR). For acoustic modeling, the wav2vec 2.0 pre-trained model is fine-tuned by inserting language-specific and language-universal adapters. An online knowledge distillation is then used to enable the language-universal adapters to learn both language-specific and universal features. The linguistic information confusion is also reduced by leveraging language identifiers (LIDs). With LIDs we perform a position-wise modification on the multi-head attention outputs. In the inference procedure, the language-specific adapters are removed while the language-universal adapters are kept activated. The proposed method improves the recognition accuracy and addresses the linear increase of the number of adapters' parameters with the number of languages in common multilingual ASR systems. Experiments on the BABEL dataset confirm the effectiveness of the proposed framework. Compared to the conventional multilingual model, a 3.3% absolute error rate reduction is achieved. The code is available at: this https URL.

 

본 논문에서는 언어-범용 어댑터 학습 프레임워크를 제안한다 엔드 투 엔드 다국어 자동 음성을 위한 사전 훈련된 모델을 기반으로 합니다 인식(ASR). 음향 모델링의 경우 wav2vec 2.0 사전 훈련된 모델은 다음과 같다 언어별 및 언어 범용 어댑터를 삽입하여 미세 조정할 수 있습니다. 안 온라인 지식 증류는 언어 보편화를 가능하게 하기 위해 사용된다 어댑터를 사용하여 언어별 기능과 범용 기능을 모두 학습할 수 있습니다. 언어학자 정보의 혼란은 또한 언어 식별자를 활용함으로써 감소된다 (LIDs). LID를 사용하여 멀티헤드에 대한 위치별 수정을 수행합니다 주의 출력. 추론 절차에서 언어별 어댑터는 언어 범용 어댑터가 활성화된 상태에서 제거됩니다. 그 제안된 방법은 인식 정확도를 향상시키고 선형을 다룬다 언어 수에 따라 어댑터의 매개 변수 수가 증가합니다 일반적인 다국어 ASR 시스템. BABEL 데이터 세트에 대한 실험은 다음을 확인한다 제안된 프레임워크의 효과. 기존과 비교하여 다국어 모델, 3.3%의 절대 오류율 감소가 달성된다. 코드 다음 사이트에서 사용할 수 있습니다. 이 https URL. 

 

 

Denoising-based UNMT is more robust to word-order divergence than MASS-based UNMT

 

We aim to investigate whether UNMT approaches with self-supervised pre-training are robust to word-order divergence between language pairs. We achieve this by comparing two models pre-trained with the same self-supervised pre-training objective. The first model is trained on language pairs with different word-orders, and the second model is trained on the same language pairs with source language re-ordered to match the word-order of the target language. Ideally, UNMT approaches which are robust to word-order divergence should exhibit no visible performance difference between the two configurations. In this paper, we investigate two such self-supervised pre-training based UNMT approaches, namely Masked Sequence-to-Sequence Pre-Training, (MASS) (which does not have shuffling noise) and Denoising AutoEncoder (DAE), (which has shuffling noise). We experiment with five English$\rightarrow$Indic language pairs, i.e., en-hi, en-bn, en-gu, en-kn, and en-ta) where word-order of the source language is SVO (Subject-Verb-Object), and the word-order of the target languages is SOV (Subject-Object-Verb). We observed that for these language pairs, DAE-based UNMT approach consistently outperforms MASS in terms of translation accuracies. Moreover, bridging the word-order gap using reordering improves the translation accuracy of MASS-based UNMT models, while it cannot improve the translation accuracy of DAE-based UNMT models. This observation indicates that DAE-based UNMT is more robust to word-order divergence than MASS-based UNMT. Word-shuffling noise in DAE approach could be the possible reason for the approach being robust to word-order divergence.

 

우리는 UNMT가 자체 감독으로 접근하는지 여부를 조사하는 것을 목표로 한다 사전 훈련은 언어 쌍 간의 단어 순서 차이에 강력하다. 우리가 사전 훈련된 두 모델을 동일한 자체 감독 모델과 비교하여 이를 달성한다 사전 훈련 목표. 첫 번째 모델은 다음과 같은 언어 쌍에 대해 훈련된다 다른 어순, 그리고 두 번째 모델은 같은 언어로 훈련된다 대상의 어순과 일치하도록 정렬된 소스 언어와 쌍 언어. 이상적으로, 단어 순서 분산에 강력한 UNMT 접근법 둘 사이에 가시적인 성능 차이를 나타내지 않아야 한다 구성. 본 논문에서, 우리는 그러한 자체 감독된 두 가지를 조사한다 사전 훈련 기반 UNMT 접근법, 즉 Masked Sequence-to-Sequence 사전 교육, (MASS)(흔들림 소음이 없는) 및 노이즈 제거 자동 인코더(DAE), (흔들림 소음이 있음). 우리는 5개의 영어 $\rightarrow$로 실험한다언어 쌍을 표시합니다. en-hi, en-bn, en-gu, en-kn 및 en-ta) 여기서 소스 언어의 어순 SVO(Subject-Verb-Object)이며 대상 언어의 어순은 SOV입니다 (제목-목적어-동사). 우리는 이러한 언어 쌍에 대해 DAE 기반이라는 것을 관찰했다 UNMT 접근법은 번역 정확도 측면에서 MASS를 지속적으로 능가한다. 게다가, 재정렬을 사용하여 단어 순서 격차를 해소하면 번역이 향상된다 MASS 기반 UNMT 모델의 정확도는 향상시킬 수 없지만 DAE 기반 UNMT 모델의 정확도. 이 관찰은 DAE 기반의 UNMT는 MASS 기반 UNMT보다 어순 발산에 더 강하다. DAE 접근법에서 단어를 흔드는 소음은 다음과 같은 가능한 이유일 수 있다 어순 차이에 강력한 접근법. 

 

 

반응형

댓글