본문 바로가기
오늘의 자연어 처리

[2023-02-23] 오늘의 자연어처리

by 지환이아빠 2023. 2. 23.
반응형

UML: A Universal Monolingual Output Layer for Multilingual ASR

 

Word-piece models (WPMs) are commonly used subword units in state-of-the-art end-to-end automatic speech recognition (ASR) systems. For multilingual ASR, due to the differences in written scripts across languages, multilingual WPMs bring the challenges of having overly large output layers and scaling to more languages. In this work, we propose a universal monolingual output layer (UML) to address such problems. Instead of one output node for only one WPM, UML re-associates each output node with multiple WPMs, one for each language, and results in a smaller monolingual output layer shared across languages. Consequently, the UML enables to switch in the interpretation of each output node depending on the language of the input speech. Experimental results on an 11-language voice search task demonstrated the feasibility of using UML for high-quality and high-efficiency multilingual streaming ASR.

 

워드피스 모델(WPM)은 최첨단 기술에서 일반적으로 사용되는 하위 단어 단위이다 단대단 자동 음성 인식(ASR) 시스템. 다국어 ASR의 경우, 언어 간에 작성된 스크립트의 차이로 인해 다국어 WPM 지나치게 큰 출력 계층을 보유하고 더 많은 계층으로 확장해야 하는 문제를 야기합니다 언어들. 본 연구에서는 범용 단일 언어 출력 계층(UML)을 제안한다 그러한 문제들을 해결하기 위해. 하나의 출력 노드 대신 하나의 WPM, UML 각 출력 노드를 언어별로 하나씩 여러 WPM과 다시 연결합니다 따라서 언어 간에 공유되는 단일 언어 출력 계층이 더 작아집니다. 결과적으로, UML은 각 출력의 해석을 전환할 수 있습니다 노드는 입력 음성의 언어에 따라 달라집니다. 에 대한 실험 결과 11개 언어 음성 검색 과제는 다음을 위해 UML을 사용할 수 있는 가능성을 입증했다 고품질 및 고효율 다국어 스트리밍 ASR. 

 

 

Improving Contextual Spelling Correction by External Acoustics Attention and Semantic Aware Data Augmentation

 

We previously proposed contextual spelling correction (CSC) to correct the output of end-to-end (E2E) automatic speech recognition (ASR) models with contextual information such as name, place, etc. Although CSC has achieved reasonable improvement in the biasing problem, there are still two drawbacks for further accuracy improvement. First, due to information limitation in text only hypothesis or weak performance of ASR model on rare domains, the CSC model may fail to correct phrases with similar pronunciation or anti-context cases where all biasing phrases are not present in the utterance. Second, there is a discrepancy between the training and inference of CSC. The bias list in training is randomly selected but in inference there may be more similarity between ground truth phrase and other phrases. To solve above limitations, in this paper we propose an improved non-autoregressive (NAR) spelling correction model for contextual biasing in E2E neural transducer-based ASR systems to improve the previous CSC model from two perspectives: Firstly, we incorporate acoustics information with an external attention as well as text hypotheses into CSC to better distinguish target phrase from dissimilar or irrelevant phrases. Secondly, we design a semantic aware data augmentation schema in training phrase to reduce the mismatch between training and inference to further boost the biasing accuracy. Experiments show that the improved method outperforms the baseline ASR+Biasing system by as much as 20.3% relative name recall gain and achieves stable improvement compared to the previous CSC method over different bias list name coverage ratio.

 

우리는 이전에 상황별 맞춤법 수정(CSC)을 제안했다 엔드 투 엔드(E2E) 자동 음성 인식(ASR) 모델의 출력 이름, 장소 등과 같은 상황에 맞는 정보. CSC가 달성했음에도 불구하고 편향 문제의 합리적인 개선, 여전히 두 가지 단점이 있다 정확도를 더욱 향상시킬 수 있습니다. 첫째, 텍스트의 정보 제한으로 인해 희귀 도메인에 대한 ASR 모델의 가설 또는 약한 성능, CSC 모델 유사한 발음이나 반독점 사례가 있는 문구를 수정하지 못할 수 있습니다 모든 편향된 문구가 발언에 존재하지 않는 곳. 둘째로, 다음이 있다 CSC의 훈련과 추론 사이의 불일치. 의 편향 목록 훈련은 무작위로 선택되지만 추론에는 더 많은 유사성이 있을 수 있다 기본적인 진실 문구와 다른 문구 사이에. 위의 한계를 해결하려면 본 논문에서는 개선된 비자동 회귀(NAR) 철자 수정을 제안한다 E2E 신경 변환기 기반 ASR 시스템의 상황별 편향 모델 두 가지 관점에서 이전 CSC 모델을 개선합니다: 첫째로, 우리는 통합한다 텍스트 가설뿐만 아니라 외부의 주의를 받는 음향 정보 대상 구문을 유사하거나 관련이 없는 것과 더 잘 구별하기 위해 CSC로 구. 둘째로, 우리는 의미 인식 데이터 확대 스키마를 설계한다 훈련과 추론 사이의 불일치를 줄이기 위한 훈련 문구 바이어싱 정확도를 더욱 향상시킵니다. 실험 결과 개선된 방법이 기준 ASR+Biasing 시스템을 20.3%의 상대적 이름으로 능가합니다 이전 CSC 방법에 비해 안정적인 개선을 달성하고 게인을 리콜합니다 다른 편향 목록 이름 범위 비율에 대해. 

 

 

Data Augmentation for Neural NLP

 

Data scarcity is a problem that occurs in languages and tasks where we do not have large amounts of labeled data but want to use state-of-the-art models. Such models are often deep learning models that require a significant amount of data to train. Acquiring data for various machine learning problems is accompanied by high labeling costs. Data augmentation is a low-cost approach for tackling data scarcity. This paper gives an overview of current state-of-the-art data augmentation methods used for natural language processing, with an emphasis on methods for neural and transformer-based models. Furthermore, it discusses the practical challenges of data augmentation, possible mitigations, and directions for future research.

 

데이터 부족은 우리가 하지 않는 언어와 작업에서 발생하는 문제이다 많은 양의 레이블링된 데이터를 가지고 있지만 최첨단 모델을 사용하기를 원합니다. 그러한 모델은 종종 상당한 양의 것을 필요로 하는 딥 러닝 모델이다 훈련할 데이터. 다양한 기계 학습 문제에 대한 데이터를 얻는 것은 높은 라벨링 비용을 수반합니다. 데이터 증가는 경제적인 접근 방식입니다 데이터 부족 문제를 해결하기 위해. 이 문서는 전류의 개요를 제공합니다 자연어에 사용되는 최첨단 데이터 확대 방법 신경 및 변압기 기반 방법에 중점을 둔 처리 모델들. 게다가, 그것은 데이터의 실제적인 도전들을 논한다 증강, 가능한 완화 및 향후 연구를 위한 방향. 

 

 

반응형

댓글