본문 바로가기
오늘의 자연어 처리

[2023-03-06] 오늘의 자연어처리

by 지환이아빠 2023. 3. 6.
반응형

Language-Universal Adapter Learning with Knowledge Distillation for End-to-End Multilingual Speech Recognition

 

In this paper, we propose a language-universal adapter learning framework based on a pre-trained model for end-to-end multilingual automatic speech recognition (ASR). For acoustic modeling, the wav2vec 2.0 pre-trained model is fine-tuned by inserting language-specific and language-universal adapters. An online knowledge distillation is then used to enable the language-universal adapters to learn both language-specific and universal features. The linguistic information confusion is also reduced by leveraging language identifiers (LIDs). With LIDs we perform a position-wise modification on the multi-head attention outputs. In the inference procedure, the language-specific adapters are removed while the language-universal adapters are kept activated. The proposed method improves the recognition accuracy and addresses the linear increase of the number of adapters' parameters with the number of languages in common multilingual ASR systems. Experiments on the BABEL dataset confirm the effectiveness of the proposed framework. Compared to the conventional multilingual model, a 3.3% absolute error rate reduction is achieved. The code is available at: this https URL.

 

본 논문에서는 언어-범용 어댑터 학습 프레임워크를 제안한다 엔드 투 엔드 다국어 자동 음성을 위한 사전 훈련된 모델을 기반으로 합니다 인식(ASR). 음향 모델링의 경우 wav2vec 2.0 사전 훈련된 모델은 다음과 같다 언어별 및 언어 범용 어댑터를 삽입하여 미세 조정할 수 있습니다. 안 온라인 지식 증류는 언어 보편화를 가능하게 하기 위해 사용된다 어댑터를 사용하여 언어별 기능과 범용 기능을 모두 학습할 수 있습니다. 언어학자 정보의 혼란은 또한 언어 식별자를 활용함으로써 감소된다 (LIDs). LID를 사용하여 멀티헤드에 대한 위치별 수정을 수행합니다 주의 출력. 추론 절차에서 언어별 어댑터는 언어 범용 어댑터가 활성화된 상태에서 제거됩니다. 그 제안된 방법은 인식 정확도를 향상시키고 선형을 다룬다 언어 수에 따라 어댑터의 매개 변수 수가 증가합니다 일반적인 다국어 ASR 시스템. BABEL 데이터 세트에 대한 실험은 다음을 확인한다 제안된 프레임워크의 효과. 기존과 비교하여 다국어 모델, 3.3%의 절대 오류율 감소가 달성된다. 코드 다음 사이트에서 사용할 수 있습니다. 이 https URL. 

 

 

Document Provenance and Authentication through Authorship Classification

 

Style analysis, which is relatively a less explored topic, enables several interesting applications. For instance, it allows authors to adjust their writing style to produce a more coherent document in collaboration. Similarly, style analysis can also be used for document provenance and authentication as a primary step. In this paper, we propose an ensemble-based text-processing framework for the classification of single and multi-authored documents, which is one of the key tasks in style analysis. The proposed framework incorporates several state-of-the-art text classification algorithms including classical Machine Learning (ML) algorithms, transformers, and deep learning algorithms both individually and in merit-based late fusion. For the merit-based late fusion, we employed several weight optimization and selection methods to assign merit-based weights to the individual text classification algorithms. We also analyze the impact of the characters on the task that are usually excluded in NLP applications during pre-processing by conducting experiments on both clean and un-clean data. The proposed framework is evaluated on a large-scale benchmark dataset, significantly improving performance over the existing solutions.

 

상대적으로 덜 탐구된 주제인 스타일 분석은 몇 가지를 가능하게 한다 흥미로운 응용 프로그램. 예를 들어, 그것은 작가들이 그들의 것을 조정할 수 있게 해준다 협업을 통해 보다 일관성 있는 문서를 작성하는 스타일. 유사하게, 스타일 분석은 또한 문서 출처 및 인증을 위해 사용될 수 있습니다 일차 단계. 본 논문에서는 앙상블 기반 텍스트 처리를 제안한다 단일 문서와 다중 문서의 분류를 위한 프레임워크 는 스타일 분석의 핵심 작업 중 하나입니다. 제안된 프레임워크는 다음을 포함한다 고전을 포함한 몇 가지 최첨단 텍스트 분류 알고리즘 머신러닝(ML) 알고리즘, 변압기, 딥러닝 알고리즘 개별적으로 그리고 성과 기반의 늦은 융합에서. 성과에 기반한 늦은 시간 융합, 우리는 할당하기 위해 몇 가지 무게 최적화와 선택 방법을 사용했다 개별 텍스트 분류 알고리즘에 대한 성능 기반 가중치. 우리도 일반적으로 제외되는 작업에 대한 캐릭터의 영향을 분석합니다 두 가지 클린에 대한 실험을 수행하여 전처리 중 NLP 적용 데이터를 치료하지 않습니다. 제안된 프레임워크는 대규모로 평가된다 벤치마크 데이터셋, 기존에 비해 성능이 크게 향상됨 해결책. 

 

 

Computational Language Acquisition with Theory of Mind

 

Unlike current state-of-the-art language models, young children actively acquire language through interactions with their surrounding environment and caretakers. One mechanism that has been argued to be critical to language learning is the ability to infer the mental states of other agents in social environments, coined Theory of Mind (ToM) by Premack & Woodruff (1978). Drawing inspiration from the modern operationalized versions of ToM implemented in Rabinowitz et al. (2018) and Zhu et al. (2021), we build language-learning agents equipped with ToM, and measure its effects on the learning process. We model ToM by giving the speaker agent an internal listener model that is trained alongside the speaker and used to rerank potential utterances. We experiment with varying task difficulty, hypothesizing that models will acquire more complex language to adapt to stronger environmental pressures. We find that training speakers with a highly weighted ToM listener component leads to performance gains in our image referential game setting. We also find some evidence that increasing task difficulty in the training process results in more fluent and precise utterances in evaluation. This suggests the potential utility of further incorporating ToM, as well as other insights from child language acquisition, into computational models of language acquisition.

 

현재의 최첨단 언어 모델과 달리, 어린 아이들은 적극적으로 그들의 주변 환경과의 상호작용을 통해 언어를 습득한다 간병인. 언어에 중요하다고 주장된 하나의 메커니즘 학습은 사회에서 다른 에이전트의 정신 상태를 추론하는 능력이다 환경, Premack & Woodruff (1978)에 의해 만들어진 마음의 이론 (ToM). 그림그리기 최신 운영 버전의 ToM에서 영감을 얻었습니다 Rabinowitz 등(2018)과 Zhu 등(2021), 우리는 언어 학습을 구축한다 ToM이 장착된 에이전트와 학습 프로세스에 미치는 영향을 측정합니다. 우리가 스피커 에이전트에게 내부 청취자 모델을 제공하여 ToM을 모델링합니다 화자와 함께 훈련을 받고 잠재적인 발언의 순위를 재조정하곤 했다. 우리가 다양한 작업 난이도로 실험, 모델이 획득할 것이라는 가설 더 강한 환경 압력에 적응하기 위한 더 복잡한 언어. 우리는 발견한다 고도로 가중치가 부여된 ToM 청취자 구성요소로 스피커를 교육하는 것은 다음과 같다 이미지 참조 게임 설정에서 성능 향상. 우리는 또한 약간을 발견한다 훈련 과정에서 증가하는 과제 난이도가 다음과 같은 결과를 초래한다는 증거 평가에서 더 유창하고 정확한 발언. 이것은 잠재력을 시사한다 어린이의 다른 통찰력뿐만 아니라 ToM을 추가로 통합하는 유용성 언어 습득, 언어 습득의 계산 모델로. 

 

 

반응형

댓글