본문 바로가기
오늘의 자연어 처리

[2022-11-04] 오늘의 자연어처리

by 지환이아빠 2022. 11. 4.
반응형

M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for Multilingual Speech to Image Retrieval

 

This work investigates the use of large-scale, pre-trained models (CLIP and HuBERT) for multilingual speech-image retrieval. For non-English speech-image retrieval, we outperform the current state-of-the-art performance by a wide margin when training separate models for each language, and show that a single model which processes speech in all three languages still achieves retrieval scores comparable with the prior state-of-the-art. We identify key differences in model behavior and performance between English and non-English settings, presumably attributable to the English-only pre-training of CLIP and HuBERT. Finally, we show that our models can be used for mono- and cross-lingual speech-text retrieval and cross-lingual speech-speech retrieval, despite never having seen any parallel speech-text or speech-speech data during training.

 

이 작업은 사전 훈련된 대규모 모델(CLIP 및 다국어 음성 이미지 검색을 위한 HuBERT). 비영어 음성 이미지용 검색, 우리는 현재 최첨단 성능을 크게 능가한다. 각 언어에 대해 별도의 모델을 교육할 때 여백, 그리고 단일 모델을 보여준다. 세 언어 모두에서 음성을 처리하는 모델은 여전히 검색을 달성한다. 이전의 최첨단 기술과 동등한 점수 주요 차이점을 식별합니다. 영어와 영어가 아닌 설정 사이의 모델 동작 및 성능에서, 아마도 CLIP와 HuBERT의 영어 전용 사전 훈련 때문일 것이다. 마지막으로, 우리는 우리의 모델이 단일 언어 및 교차 언어에 사용될 수 있음을 보여준다. 음성 텍스트 검색 및 언어 간 음성 검색 훈련 중에 병렬 음성 텍스트 또는 음성 인식 데이터를 본 적이 있습니다. 

 

 

Internal Language Model Estimation based Adaptive Language Model Fusion for Domain Adaptation

 

ASR model deployment environment is ever-changing, and the incoming speech can be switched across different domains during a session. This brings a challenge for effective domain adaptation when only target domain text data is available, and our objective is to obtain obviously improved performance on the target domain while the performance on the general domain is less undermined. In this paper, we propose an adaptive LM fusion approach called internal language model estimation based adaptive domain adaptation (ILME-ADA). To realize such an ILME-ADA, an interpolated log-likelihood score is calculated based on the maximum of the scores from the internal LM and the external LM (ELM) respectively. We demonstrate the efficacy of the proposed ILME-ADA method with both RNN-T and LAS modeling frameworks employing neural network and n-gram LMs as ELMs respectively on two domain specific (target) test sets. The proposed method can achieve significantly better performance on the target test sets while it gets minimal performance degradation on the general test set, compared with both shallow and ILME-based LM fusion methods.

 

ASR 모델 배포 환경은 끊임없이 변화하고 있으며, 수신 음성 세션 중에 서로 다른 도메인 간에 전환할 수 있습니다. 이것은 을 가져온다. 대상 도메인 텍스트 데이터만 다음과 같은 경우 효과적인 도메인 적응을 위한 도전. 이용 가능하고, 우리의 목표는 명백히 향상된 성능을 얻는 것이다. 일반 도메인의 성능이 덜 저하되는 반면 대상 도메인. 본 논문에서, 우리는 내부라고 불리는 적응형 LM 융합 접근법을 제안한다. 언어 모델 추정 기반 적응 도메인 적응(ILME-ADA) 로. 그러한 ILME-ADA를 실현하고, 보간된 로그 우도 점수가 계산된다. 내부 LM과 외부 LM의 최대 점수에 기초한다. (ELM). 우리는 제안된 ILME-ADA 방법의 효과를 입증한다. 신경망과 n-gram을 사용하는 RNN-T 및 LAS 모델링 프레임워크와 함께 LM은 두 개의 도메인별(대상) 테스트 세트에서 각각 ELM으로 사용된다. 그 제안된 방법은 목표 테스트에서 훨씬 더 나은 성능을 달성할 수 있다. 일반 테스트 세트에서 성능 저하가 최소화되는 동안 설정, ILME 기반 LM 융합 방법 및 얕은 LM 융합 방법과 비교합니다. 

 

 

Characterizing Intrinsic Compositionality In Transformers With Tree Projections

 

When trained on language data, do transformers learn some arbitrary computation that utilizes the full capacity of the architecture or do they learn a simpler, tree-like computation, hypothesized to underlie compositional meaning systems like human languages? There is an apparent tension between compositional accounts of human language understanding, which are based on a restricted bottom-up computational process, and the enormous success of neural models like transformers, which can route information arbitrarily between different parts of their input. One possibility is that these models, while extremely flexible in principle, in practice learn to interpret language hierarchically, ultimately building sentence representations close to those predictable by a bottom-up, tree-structured model. To evaluate this possibility, we describe an unsupervised and parameter-free method to \emph{functionally project} the behavior of any transformer into the space of tree-structured networks. Given an input sentence, we produce a binary tree that approximates the transformer's representation-building process and a score that captures how "tree-like" the transformer's behavior is on the input. While calculation of this score does not require training any additional models, it provably upper-bounds the fit between a transformer and any tree-structured approximation. Using this method, we show that transformers for three different tasks become more tree-like over the course of training, in some cases unsupervisedly recovering the same trees as supervised parsers. These trees, in turn, are predictive of model behavior, with more tree-like models generalizing better on tests of compositional generalization.

 

언어 데이터에 대한 교육을 받을 때, 트랜스포머는 어떤 자의적인 것을 학습합니까? 아키텍처의 전체 용량을 활용하는 계산 또는 그 방법 더 단순한 나무와 같은 계산을 배우며, 구성력의 기초가 되는 가설을 세운다. 인간 언어와 같은 시스템을 의미하는가? 사이에 명백한 긴장이 있다. 인간 언어 이해에 대한 구성적 설명들, 그것은 a에 기초한다. 제한된 상향식 계산 과정과 신경의 엄청난 성공 변압기와 같은 모델은 정보를 임의로 라우팅할 수 있다. 입력의 다른 부분들. 한 가지 가능성은 이 모델들이 한편 원칙적으로 매우 유연하고, 실제로 언어 해석을 배운다. 계층적으로, 궁극적으로 그것들에 가까운 문장 표현을 구축한다. 상향식 트리 구조 모델로 예측할 수 있습니다. 이를 평가하기 위해 가능성, 우리는 감독되지 않고 매개 변수가 없는 방법을 설명한다. 모든 변압기의 동작을 공간 안에 투영한다. 트리 구조화된 네트워크 입력 문장이 주어지면, 우리는 이진 트리를 만든다. 변압기의 표현 형성 과정과 점수에 근접한다. 그것은 입력에서 변압기의 동작이 얼마나 "나무와 같은"지를 포착한다. 하는 동안에 이 점수의 계산은 어떤 추가 모델도 훈련시킬 필요가 없습니다. 변압기와 나무 구조 사이의 적합성을 입증할 수 있다. 근사치 이 방법을 사용하여, 우리는 세 가지 다른 변압기에 대해 어떤 경우에는 훈련 과정에서 작업이 더 나무와 같이 됩니다. 감독받지 않은 파서와 동일한 트리를 복구합니다. 이 나무들은, 안에 턴, 더 많은 트리 같은 모델이 일반화되어 모델 동작을 예측합니다. 구성 일반화의 테스트에서 더 낫습니다. 

 

 

반응형

댓글