본문 바로가기
오늘의 자연어 처리

[2022-11-16] 오늘의 자연어처리

by 지환이아빠 2022. 11. 16.
반응형

MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets

 

In this paper, we provide a new perspective on self-supervised speech models from how the self-training targets are obtained. We generalize the targets extractor into Offline Targets Extractor (Off-TE) and Online Targets Extractor (On-TE), without caring about specific pretext tasks. Based on this, we propose a new multi-tasking learning framework for self-supervised learning, MT4SSL, which stands for Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets. MT4SSL refers to two typical models, HuBERT and data2vec, which use the K-means algorithm as an Off-TE and a teacher network without gradients as an On-TE, respectively. Our model outperforms previous SSL methods by nontrivial margins on the LibriSpeech benchmark, and is comparable to or even better than the best-performing models with no need for that much data. Furthermore, we find that using both Off-TE and On-TE results in better convergence in the pre-training phase. With both effectiveness and efficiency, we think that doing multi-task learning on self-supervised speech models from our perspective is a promising trend.

 

본 논문에서, 우리는 자체 감독된 음성 모델에 대한 새로운 관점을 제공한다. 자기 훈련 목표를 얻는 방법으로부터. 우리는 목표를 일반화한다. 오프라인 대상 추출기(Off-TE) 및 온라인 대상 추출기로 추출기 (On-TE), 특정 핑계 작업에 신경 쓰지 않고. 이를 바탕으로, 우리는 제안한다. 자기 지도 학습을 위한 새로운 멀티태스킹 학습 프레임워크인 MT4SSL, 그것은 자기 지도 음성 표현 학습을 강화하는 것을 의미한다. 여러 대상을 통합하는 중입니다. MT4SSL은 HuBERT와 data2vec, K-평균 알고리즘을 오프-TE 및 교사 네트워크로 사용한다. 각각 On-TE로 그레이디언트 없이. 당사의 모델은 이전 SSL보다 성능이 뛰어납니다. LibriSpeech 벤치마크의 사소한 마진에 의한 방법, 그리고 비교할 수 있다. 최고의 성능을 자랑하는 모델보다 더 우수하거나 더 많은 것을 필요로 하지 않아도 됩니다. 또한, Off-TE와 On-TE를 모두 사용하면 더 나은 결과를 얻을 수 있습니다. 훈련 전 단계의 수렴 효율성과 효율성을 모두 갖춘 우리는 자기 지도 음성 모델에 대한 멀티태스킹 학습을 한다고 생각한다. 우리의 관점은 유망한 추세이다. 

 

 

On Parsing as Tagging

 

There have been many proposals to reduce constituency parsing to tagging in the literature. To better understand what these approaches have in common, we cast several existing proposals into a unifying pipeline consisting of three steps: linearization, learning, and decoding. In particular, we show how to reduce tetratagging, a state-of-the-art constituency tagger, to shift--reduce parsing by performing a right-corner transformation on the grammar and making a specific independence assumption. Furthermore, we empirically evaluate our taxonomy of tagging pipelines with different choices of linearizers, learners, and decoders. Based on the results in English and a set of 8 typologically diverse languages, we conclude that the linearization of the derivation tree and its alignment with the input sequence is the most critical factor in achieving accurate taggers.

 

선거구 구문 분석을 태그인으로 줄이려는 많은 제안이 있었다. 문헌 이러한 접근 방식의 공통점을 더 잘 이해하기 위해, 우리는 3개로 이루어진 통일된 파이프라인에 몇 가지 기존의 제안을 던지다. 단계: 선형화, 학습 및 디코딩. 특히, 우리는 어떻게 하는지 보여준다. 최첨단 유권자 술래인 테트라타깅을 이동으로 줄인다. 문법에 대해 오른쪽 맞춤 변환을 수행하여 구문 분석을 수행하고 다음을 만듭니다. 특정 독립성 가정 게다가, 우리는 경험적으로 우리의 선형화기, 학습자, 다양한 선택사항을 가진 태그 파이프라인 분류법 그리고 디코더. 영어로 된 결과와 유형학적으로 8개의 세트를 기반으로 합니다. 다양한 언어, 우리는 파생 트리의 선형화를 결론짓는다. 그리고 입력 시퀀스와의 정렬은 에서 가장 중요한 요소이다. 정확한 술래잡기. 

 

 

MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets

 

In this paper, we provide a new perspective on self-supervised speech models from how the self-training targets are obtained. We generalize the targets extractor into Offline Targets Extractor (Off-TE) and Online Targets Extractor (On-TE), without caring about specific pretext tasks. Based on this, we propose a new multi-tasking learning framework for self-supervised learning, MT4SSL, which stands for Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets. MT4SSL refers to two typical models, HuBERT and data2vec, which use the K-means algorithm as an Off-TE and a teacher network without gradients as an On-TE, respectively. Our model outperforms previous SSL methods by nontrivial margins on the LibriSpeech benchmark, and is comparable to or even better than the best-performing models with no need for that much data. Furthermore, we find that using both Off-TE and On-TE results in better convergence in the pre-training phase. With both effectiveness and efficiency, we think that doing multi-task learning on self-supervised speech models from our perspective is a promising trend.

 

본 논문에서, 우리는 자체 감독된 음성 모델에 대한 새로운 관점을 제공한다. 자기 훈련 목표를 얻는 방법으로부터. 우리는 목표를 일반화한다. 오프라인 대상 추출기(Off-TE) 및 온라인 대상 추출기로 추출기 (On-TE), 특정 핑계 작업에 신경 쓰지 않고. 이를 바탕으로, 우리는 제안한다. 자기 지도 학습을 위한 새로운 멀티태스킹 학습 프레임워크인 MT4SSL, 그것은 자기 지도 음성 표현 학습을 강화하는 것을 의미한다. 여러 대상을 통합하는 중입니다. MT4SSL은 HuBERT와 data2vec, K-평균 알고리즘을 오프-TE 및 교사 네트워크로 사용한다. 각각 On-TE로 그레이디언트 없이. 당사의 모델은 이전 SSL보다 성능이 뛰어납니다. LibriSpeech 벤치마크의 사소한 마진에 의한 방법, 그리고 비교할 수 있다. 최고의 성능을 자랑하는 모델보다 더 우수하거나 더 많은 것을 필요로 하지 않아도 됩니다. 또한, Off-TE와 On-TE를 모두 사용하면 더 나은 결과를 얻을 수 있습니다. 훈련 전 단계의 수렴 효율성과 효율성을 모두 갖춘 우리는 자기 지도 음성 모델에 대한 멀티태스킹 학습을 한다고 생각한다. 우리의 관점은 유망한 추세이다. 

 

 

반응형

댓글