본문 바로가기
오늘의 자연어 처리

[2023-06-30] 오늘의 자연어처리

by 지환이아빠 2023. 6. 30.
반응형

Accelerating Transducers through Adjacent Token Merging

 

Recent end-to-end automatic speech recognition (ASR) systems often utilize a Transformer-based acoustic encoder that generates embedding at a high frame rate. However, this design is inefficient, particularly for long speech signals due to the quadratic computation of self-attention. To address this, we propose a new method, Adjacent Token Merging (A-ToMe), which gradually combines adjacent tokens with high similarity scores between their key values. In this way, the total time step could be reduced, and the inference of both the encoder and joint network is accelerated. Experiments on LibriSpeech show that our method can reduce 57% of tokens and improve the inference speed on GPU by 70% without any notable loss of accuracy. Additionally, we demonstrate that A-ToMe is also an effective solution to reduce tokens in long-form ASR, where the input speech consists of multiple utterances.

 

최근의 엔드 투 엔드 자동 음성 인식(ASR) 시스템은 종종 다음을 활용한다 고프레임에서 임베딩을 생성하는 변압기 기반 음향 인코더 그러나 이 설계는 특히 긴 음성 신호의 경우 비효율적이다 자기 주의의 2차 계산으로 인해. 이 문제를 해결하기 위해, 우리는 제안한다 점진적으로 결합하는 새로운 방법인 인접 토큰 병합(A-ToMe) 키 값 사이의 유사성 점수가 높은 인접 토큰. 이 점에서. 방법, 총 시간 단계는 줄어들 수 있고, 두 가지 모두의 추론 인코더와 조인트 네트워크가 가속됩니다. LibriSpeech에 대한 실험은 그것을 보여준다 우리의 방법은 토큰의 57%를 줄이고 GPU의 추론 속도를 향상시킬 수 있다 정확도의 현저한 손실 없이 70%. 추가적으로, 우리는 그것을 증명한다 A-ToMe는 또한 장기 ASR에서 토큰을 줄이기 위한 효과적인 솔루션이다 입력 음성은 여러 개의 발화로 구성됩니다. 

 

 

Accelerating Transducers through Adjacent Token Merging

 

Recent end-to-end automatic speech recognition (ASR) systems often utilize a Transformer-based acoustic encoder that generates embedding at a high frame rate. However, this design is inefficient, particularly for long speech signals due to the quadratic computation of self-attention. To address this, we propose a new method, Adjacent Token Merging (A-ToMe), which gradually combines adjacent tokens with high similarity scores between their key values. In this way, the total time step could be reduced, and the inference of both the encoder and joint network is accelerated. Experiments on LibriSpeech show that our method can reduce 57% of tokens and improve the inference speed on GPU by 70% without any notable loss of accuracy. Additionally, we demonstrate that A-ToMe is also an effective solution to reduce tokens in long-form ASR, where the input speech consists of multiple utterances.

 

최근의 엔드 투 엔드 자동 음성 인식(ASR) 시스템은 종종 다음을 활용한다 고프레임에서 임베딩을 생성하는 변압기 기반 음향 인코더 그러나 이 설계는 특히 긴 음성 신호의 경우 비효율적이다 자기 주의의 2차 계산으로 인해. 이 문제를 해결하기 위해, 우리는 제안한다 점진적으로 결합하는 새로운 방법인 인접 토큰 병합(A-ToMe) 키 값 사이의 유사성 점수가 높은 인접 토큰. 이 점에서. 방법, 총 시간 단계는 줄어들 수 있고, 두 가지 모두의 추론 인코더와 조인트 네트워크가 가속됩니다. LibriSpeech에 대한 실험은 그것을 보여준다 우리의 방법은 토큰의 57%를 줄이고 GPU의 추론 속도를 향상시킬 수 있다 정확도의 현저한 손실 없이 70%. 추가적으로, 우리는 그것을 증명한다 A-ToMe는 또한 장기 ASR에서 토큰을 줄이기 위한 효과적인 솔루션이다 입력 음성은 여러 개의 발화로 구성됩니다. 

 

 

SkillNet-X: A Multilingual Multitask Model with Sparsely Activated Skills

 

Traditional multitask learning methods basically can only exploit common knowledge in task- or language-wise, which lose either cross-language or cross-task knowledge. This paper proposes a general multilingual multitask model, named SkillNet-X, which enables a single model to tackle many different tasks from different languages. To this end, we define several language-specific skills and task-specific skills, each of which corresponds to a skill module. SkillNet-X sparsely activates parts of the skill modules which are relevant either to the target task or the target language. Acting as knowledge transit hubs, skill modules are capable of absorbing task-related knowledge and language-related knowledge consecutively. Based on Transformer, we modify the multi-head attention layer and the feed forward network layer to accommodate skill modules. We evaluate SkillNet-X on eleven natural language understanding datasets in four languages. Results show that SkillNet-X performs better than task-specific baselines and two multitask learning baselines (i.e., dense joint model and Mixture-of-Experts model). Furthermore, skill pre-training further improves the performance of SkillNet-X on almost all datasets. To investigate the generalization of our model, we conduct experiments on two new tasks and find that SkillNet-X significantly outperforms baselines.

 

전통적인 멀티태스킹 학습 방법은 기본적으로 공통점만 활용할 수 있다 작업 또는 언어별 지식, 교차 언어 또는 언어별 지식 중 하나를 잃습니다 교차 작업 지식. 이 논문은 일반적인 다국어 멀티태스킹을 제안한다 SkillNet-X라는 이름의 모델로, 단일 모델이 다양한 문제를 해결할 수 있습니다 다른 언어의 작업. 이를 위해, 우리는 몇 가지를 정의한다 언어별 기술 및 작업별 기술, 각각 해당하는 기능 교습소. 스킬넷-X는 스킬 모듈의 일부를 드문드문 활성화시킨다 대상 과제 또는 대상 언어와 관련이 있다. 역할 수행 지식 전달 허브, 스킬 모듈이 작업 관련 정보를 흡수할 수 있음 지식과 언어 관련 지식을 연속적으로 제공합니다. 트랜스포머에 따르면, 우리는 다중 헤드 주의 계층과 피드포워드 네트워크 계층을 수정한다 기능 모듈을 수용하다. 우리는 11개의 자연어에 대해 SkillNet-X를 평가한다 4개 언어로 된 데이터 세트 이해. 결과는 SkillNet-X의 성능을 보여줍니다 작업별 기준선 및 두 개의 다중 작업 학습 기준선(즉, 조밀 결합 모형 및 전문가 혼합 모형). 게다가, 기술 사전 교육은 거의 모든 분야에서 SkillNet-X의 성능을 더욱 향상시킵니다 데이터 세트. 우리 모델의 일반화를 조사하기 위해, 우리는 다음을 수행한다 두 가지 새로운 작업에 대한 실험을 통해 SkillNet-X가 훨씬 더 우수하다는 것을 발견했다 기준선. 

 

 

반응형

댓글