본문 바로가기
오늘의 자연어 처리

[2022-10-31] 오늘의 자연어처리

by 지환이아빠 2022. 10. 31.
반응형

COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency with Slenderized Multi-exit Language Models

 

Transformer-based pre-trained language models (PLMs) mostly suffer from excessive overhead despite their advanced capacity. For resource-constrained devices, there is an urgent need for a spatially and temporally efficient model which retains the major capacity of PLMs. However, existing statically compressed models are unaware of the diverse complexities between input instances, potentially resulting in redundancy and inadequacy for simple and complex inputs. Also, miniature models with early exiting encounter challenges in the trade-off between making predictions and serving the deeper layers. Motivated by such considerations, we propose a collaborative optimization for PLMs that integrates static model compression and dynamic inference acceleration. Specifically, the PLM is slenderized in width while the depth remains intact, complementing layer-wise early exiting to speed up inference dynamically. To address the trade-off of early exiting, we propose a joint training approach that calibrates slenderization and preserves contributive structures to each exit instead of only the final layer. Experiments are conducted on GLUE benchmark and the results verify the Pareto optimality of our approach at high compression and acceleration rate with 1/8 parameters and 1/19 FLOPs of BERT.

 

트랜스포머 기반 사전 학습 언어 모델(PLM)은 주로 다음과 같은 문제를 겪는다. 뛰어난 용량에도 불구하고 과도한 오버헤드 리소스 제약의 경우 장치, 공간 및 시간적으로 효율적인 모델이 시급히 필요하다. PLM의 주요 용량을 유지합니다. 그러나 정적으로 존재합니다. 압축된 모델은 입력 간의 다양한 복잡성을 인식하지 못합니다. 인스턴스(instance), 잠재적으로 중복성과 단순성 및 복잡한 입력 또한, 조기 퇴출이 가능한 미니어처 모델도 도전을 받습니다. 예측을 하는 것과 더 깊은 층에 서비스를 제공하는 것 사이의 균형에서. 이러한 고려 사항에 따라, 우리는 다음을 위한 협업 최적화를 제안한다. 정적 모델 압축과 동적 추론을 통합하는 PLM 가속도 구체적으로, PLM은 폭이 가늘고 깊이가 있다. 그대로 유지되어 레이어별 조기 종료를 보완하여 추론 속도를 높입니다. 역동적으로 조기 퇴출의 트레이드오프를 해결하기 위해, 우리는 공동을 제안한다. 날씬화를 보정하고 기여도를 보존하는 교육 접근법 최종 레이어만 아닌 각 출구에 대한 구조물. 실험은 GLUE 벤치마크에서 수행되었으며 결과는 우리의 Pareto 최적성을 검증합니다. 1/8 매개 변수 및 1/19 매개 변수를 사용하여 높은 압축 및 가속 속도로 접근 버트의 FLOPS. 

 

 

MorphTE: Injecting Morphology in Tensorized Embeddings

 

In the era of deep learning, word embeddings are essential when dealing with text tasks. However, storing and accessing these embeddings requires a large amount of space. This is not conducive to the deployment of these models on resource-limited devices. Combining the powerful compression capability of tensor products, we propose a word embedding compression method with morphological augmentation, Morphologically-enhanced Tensorized Embeddings (MorphTE). A word consists of one or more morphemes, the smallest units that bear meaning or have a grammatical function. MorphTE represents a word embedding as an entangled form of its morpheme vectors via the tensor product, which injects prior semantic and grammatical knowledge into the learning of embeddings. Furthermore, the dimensionality of the morpheme vector and the number of morphemes are much smaller than those of words, which greatly reduces the parameters of the word embeddings. We conduct experiments on tasks such as machine translation and question answering. Experimental results on four translation datasets of different languages show that MorphTE can compress word embedding parameters by about 20 times without performance loss and significantly outperforms related embedding compression methods.

 

딥러닝 시대에 단어 임베딩은 다룰 때 필수적이다. 텍스트 작업 그러나 이러한 임베딩의 저장 및 액세스에는 대규모 공간의 양 이는 다음 모델에 배포하는 데 도움이 되지 않습니다. 리소스가 제한된 장치 의 강력한 압축 기능 결합 텐서 제품, 우리는 단어 임베딩 압축 방법을 제안한다. 형태학적 확대, 형태학적으로 강화된 텐서라이즈드 임베딩 (모프테). 단어는 가장 작은 단위인 하나 이상의 형태소로 구성된다. 의미를 가지거나 문법적 기능을 가지고 있다. MorphTE는 단어를 나타낸다. 텐서 곱을 통해 형태소 벡터의 얽힌 형태로 임베딩됩니다. 그것은 이전의 의미론적, 문법적 지식을 의 학습에 주입한다. 박음질 더 나아가, 형태소 벡터의 차원성과 형태소의 수는 단어의 그것보다 훨씬 더 적으며, 그것은 크게 감소시킨다. 단어 임베딩의 매개 변수입니다. 다음과 같은 작업에 대한 실험을 수행합니다. 기계 번역과 질문 답변. 4에 대한 실험 결과 다른 언어의 번역 데이터 세트는 Morph를 보여준다.TE는 단어를 압축할 수 있다. 성능 손실 없이 매개 변수를 약 20배 내장하고 관련 임베딩 압축 방법을 크게 능가한다. 

 

 

Automatic Severity Assessment of Dysarthric speech by using Self-supervised Model with Multi-task Learning

 

Automatic assessment of dysarthric speech is essential for sustained treatments and rehabilitation. However, obtaining atypical speech is challenging, often leading to data scarcity issues. To tackle the problem, we propose a novel automatic severity assessment method for dysarthric speech, using the self-supervised model in conjunction with multi-task learning. Wav2vec 2.0 XLS-R is jointly trained for two different tasks: severity level classification and an auxilary automatic speech recognition (ASR). For the baseline experiments, we employ hand-crafted features such as eGeMaps and linguistic features, and SVM, MLP, and XGBoost classifiers. Explored on the Korean dysarthric speech QoLT database, our model outperforms the traditional baseline methods, with a relative percentage increase of 4.79% for classification accuracy. In addition, the proposed model surpasses the model trained without ASR head, achieving 10.09% relative percentage improvements. Furthermore, we present how multi-task learning affects the severity classification performance by analyzing the latent representations and regularization effect.

 

이관절 언어 장애의 자동 평가는 지속되기 위해 필수적이다. 치료와 재활. 하지만, 전형적인 연설문을 얻는 것은 종종 데이터 부족 문제로 이어집니다. 그 문제를 해결하기 위해, 우리는 이관절 언어 장애에 대한 새로운 자동 심각도 평가 방법을 제안합니다. 다중 작업 학습과 함께 자체 지도 모델을 사용합니다. Wav2vec 2.0 XLS-R은 두 가지 다른 작업에 대해 공동으로 훈련된다: 심각도 수준 분류 및 보조 자동 음성 인식(ASR)입니다. 를 위해 기본 실험, 우리는 eGeMaps와 같은 수작업 기능을 사용한다. 언어 기능, SVM, MLP 및 XGBoost 분류기를 사용할 수 있습니다. 에서 탐색했습니다. 한국어 이질 음성 QoLT 데이터베이스, 우리 모델은 전통적인 것보다 성능이 우수합니다. 기준 방법, 4.79%의 상대적인 증가율 분류 정확도 게다가, 제안된 모델은 모델을 능가한다. ASR 헤드가 없는 교육을 통해 10.09%의 상대적 백분율 개선을 달성했습니다. 또한, 우리는 다중 작업 학습이 심각도에 어떻게 영향을 미치는지 제시한다. 잠재적 표현 분석을 통한 분류 성능 정규화 효과 

 

 

반응형

댓글