본문 바로가기
오늘의 자연어 처리

[2023-09-02] 오늘의 자연어처리

by 지환이아빠 2023. 9. 2.
반응형

SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models

 

Current speech large language models build upon discrete speech representations, which can be categorized into semantic tokens and acoustic tokens. However, existing speech tokens are not specifically designed for speech language modeling. To assess the suitability of speech tokens for building speech language models, we established the first benchmark, SLMTokBench. Our results indicate that neither semantic nor acoustic tokens are ideal for this purpose. Therefore, we propose SpeechTokenizer, a unified speech tokenizer for speech large language models. SpeechTokenizer adopts the Encoder-Decoder architecture with residual vector quantization (RVQ). Unifying semantic and acoustic tokens, SpeechTokenizer disentangles different aspects of speech information hierarchically across different RVQ layers. Furthermore, We construct a Unified Speech Language Model (USLM) leveraging SpeechTokenizer. Experiments show that SpeechTokenizer performs comparably to EnCodec in speech reconstruction and demonstrates strong performance on the SLMTokBench benchmark. Also, USLM outperforms VALL-E in zero-shot Text-to-Speech tasks. Code and models are available at this https URL.

 

현재 음성 대규모 언어 모델은 개별 음성을 기반으로 구축됩니다 의미론적 토큰과 음향으로 분류할 수 있는 표현 토큰. 그러나 기존의 스피치 토큰은 다음을 위해 특별히 설계되지 않았다 음성 언어 모델링. 음성 토큰의 적합성을 평가하려면 음성 언어 모델을 구축하고 첫 번째 벤치마크를 구축했습니다, SLMTokBench. 우리의 결과는 의미론적 토큰도 음향적 토큰도 아님을 나타낸다 이 목적에 이상적인. 따라서, 우리는 통합된 연설인 스피치토나이저를 제안한다 음성 대규모 언어 모델을 위한 토큰라이저입니다. SpeechTokenizer는 다음을 채택합니다 잔여 벡터 양자화(RVQ)를 사용하는 인코더-디코더 아키텍처. 통일 의미론적 및 음향적 토큰, SpeechTokenizer는 다음의 다양한 측면을 분리합니다 다양한 RVQ 계층에 걸쳐 계층적으로 음성 정보를 제공합니다. 게다가, 우리는 Speech Tokenizer를 활용하여 USLM(Unified Speech Language Model)을 구축합니다. 실험에 따르면 스피치토키저는 스피치에서 EnCodec과 동등한 성능을 발휘한다 재구성 및 SLMTokBench의 강력한 성능 입증 벤치마크하다. 또한 USLM은 제로샷 텍스트 음성 변환 작업에서 VAL-E를 능가한다. 코드 및 모델은 다음 위치에서 사용할 수 있습니다 이 https URL. 

 

 

Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection

 

Chain-of-Thought Prompting (CoT) reinforces the reasoning capabilities of Large Language Models (LLMs) through the generation of intermediate rationales. However, these enhancements predominantly benefit large-scale models, leaving small LMs without significant performance improvements when directly applying CoT. Despite the advanced reasoning capabilities of LLMs, CoT relies primarily on their pre-trained internal knowledge. The external knowledge that is previously unknown to the model remains unexploited. This omission becomes pronounced in tasks such as stance detection, where the external background knowledge plays a pivotal role. Additionally, the large-scale architecture of LLMs inevitably present efficiency challenges during deployment. To address these challenges, we introduce the Ladder-of-Thought (LoT) for stance detection. Grounded in a dual-phase Cascaded Optimization framework, LoT directs the model to incorporate high-quality external knowledge, enhancing the intermediate rationales it generates. These bolstered rationales subsequently serve as the foundation for more precise predictions - akin to how a ladder facilitates reaching elevated goals. LoT achieves a balance between efficiency and accuracy, making it an adaptable and efficient framework for stance detection. Our empirical evaluations underscore LoT's effectiveness, marking a 16% improvement over ChatGPT and a 10% enhancement compared to ChatGPT with CoT.

 

CoT(Chain-of-Think Prompting)는 다음과 같은 추론 기능을 강화합니다 중간 추론 생성을 통한 LLM(Large Language Model). 그러나 이러한 개선은 대부분 대규모 모델에 혜택을 주며, 다음과 같다 직접 적용 시 성능이 크게 향상되지 않은 소형 LM 코트. LLM의 고급 추론 기능에도 불구하고 CoT는 주로 그들의 사전 훈련된 내부 지식에 대해. 외부의 지식은 이전에 모델이 알 수 없었던 상태로 남아 있습니다. 이 생략은 다음과 같다 외부 배경이 있는 자세 감지와 같은 작업에서 명확하게 표시됩니다 지식은 중추적인 역할을 한다. 또한, 대규모 아키텍처는 LLM은 구축 중에 필연적으로 효율성 문제를 야기합니다. 주소를 지정하려면 이러한 과제에 대해, 우리는 입장을 위한 생각의 사다리(LoT)를 소개한다 발각. 이중상 Cascaded Optimization 프레임워크 기반의 LoT 모델이 고품질의 외부 지식을 통합하도록 지시하여 모델을 향상시킵니다 그것이 생성하는 중간 합리화. 이러한 합리성은 이후에 강화되었다 사다리를 이용한 방법과 마찬가지로 보다 정확한 예측의 기초가 되다 높은 목표 달성을 촉진합니다. LoT를 통해 효율성 간의 균형을 유지합니다 그리고 정확성, 적응 가능하고 효율적인 입장의 틀을 만든다 발각. 우리의 경험적 평가는 LoT의 효과를 강조하며, a를 표시한다 ChatGPT 대비 16% 향상 및 ChatGPT 대비 10% 향상 코트. 

 

 

Transformer Compression via Subspace Projection

 

We propose TCSP, a novel method for compressing a transformer model by focusing on reducing the hidden size of the model. By projecting the whole transform model into a subspace, we enable matrix operations between the weight matrices in the model and features in a reduced-dimensional space, leading to significant reductions in model parameters and computing resources. To establish this subspace, we decompose the feature matrix, derived from different layers of sampled data instances, into a projection matrix. For evaluation, TCSP is applied to compress T5 and BERT models on the GLUE and SQuAD benchmarks. Experimental results demonstrate that TCSP achieves a compression ratio of 44\% with at most 1.6\% degradation in accuracy, surpassing or matching prior compression methods. Furthermore, TCSP exhibits compatibility with other methods targeting filter and attention head size compression.

 

우리는 변압기 모델을 압축하는 새로운 방법인 TCSP를 제안한다 모델의 숨겨진 크기를 줄이는 데 중점을 둡니다. 전체를 투영함으로써 모델을 부분 공간으로 변환하고, 우리는 가중치 사이의 행렬 연산을 가능하게 한다 모형의 행렬과 축소된 공간의 특징으로 이어진다 모델 매개 변수 및 컴퓨팅 리소스의 대폭적인 감소. 로. 이 부분 공간을 설정하고, 우리는 특징 행렬을 분해한다 여러 계층의 샘플링된 데이터 인스턴스를 프로젝션 행렬로 변환합니다. 위해서 평가, TCSP는 GLUE에서 T5 및 BERT 모델을 압축하는 데 적용됩니다 SQuAD 벤치마크. 실험 결과는 TCSP가 다음을 달성한다는 것을 보여준다 정확도가 최대 1.6% 저하된 44\%의 압축비, 이전 압축 방법을 능가하거나 일치시킵니다. 또한 TCSP는 필터 및 주의 헤드 크기를 대상으로 하는 다른 방법과의 호환성 압박의. 

 

 

반응형

댓글