본문 바로가기
오늘의 자연어 처리

[2023-07-22] 오늘의 자연어처리

by 지환이아빠 2023. 7. 22.
반응형

Integrating Pretrained ASR and LM to Perform Sequence Generation for Spoken Language Understanding

 

There has been an increased interest in the integration of pretrained speech recognition (ASR) and language models (LM) into the SLU framework. However, prior methods often struggle with a vocabulary mismatch between pretrained models, and LM cannot be directly utilized as they diverge from its NLU formulation. In this study, we propose a three-pass end-to-end (E2E) SLU system that effectively integrates ASR and LM subnetworks into the SLU formulation for sequence generation tasks. In the first pass, our architecture predicts ASR transcripts using the ASR subnetwork. This is followed by the LM subnetwork, which makes an initial SLU prediction. Finally, in the third pass, the deliberation subnetwork conditions on representations from the ASR and LM subnetworks to make the final prediction. Our proposed three-pass SLU system shows improved performance over cascaded and E2E SLU models on two benchmark SLU datasets, SLURP and SLUE, especially on acoustically challenging utterances.

 

사전 훈련된 연설의 통합에 대한 관심이 증가해 왔다 인식(ASR) 및 언어 모델(LM)이 SLU 프레임워크에 포함됩니다. 하지만, 이전의 방법들은 종종 사전 훈련된 사이의 어휘 불일치로 어려움을 겪는다 모델 및 LM은 NLU에서 분리되어 직접 사용할 수 없습니다 공식화. 본 연구에서는 3패스 종단 간(E2E) SLU 시스템을 제안한다 ASR 및 LM 하위 네트워크를 효과적으로 SLU 공식에 통합합니다 시퀀스 생성 태스크. 첫 번째로, 우리의 아키텍처는 ASR을 예측합니다 ASR 하위 네트워크를 사용하는 스크립트. 다음은 LM 하위 네트워크입니다, 초기 SLU 예측을 하는 거죠. 마지막으로, 세 번째 패스에서 ASR 및 LM 표현에 대한 심의 하위 네트워크 조건 최종 예측을 위한 하위 네트워크. 제안된 3패스 SLU 시스템 두 가지 벤치마크에서 계단식 및 E2ESLU 모델에 비해 향상된 성능을 보여줍니다 SLU 데이터셋, SLURP 및 SLUE, 특히 음향학적으로 어려운 경우 언사. 

 

 

Integrating Pretrained ASR and LM to Perform Sequence Generation for Spoken Language Understanding

 

There has been an increased interest in the integration of pretrained speech recognition (ASR) and language models (LM) into the SLU framework. However, prior methods often struggle with a vocabulary mismatch between pretrained models, and LM cannot be directly utilized as they diverge from its NLU formulation. In this study, we propose a three-pass end-to-end (E2E) SLU system that effectively integrates ASR and LM subnetworks into the SLU formulation for sequence generation tasks. In the first pass, our architecture predicts ASR transcripts using the ASR subnetwork. This is followed by the LM subnetwork, which makes an initial SLU prediction. Finally, in the third pass, the deliberation subnetwork conditions on representations from the ASR and LM subnetworks to make the final prediction. Our proposed three-pass SLU system shows improved performance over cascaded and E2E SLU models on two benchmark SLU datasets, SLURP and SLUE, especially on acoustically challenging utterances.

 

사전 훈련된 연설의 통합에 대한 관심이 증가해 왔다 인식(ASR) 및 언어 모델(LM)이 SLU 프레임워크에 포함됩니다. 하지만, 이전의 방법들은 종종 사전 훈련된 사이의 어휘 불일치로 어려움을 겪는다 모델 및 LM은 NLU에서 분리되어 직접 사용할 수 없습니다 공식화. 본 연구에서는 3패스 종단 간(E2E) SLU 시스템을 제안한다 ASR 및 LM 하위 네트워크를 효과적으로 SLU 공식에 통합합니다 시퀀스 생성 태스크. 첫 번째로, 우리의 아키텍처는 ASR을 예측합니다 ASR 하위 네트워크를 사용하는 스크립트. 다음은 LM 하위 네트워크입니다, 초기 SLU 예측을 하는 거죠. 마지막으로, 세 번째 패스에서 ASR 및 LM 표현에 대한 심의 하위 네트워크 조건 최종 예측을 위한 하위 네트워크. 제안된 3패스 SLU 시스템 두 가지 벤치마크에서 계단식 및 E2ESLU 모델에 비해 향상된 성능을 보여줍니다 SLU 데이터셋, SLURP 및 SLUE, 특히 음향학적으로 어려운 경우 언사. 

 

 

L-Eval: Instituting Standardized Evaluation for Long Context Language Models

 

Recently, there has been growing interest in extending the context length of instruction-following models in order to effectively process single-turn long input (e.g. summarizing a paper) and conversations with more extensive histories. While proprietary models such as GPT-4 and Claude have demonstrated considerable advancements in handling tens of thousands of tokens of context, open-sourced models are still in the early stages of experimentation. It also remains unclear whether developing these long context models can offer substantial gains on practical downstream tasks over retrieval-based methods or models simply trained on chunked contexts. To address this challenge, we propose to institute standardized evaluation for long context language models. Concretely, we develop L-Eval which contains 411 long documents and over 2,000 query-response pairs manually annotated and checked by the authors encompassing areas such as law, finance, school lectures, lengthy conversations, news, long-form novels, and meetings. L-Eval also adopts diverse evaluation methods and instruction styles, enabling a more reliable assessment of Long Context Language Models (LCLMs). Our findings indicate that while open-source models typically lag behind their commercial counterparts, they still exhibit impressive performance. LLaMA2 achieves the best results (win 45\% vs turbo-16k) on open-ended tasks with only 4k context length and ChatGLM2 achieves the best results on closed-ended tasks with 8k input tokens. We release our new evaluation suite, code, and all generation results including predictions from all open-sourced LCLMs, GPT4-32k, Cluade-100k at {\url{this https URL}}.

 

최근에, 의 문맥 길이를 연장하는 것에 대한 관심이 증가하고 있다 단일 턴 롱을 효과적으로 처리하기 위한 명령형 모델 입력(예: 논문 요약) 및 보다 광범위한 대화 역사. GPT-4 및 Claude와 같은 독점 모델은 다음과 같이 입증되었습니다 수만 개의 상황 토큰을 다루는 데 있어 상당한 발전이 있었다, 오픈 소스 모델은 아직 실험의 초기 단계에 있다. 그것도 이러한 긴 컨텍스트 모델을 개발하는 것이 제공할 수 있는지 여부는 여전히 불분명하다 검색 기반 방법에 비해 실질적인 다운스트림 작업에 대한 상당한 이득 또는 단순하게 청크된 컨텍스트에서 훈련된 모델. 이 문제를 해결하기 위해, 우리는 롱 컨텍스트 언어 모델에 대한 표준화된 평가를 도입할 것을 제안한다. 구체적으로, 우리는 411개의 긴 문서와 2,000개 이상의 문서를 포함하는 L-Eval을 개발합니다 다음을 포함하여 저자가 수동으로 주석을 달거나 확인한 쿼리-응답 쌍 법률, 금융, 학교 강의, 긴 대화, 뉴스, 장편 소설과 회의들. L-Eval은 또한 다양한 평가 방법을 채택하고 있다 Long Context에 대한 보다 신뢰할 수 있는 평가를 가능하게 하는 및 교육 스타일 언어 모델(LCLM). 우리의 연구 결과는 오픈 소스 모델이 전형적으로 그들의 상업적인 상대들보다 뒤떨어지지만, 그들은 여전히 전시한다 인상적인 연기. LLaMA2는 최고의 결과를 달성합니다(45%의 승리와 turbo-16k) 컨텍스트 길이가 4k인 개방형 작업 및 ChatGLM2 8k 입력 토큰으로 닫힌 종료 작업에서 최상의 결과를 달성합니다. 우리가 새로운 평가 제품군, 코드 및 다음을 포함한 모든 세대 결과를 공개합니다 모든 오픈 소스 LCLM, GPT4-32k, 클라우드-100k의 예측 {\url{이 https URL}}. 

 

 

반응형

댓글