본문 바로가기
오늘의 자연어 처리

[2023-07-02] 오늘의 자연어처리

by 지환이아빠 2023. 7. 2.
반응형

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

 

We introduce LyricWhiz, a robust, multilingual, and zero-shot automatic lyrics transcription method achieving state-of-the-art performance on various lyrics transcription datasets, even in challenging genres such as rock and metal. Our novel, training-free approach utilizes Whisper, a weakly supervised robust speech recognition model, and GPT-4, today's most performant chat-based large language model. In the proposed method, Whisper functions as the "ear" by transcribing the audio, while GPT-4 serves as the "brain," acting as an annotator with a strong performance for contextualized output selection and correction. Our experiments show that LyricWhiz significantly reduces Word Error Rate compared to existing methods in English and can effectively transcribe lyrics across multiple languages. Furthermore, we use LyricWhiz to create the first publicly available, large-scale, multilingual lyrics transcription dataset with a CC-BY-NC-SA copyright license, based on MTG-Jamendo, and offer a human-annotated subset for noise level estimation and evaluation. We anticipate that our proposed method and dataset will advance the development of multilingual lyrics transcription, a challenging and emerging task.

 

강력한 다국어 및 제로샷 자동 장치인 LiricWhiz를 소개합니다 다양한 분야에서 최첨단 성능을 달성하는 가사 전사 방법 가사 전사 데이터 세트, 심지어 록과 같은 도전적인 장르에서도 금속. 우리의 새로운 훈련 없는 접근 방식은 약하게 감독되는 Whisper를 활용한다 강력한 음성 인식 모델 및 오늘날의 가장 성능이 뛰어난 채팅 기반 GPT-4 대형 언어 모델. 제안된 방법에서, Whisper는 "귀"로서 기능한다 GPT-4가 "두뇌" 역할을 하는 동안 오디오를 전사합니다 문맥화된 출력 선택을 위한 강력한 성능의 주석자 및 정정. 우리의 실험은 RicyWhiz가 Word를 상당히 줄인다는 것을 보여준다 오류율 영어의 기존 방법과 비교하여 효과적으로 수행할 수 있습니다 다국어로 가사를 옮겨 쓰다. 게다가, 우리는 LicyWhiz를 사용하여 공개적으로 사용할 수 있는 최초의 대규모 다국어 가사를 만들다 CC-BY-NC-SA 저작권 라이선스를 가진 전사 데이터 세트, 기반 MTG-Jamendo 및 소음 수준 추정을 위한 인간 주석 부분 집합을 제공한다 평가하기. 우리는 우리가 제안한 방법과 데이터 세트가 다음을 발전시킬 것으로 기대한다 도전적이고 떠오르는 다국어 가사 전사 개발 작업. 

 

 

Leveraging Cross-Utterance Context For ASR Decoding

 

While external language models (LMs) are often incorporated into the decoding stage of automated speech recognition systems, these models usually operate with limited context. Cross utterance information has been shown to be beneficial during second pass re-scoring, however this limits the hypothesis space based on the local information available to the first pass LM. In this work, we investigate the incorporation of long-context transformer LMs for cross-utterance decoding of acoustic models via beam search, and compare against results from n-best rescoring. Results demonstrate that beam search allows for an improved use of cross-utterance context. When evaluating on the long-format dataset AMI, results show a 0.7\% and 0.3\% absolute reduction on dev and test sets compared to the single-utterance setting, with improvements when including up to 500 tokens of prior context. Evaluations are also provided for Tedlium-1 with less significant improvements of around 0.1\% absolute.

 

외부 언어 모델(LM)은 종종 디코딩에 통합되는 반면 자동화된 음성 인식 시스템의 단계, 이 모델들은 보통 작동한다 한정된 문맥으로. 교차 발화 정보는 다음과 같은 것으로 나타났다 두 번째 패스 재도전 동안 유용하지만, 이것은 가설을 제한한다 첫 번째 패스 LM에서 사용할 수 있는 로컬 정보를 기반으로 한 공간. 이 점에서. 작업, 우리는 긴 컨텍스트 변압기 LM의 통합을 조사한다 빔 검색을 통한 음향 모델의 상호 호환성 디코딩 및 비교 n-best recuring의 결과와 비교합니다. 결과는 빔 검색을 보여줍니다 상호 호환성 컨텍스트의 사용을 개선할 수 있습니다. 에서 평가할 때 긴 형식의 데이터 세트 AMI, 결과는 0.7\% 및 0.3\% 절대 감소를 보여준다 단일 호환성 설정과 비교한 개발 및 테스트 세트, 개선 사항 포함 최대 500개의 이전 컨텍스트 토큰을 포함하는 경우. 평가도 제공됩니다 약 0.1\% 절대적으로 개선된 Tedlium-1의 경우. 

 

 

Concept-Oriented Deep Learning with Large Language Models

 

Large Language Models (LLMs) have been successfully used in many natural-language tasks and applications including text generation and AI chatbots. They also are a promising new technology for concept-oriented deep learning (CODL). However, the prerequisite is that LLMs understand concepts and ensure conceptual consistency. We discuss these in this paper, as well as major uses of LLMs for CODL including concept extraction from text, concept graph extraction from text, and concept learning. Human knowledge consists of both symbolic (conceptual) knowledge and embodied (sensory) knowledge. Text-only LLMs, however, can represent only symbolic (conceptual) knowledge. Multimodal LLMs, on the other hand, are capable of representing the full range (conceptual and sensory) of human knowledge. We discuss conceptual understanding in visual-language LLMs, the most important multimodal LLMs, and major uses of them for CODL including concept extraction from image, concept graph extraction from image, and concept learning. While uses of LLMs for CODL are valuable standalone, they are particularly valuable as part of LLM applications such as AI chatbots.

 

LLM(Large Language Model)은 많은 분야에서 성공적으로 사용되어 왔다 텍스트 생성 및 AI를 포함한 자연어 작업 및 응용 프로그램 챗봇. 그들은 또한 개념 지향적 심층을 위한 유망한 신기술이다 학습(CODL). 그러나 LLM이 개념을 이해하는 것이 전제 조건이다 개념의 일관성을 확보하다. 우리는 이 논문에서 이것들에 대해 논의하고, 전공도 논한다 텍스트에서 개념 추출, 개념 그래프를 포함한 CODL에 대한 LLM 사용 텍스트 추출 및 개념 학습. 인간의 지식은 두 가지로 구성되어 있다 상징적인 (개념적인) 지식과 구체화된 (개념적인) 지식. 텍스트 전용 그러나 LLM은 상징적(개념적) 지식만을 나타낼 수 있다. 멀티모달 반면에 LLM은 전체 범위를 나타낼 수 있다(개념적으로) 인간의 지식에 대한 것이다. 우리는 개념적 이해에 대해 논의한다 시각 언어 LLM, 가장 중요한 멀티모달 LLM 및 주요 용도 이미지에서 개념 추출, 개념 그래프 추출을 포함한 CODL용 데이터 세트 이미지, 그리고 개념 학습으로부터. CODL을 위한 LLM의 사용은 가치가 있지만 독립적으로, 그것들은 특히 다음과 같은 LLM 애플리케이션의 일부로서 가치가 있다 인공지능 챗봇. 

 

 

반응형

댓글