본문 바로가기
오늘의 자연어 처리

[2023-07-01] 오늘의 자연어처리

by 지환이아빠 2023. 7. 1.
반응형

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

 

We introduce LyricWhiz, a robust, multilingual, and zero-shot automatic lyrics transcription method achieving state-of-the-art performance on various lyrics transcription datasets, even in challenging genres such as rock and metal. Our novel, training-free approach utilizes Whisper, a weakly supervised robust speech recognition model, and GPT-4, today's most performant chat-based large language model. In the proposed method, Whisper functions as the "ear" by transcribing the audio, while GPT-4 serves as the "brain," acting as an annotator with a strong performance for contextualized output selection and correction. Our experiments show that LyricWhiz significantly reduces Word Error Rate compared to existing methods in English and can effectively transcribe lyrics across multiple languages. Furthermore, we use LyricWhiz to create the first publicly available, large-scale, multilingual lyrics transcription dataset with a CC-BY-NC-SA copyright license, based on MTG-Jamendo, and offer a human-annotated subset for noise level estimation and evaluation. We anticipate that our proposed method and dataset will advance the development of multilingual lyrics transcription, a challenging and emerging task.

 

강력한 다국어 및 제로샷 자동 장치인 LiricWhiz를 소개합니다 다양한 분야에서 최첨단 성능을 달성하는 가사 전사 방법 가사 전사 데이터 세트, 심지어 록과 같은 도전적인 장르에서도 금속. 우리의 새로운 훈련 없는 접근 방식은 약하게 감독되는 Whisper를 활용한다 강력한 음성 인식 모델 및 오늘날의 가장 성능이 뛰어난 채팅 기반 GPT-4 대형 언어 모델. 제안된 방법에서, Whisper는 "귀"로서 기능한다 GPT-4가 "두뇌" 역할을 하는 동안 오디오를 전사합니다 문맥화된 출력 선택을 위한 강력한 성능의 주석자 및 정정. 우리의 실험은 RicyWhiz가 Word를 상당히 줄인다는 것을 보여준다 오류율 영어의 기존 방법과 비교하여 효과적으로 수행할 수 있습니다 다국어로 가사를 옮겨 쓰다. 게다가, 우리는 LicyWhiz를 사용하여 공개적으로 사용할 수 있는 최초의 대규모 다국어 가사를 만들다 CC-BY-NC-SA 저작권 라이선스를 가진 전사 데이터 세트, 기반 MTG-Jamendo 및 소음 수준 추정을 위한 인간 주석 부분 집합을 제공한다 평가하기. 우리는 우리가 제안한 방법과 데이터 세트가 다음을 발전시킬 것으로 기대한다 도전적이고 떠오르는 다국어 가사 전사 개발 작업. 

 

 

Tokenization and the Noiseless Channel

 

Subword tokenization is a key part of many NLP pipelines. However, little is known about why some tokenizer and hyperparameter combinations lead to better downstream model performance than others. We propose that good tokenizers lead to \emph{efficient} channel usage, where the channel is the means by which some input is conveyed to the model and efficiency can be quantified in information-theoretic terms as the ratio of the Shannon entropy to the maximum possible entropy of the token distribution. Yet, an optimal encoding according to Shannon entropy assigns extremely long codes to low-frequency tokens and very short codes to high-frequency tokens. Defining efficiency in terms of Rényi entropy, on the other hand, penalizes distributions with either very high or very low-frequency tokens. In machine translation, we find that across multiple tokenizers, the Rényi entropy with $\alpha = 2.5$ has a very strong correlation with \textsc{Bleu}: $0.78$ in comparison to just $-0.32$ for compressed length.

 

하위 단어 토큰화는 많은 NLP 파이프라인의 핵심 부분이다. 그러나 거의 없다 일부 토큰화기와 하이퍼파라미터 조합이 더 나은 결과로 이어지는 이유에 대해 알고 있다 다운스트림 모델의 성능을 개선할 수 있습니다. 우리는 좋은 토큰화자가 리드할 것을 제안한다 채널 사용을 \detablish{efficient}(여기서 채널은 일부가 사용하는 수단) 입력이 모델로 전달되고 효율성이 정량화될 수 있습니다 최대에 대한 섀넌 엔트로피의 비율과 같은 정보 이론 용어 토큰 분포의 가능한 엔트로피입니다. 그러나, 최적의 인코딩은 다음과 같다 Shannon 엔트로피에 매우 긴 코드를 저주파 토큰에 할당하고 고주파 토큰에 대한 매우 짧은 코드. 효율성을 다음과 같은 측면에서 반면에, Rényi 엔트로피는 분포를 다음 중 하나로 처벌한다 높은 빈도 또는 매우 낮은 빈도의 토큰. 기계 번역에서 우리는 그것을 발견한다 다중 토큰화기, $\alpha = 2.5$의 레니 엔트로피는 매우 강하다 \textsc{Blu}와의 상관 관계: $0.78$에 비해 $0.32$ 압축 길이. 

 

 

Automatic Speech Recognition of Non-Native Child Speech for Language Learning Applications

 

Voicebots have provided a new avenue for supporting the development of language skills, particularly within the context of second language learning. Voicebots, though, have largely been geared towards native adult speakers. We sought to assess the performance of two state-of-the-art ASR systems, Wav2Vec2.0 and Whisper AI, with a view to developing a voicebot that can support children acquiring a foreign language. We evaluated their performance on read and extemporaneous speech of native and non-native Dutch children. We also investigated the utility of using ASR technology to provide insight into the children's pronunciation and fluency. The results show that recent, pre-trained ASR transformer-based models achieve acceptable performance from which detailed feedback on phoneme pronunciation quality can be extracted, despite the challenging nature of child and non-native speech.

 

보이스봇은 개발을 지원하기 위한 새로운 방법을 제공했다 언어 기술, 특히 제2외국어 학습의 맥락 안에서. 그러나 보이스봇은 주로 성인 원어민을 대상으로 만들어졌다. 우리가 두 개의 최첨단 ASR 시스템의 성능을 평가하기 위해 노력했다, Wav2Vec2.0과 Whisper AI는 음성봇을 개발하기 위한 목적으로 아이들의 외국어 습득을 지원하다. 우리는 그들의 성과를 평가했다 네덜란드 원주민 및 비원주민 아이들의 읽기 및 즉석 연설에 관하여. 우리가 또한 ASR 기술을 사용하여 에 대한 통찰력을 제공하는 유용성을 조사했습니다 아이들의 발음과 유창함. 결과에 따르면 최근에, 사전 교육을 받은 ASR 변압기 기반 모델은 다음과 같은 이점을 제공합니다 음소 발음 품질에 대한 자세한 피드백을 추출할 수 있습니다, 어린이와 비원어민 언어의 도전적인 성격에도 불구하고. 

 

 

반응형

댓글