본문 바로가기
오늘의 자연어 처리

[2023-07-03] 오늘의 자연어처리

by 지환이아빠 2023. 7. 3.
반응형

Tokenization and the Noiseless Channel

 

Subword tokenization is a key part of many NLP pipelines. However, little is known about why some tokenizer and hyperparameter combinations lead to better downstream model performance than others. We propose that good tokenizers lead to \emph{efficient} channel usage, where the channel is the means by which some input is conveyed to the model and efficiency can be quantified in information-theoretic terms as the ratio of the Shannon entropy to the maximum possible entropy of the token distribution. Yet, an optimal encoding according to Shannon entropy assigns extremely long codes to low-frequency tokens and very short codes to high-frequency tokens. Defining efficiency in terms of Rényi entropy, on the other hand, penalizes distributions with either very high or very low-frequency tokens. In machine translation, we find that across multiple tokenizers, the Rényi entropy with $\alpha = 2.5$ has a very strong correlation with \textsc{Bleu}: $0.78$ in comparison to just $-0.32$ for compressed length.

 

하위 단어 토큰화는 많은 NLP 파이프라인의 핵심 부분이다. 그러나 거의 없다 일부 토큰화기와 하이퍼파라미터 조합이 더 나은 결과로 이어지는 이유에 대해 알고 있다 다운스트림 모델의 성능을 개선할 수 있습니다. 우리는 좋은 토큰화자가 리드할 것을 제안한다 채널 사용을 \detablish{efficient}(여기서 채널은 일부가 사용하는 수단) 입력이 모델로 전달되고 효율성이 정량화될 수 있습니다 최대에 대한 섀넌 엔트로피의 비율과 같은 정보 이론 용어 토큰 분포의 가능한 엔트로피입니다. 그러나, 최적의 인코딩은 다음과 같다 Shannon 엔트로피에 매우 긴 코드를 저주파 토큰에 할당하고 고주파 토큰에 대한 매우 짧은 코드. 효율성을 다음과 같은 측면에서 반면에, Rényi 엔트로피는 분포를 다음 중 하나로 처벌한다 높은 빈도 또는 매우 낮은 빈도의 토큰. 기계 번역에서 우리는 그것을 발견한다 다중 토큰화기, $\alpha = 2.5$의 레니 엔트로피는 매우 강하다 \textsc{Blu}와의 상관 관계: $0.78$에 비해 $0.32$ 압축 길이. 

 

 

LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT

 

We introduce LyricWhiz, a robust, multilingual, and zero-shot automatic lyrics transcription method achieving state-of-the-art performance on various lyrics transcription datasets, even in challenging genres such as rock and metal. Our novel, training-free approach utilizes Whisper, a weakly supervised robust speech recognition model, and GPT-4, today's most performant chat-based large language model. In the proposed method, Whisper functions as the "ear" by transcribing the audio, while GPT-4 serves as the "brain," acting as an annotator with a strong performance for contextualized output selection and correction. Our experiments show that LyricWhiz significantly reduces Word Error Rate compared to existing methods in English and can effectively transcribe lyrics across multiple languages. Furthermore, we use LyricWhiz to create the first publicly available, large-scale, multilingual lyrics transcription dataset with a CC-BY-NC-SA copyright license, based on MTG-Jamendo, and offer a human-annotated subset for noise level estimation and evaluation. We anticipate that our proposed method and dataset will advance the development of multilingual lyrics transcription, a challenging and emerging task.

 

강력한 다국어 및 제로샷 자동 장치인 LiricWhiz를 소개합니다 다양한 분야에서 최첨단 성능을 달성하는 가사 전사 방법 가사 전사 데이터 세트, 심지어 록과 같은 도전적인 장르에서도 금속. 우리의 새로운 훈련 없는 접근 방식은 약하게 감독되는 Whisper를 활용한다 강력한 음성 인식 모델 및 오늘날의 가장 성능이 뛰어난 채팅 기반 GPT-4 대형 언어 모델. 제안된 방법에서, Whisper는 "귀"로서 기능한다 GPT-4가 "두뇌" 역할을 하는 동안 오디오를 전사합니다 문맥화된 출력 선택을 위한 강력한 성능의 주석자 및 정정. 우리의 실험은 RicyWhiz가 Word를 상당히 줄인다는 것을 보여준다 오류율 영어의 기존 방법과 비교하여 효과적으로 수행할 수 있습니다 다국어로 가사를 옮겨 쓰다. 게다가, 우리는 LicyWhiz를 사용하여 공개적으로 사용할 수 있는 최초의 대규모 다국어 가사를 만들다 CC-BY-NC-SA 저작권 라이선스를 가진 전사 데이터 세트, 기반 MTG-Jamendo 및 소음 수준 추정을 위한 인간 주석 부분 집합을 제공한다 평가하기. 우리는 우리가 제안한 방법과 데이터 세트가 다음을 발전시킬 것으로 기대한다 도전적이고 떠오르는 다국어 가사 전사 개발 작업. 

 

 

ZeroGen: Zero-shot Multimodal Controllable Text Generation with Multiple Oracles

 

Automatically generating textual content with desired attributes is an ambitious task that people have pursued long. Existing works have made a series of progress in incorporating unimodal controls into language models (LMs), whereas how to generate controllable sentences with multimodal signals and high efficiency remains an open question. To tackle the puzzle, we propose a new paradigm of zero-shot controllable text generation with multimodal signals (\textsc{ZeroGen}). Specifically, \textsc{ZeroGen} leverages controls of text and image successively from token-level to sentence-level and maps them into a unified probability space at decoding, which customizes the LM outputs by weighted addition without extra training. To achieve better inter-modal trade-offs, we further introduce an effective dynamic weighting mechanism to regulate all control weights. Moreover, we conduct substantial experiments to probe the relationship of being in-depth or in-width between signals from distinct modalities. Encouraging empirical results on three downstream tasks show that \textsc{ZeroGen} not only outperforms its counterparts on captioning tasks by a large margin but also shows great potential in multimodal news generation with a higher degree of control. Our code will be released at this https URL.

 

원하는 속성을 가진 텍스트 콘텐츠를 자동으로 생성하는 것은 사람들이 오랫동안 추구해온 야심찬 일. 기존 작품들은 시리즈를 만들었다 단일 모드 제어를 언어 모델(LM)에 통합하는 과정의 진전, 반면에 멀티모달 신호와 높은 수준으로 제어 가능한 문장을 생성하는 방법 효율성은 여전히 미해결 문제입니다. 퍼즐을 풀기 위해, 우리는 새로운 것을 제안한다 멀티모달 신호를 이용한 제로샷 제어 가능한 텍스트 생성 패러다임 (\textsc{ZeroGen}). 특히 \textsc{ZeroGen}은 텍스트 제어를 활용합니다 그리고 토큰 레벨에서 문장 레벨로 순차적으로 이미지를 만들고 그것들을 매핑한다 LM 출력을 사용자 정의하는 디코딩 시 통합 확률 공간 추가 훈련 없이 가중 추가. 더 나은 인터모달을 달성하기 위해 트레이드오프, 우리는 효과적인 동적 가중치 메커니즘을 추가로 도입한다 모든 제어 중량을 조절한다. 게다가, 우리는 하기 위해 실질적인 실험을 한다 신호 사이의 깊이 또는 폭의 관계를 조사하다 독특한 양식. 세 가지 다운스트림 작업에 대한 경험적 결과 장려 \textsc{ZeroGen}이(가) 캡션에서 상대보다 성능이 우수할 뿐만 아니라 큰 차이로 과제를 수행하지만 또한 멀티모달 뉴스에서 큰 잠재력을 보여준다 제어 수준이 높은 세대. 코드는 다음 시간에 공개됩니다 이 https URL. 

 

 

반응형

댓글