본문 바로가기
오늘의 자연어 처리

[2022-08-15] 오늘의 자연어처리

by 지환이아빠 2022. 8. 15.
반응형

Speech Synthesis with Mixed Emotions

 

Emotional speech synthesis aims to synthesize human voices with various emotional effects. The current studies are mostly focused on imitating an averaged style belonging to a specific emotion type. In this paper, we seek to generate speech with a mixture of emotions at run-time. We propose a novel formulation that measures the relative difference between the speech samples of different emotions. We then incorporate our formulation into a sequence-to-sequence emotional text-to-speech framework. During the training, the framework does not only explicitly characterize emotion styles, but also explores the ordinal nature of emotions by quantifying the differences with other emotions. At run-time, we control the model to produce the desired emotion mixture by manually defining an emotion attribute vector. The objective and subjective evaluations have validated the effectiveness of the proposed framework. To our best knowledge, this research is the first study on modelling, synthesizing and evaluating mixed emotions in speech.

 

감성 음성 합성은 인간의 목소리를 다양한 음성으로 합성하는 것을 목표로 한다. 정서적 영향 현재 연구들은 대부분 모방을 하는 것에 초점을 맞추고 있다. 특정 감정 유형에 속하는 평균 스타일 본 논문에서, 우리는 정서가 뒤섞인 연설을 하다 우리는 소설을 제안한다. 음성 샘플 사이의 상대적인 차이를 측정하는 공식화 다른 감정 그리고 나서 우리는 우리의 공식을 다음과 같이 통합한다. 시퀀스 간 감정 텍스트와 텍스트 간 프레임워크입니다. 훈련하는 동안 그 틀은 감정 스타일을 명시적으로 특징짓는 것뿐만 아니라 와의 차이를 정량화함으로써 감정의 평범한 본성을 탐구한다. 다른 감정들 런타임에 원하는 모델을 생산하도록 제어한다. 감정 속성 벡터를 수동으로 정의함으로써 감정 혼합. 목적 그리고 주관적 평가는 제안된 효과의 유효성을 검증했다. 틀을 짜임새 우리가 아는 한, 이 연구는 첫번째 연구이다. 언어에서 혼합된 감정을 모델링하고, 합성하고, 평가한다. 

 

 

Reducing Retraining by Recycling Parameter-Efficient Prompts

 

Parameter-efficient methods are able to use a single frozen pre-trained large language model (LLM) to perform many tasks by learning task-specific soft prompts that modulate model behavior when concatenated to the input text. However, these learned prompts are tightly coupled to a given frozen model -- if the model is updated, corresponding new prompts need to be obtained. In this work, we propose and investigate several approaches to "Prompt Recycling'" where a prompt trained on a source model is transformed to work with the new target model. Our methods do not rely on supervised pairs of prompts, task-specific data, or training updates with the target model, which would be just as costly as re-tuning prompts with the target model from scratch. We show that recycling between models is possible (our best settings are able to successfully recycle $88.9\%$ of prompts, producing a prompt that out-performs baselines), but significant performance headroom remains, requiring improved recycling techniques.

 

매개 변수 효율적인 방법은 사전 훈련된 큰 단일 냉동 방법을 사용할 수 있다. 작업별 소프트를 학습하여 많은 작업을 수행하는 언어 모델(LLM) 입력 텍스트에 연결할 때 모델 동작을 변조하는 프롬프트입니다. 그러나 이러한 학습된 프롬프트는 주어진 동결 모델과 밀접하게 결합되어 있다. 모델이 업데이트된 경우 해당 새 프롬프트를 가져와야 합니다. 이 점에서. 작업, "재활용 촉진"에 대한 몇 가지 접근 방식을 제안하고 조사한다. 소스 모델에 대해 훈련된 프롬프트가 새로운 모델과 함께 작동하도록 변환되는 경우 대상 모델 우리의 방법은 감독된 프롬프트 쌍에 의존하지 않는다. 작업별 데이터 또는 대상 모델과의 교육 업데이트, 즉 처음부터 대상 모델로 프롬프트를 다시 조정하는 것만큼 비용이 많이 듭니다. 보여줘 모델 간 재활용이 가능한지 여부(우리의 최선의 설정은 다음과 같습니다). 프롬프트의 $88.9\%$을(를) 성공적으로 재활용하여 성능을 능가하는 프롬프트 생성 기준), 하지만 상당한 성능 여유가 있으므로 개선이 필요합니다. 재활용 기술 

 

 

Domain-Specific Text Generation for Machine Translation

 

Preservation of domain knowledge from the source to target is crucial in any translation workflow. It is common in the translation industry to receive highly specialized projects, where there is hardly any parallel in-domain data. In such scenarios where there is insufficient in-domain data to fine-tune Machine Translation (MT) models, producing translations that are consistent with the relevant context is challenging. In this work, we propose a novel approach to domain adaptation leveraging state-of-the-art pretrained language models (LMs) for domain-specific data augmentation for MT, simulating the domain characteristics of either (a) a small bilingual dataset, or (b) the monolingual source text to be translated. Combining this idea with back-translation, we can generate huge amounts of synthetic bilingual in-domain data for both use cases. For our investigation, we use the state-of-the-art Transformer architecture. We employ mixed fine-tuning to train models that significantly improve translation of in-domain texts. More specifically, in both scenarios, our proposed methods achieve improvements of approximately 5-6 BLEU and 2-3 BLEU, respectively, on the Arabic-to-English and English-to-Arabic language pairs. Furthermore, the outcome of human evaluation corroborates the automatic evaluation results.

 

소스에서 대상으로의 도메인 지식의 보존은 모든 경우에 중요하다. 변환 워크플로우 번역업계에서 받는 것은 흔한 일이다. 도메인 내 병렬 데이터가 거의 없는 고도로 전문화된 프로젝트 세부 조정에 필요한 도메인 내 데이터가 충분하지 않은 경우 일관된 번역을 생성하는 MT(기계 번역) 모델 관련 문맥이 있는 것은 어려운 일입니다. 이 작품에서 우리는 소설을 제안한다. 최첨단 사전 훈련된 언어를 활용한 도메인 적응 접근법 MT를 위한 도메인별 데이터 증강을 위한 모델(LM), 시뮬레이션 (a) 소규모 이중언어 데이터 세트의 도메인 특성 또는 (b) 번역할 단일 언어 원본 텍스트입니다. 이 아이디어를 결합하는 것은 역확산, 우리는 도메인 내에서 엄청난 양의 합성 이중언어들을 생성할 수 있다. 두 사용 사례에 대한 데이터입니다. 우리의 조사를 위해, 우리는 최첨단 기술을 사용합니다. 트랜스포머 아키텍처. 우리는 혼합 미세 조정을 사용하여 다음과 같은 모델을 훈련시킨다. 도메인 내 텍스트의 번역을 크게 개선한다. 좀 더 구체적으로 말하면, 두 시나리오 모두, 제안된 방법은 약 5-6의 개선을 달성한다. 아랍어 대 영어, 영어 대 아랍어 각각 BLEU와 2-3 BLEU 언어 쌍 게다가, 인간 평가의 결과는 다음 사항을 확증한다. 자동 평가 결과 

 

 

반응형

댓글