본문 바로가기
오늘의 자연어 처리

[2022-10-29] 오늘의 자연어처리

by 지환이아빠 2022. 10. 29.
반응형

FCTalker: Fine and Coarse Grained Context Modeling for Expressive Conversational Speech Synthesis

 

Conversational Text-to-Speech (TTS) aims to synthesis an utterance with the right linguistic and affective prosody in a conversational context. The correlation between the current utterance and the dialogue history at the utterance level was used to improve the expressiveness of synthesized speech. However, the fine-grained information in the dialogue history at the word level also has an important impact on the prosodic expression of an utterance, which has not been well studied in the prior work. Therefore, we propose a novel expressive conversational TTS model, termed as FCTalker, that learn the fine and coarse grained context dependency at the same time during speech generation. Specifically, the FCTalker includes fine and coarse grained encoders to exploit the word and utterance-level context dependency. To model the word-level dependencies between an utterance and its dialogue history, the fine-grained dialogue encoder is built on top of a dialogue BERT model. The experimental results show that the proposed method outperforms all baselines and generates more expressive speech that is contextually appropriate. We release the source code at: this https URL.

 

대화식 텍스트-투-스피치(TTS)는 발화를 다음과 같이 합성하는 것을 목표로 한다. 올바른 언어적 운율과 대화 맥락에서의 정서적 운율. 그 현재 발언과 대화 역사 사이의 상관관계 발화 수준은 합성된 음성의 표현력을 향상시키기 위해 사용되었다. 그러나, 단어 수준에서 대화 역사에 있는 세밀한 정보는 또한 발화의 운율적 표현에 중요한 영향을 미친다. 이전 연구에서 잘 연구되지 않았습니다. 그래서 우리는 소설을 제안한다. FCTalker라고 불리는, 벌금을 배우는 표현형 대화식 TTS 모델. 그리고 말하는 동안 동시에 거친 세분화된 문맥 의존성 시대. 구체적으로, FCTalker는 미세하고 거친 입자를 포함합니다. 단어 및 발화 수준 컨텍스트 종속성을 이용하기 위한 인코딩입니다. 모델링하는 방법 발화와 대화 역사 사이의 단어 수준의 의존성, 세분화된 대화 인코더는 대화 BERT 모델 위에 구축된다. 그 실험 결과는 제안된 방법이 모든 기준선을 능가한다는 것을 보여준다. 그리고 문맥적으로 적절한 표현력을 만들어낸다. 우리가 다음 위치에서 소스 코드를 해제합니다. 이 https URL. 

 

 

Towards Language-centric Scientific AI

 

Inspired by recent and revolutionary developments in AI, particularly in language understanding and generation, we set about designing AI systems that are able to address complex scientific tasks that challenge human capabilities to make new discoveries. Central to our approach is the notion of natural language as core representation, reasoning, and exchange format between scientific AI and human scientists. In this paper, we identify and discuss some of the main research challenges to accomplish such vision.

 

특히 AI의 최근 및 혁명적 발전에 영감을 받아 언어 이해와 생성, 우리는 인공지능 시스템을 설계하기 시작했다. 인간의 능력에 도전하는 복잡한 과학적 과제를 다룰 수 있다. 새로운 발견을 하기 위해서. 우리의 접근 방식의 핵심은 자연에 대한 개념이다. 언어는 핵심 표현, 추론 및 교환 형식이다. 과학 인공지능과 인간 과학자들 이 논문에서, 우리는 몇 가지를 식별하고 논의한다. 그러한 비전을 달성하기 위한 주요 연구 과제들. 

 

 

He Said, She Said: Style Transfer for Shifting the Perspective of Dialogues

 

In this work, we define a new style transfer task: perspective shift, which reframes a dialogue from informal first person to a formal third person rephrasing of the text. This task requires challenging coreference resolution, emotion attribution, and interpretation of informal text. We explore several baseline approaches and discuss further directions on this task when applied to short dialogues. As a sample application, we demonstrate that applying perspective shifting to a dialogue summarization dataset (SAMSum) substantially improves the zero-shot performance of extractive news summarization models on this data. Additionally, supervised extractive models perform better when trained on perspective shifted data than on the original dialogues. We release our code publicly.

 

이 작업에서, 우리는 새로운 스타일 전송 과제를 정의한다: 원근법 이동, 비공식적인 1인칭에서 공식적인 3인칭으로 대화를 재구성하다. 본문의 재표현 이 작업에는 까다로운 참조 확인이 필요합니다. 감정 귀속, 그리고 비공식 텍스트의 해석. 우리는 몇 가지를 탐구한다. 기본 접근 방식 및 적용 시 이 작업에 대한 추가 방향에 대해 논의합니다. 짧은 대화 샘플 애플리케이션으로서, 우리는 적용한다는 것을 입증한다. 대화 요약 데이터 세트(SAMSUM)로 크게 전환하는 관점 에 대한 추출 뉴스 요약 모델의 제로샷 성능을 향상시킵니다. 이 자료 또한 감독된 추출 모델은 다음과 같은 경우에 더 나은 성능을 발휘한다. 원본 대화보다 원근법적으로 이동된 데이터에 대해 교육을 받았습니다. 우리는 풀어준다. 우리의 코드 공개. 

 

 

반응형

댓글