MDIA: A Benchmark for Multilingual Dialogue Generation in 46 Languages
Owing to the lack of corpora for low-resource languages, current works on dialogue generation have mainly focused on English. In this paper, we present mDIA, the first large-scale multilingual benchmark for dialogue generation across low- to high-resource languages. It covers real-life conversations in 46 languages across 19 language families. We present baseline results obtained by fine-tuning the multilingual, non-dialogue-focused pre-trained model mT5 as well as English-centric, dialogue-focused pre-trained chatbot DialoGPT. The results show that mT5-based models perform better on sacreBLEU and BertScore but worse on diversity. Even though promising results are found in few-shot and zero-shot scenarios, there is a large gap between the generation quality in English and other languages. We hope that the release of mDIA could encourage more works on multilingual dialogue generation to promote language diversity.
저자원 언어에 대한 말뭉치가 부족하기 때문에, 현재 작업은 다음과 같다. 대화 세대는 주로 영어에 집중해왔다. 이 논문에서, 우리는 다음을 제시한다. 대화 생성을 위한 최초의 대규모 다국어 벤치마크인 mDIA 저자원 언어에서 고자원 언어까지. 46편의 실제 대화를 다루고 있다. 19개 어족에 걸친 언어들. 우리는 다음과 같이 얻은 기준 결과를 제시한다. 다국어, 비대화 중심의 사전 교육 모델 mT5를 다음과 같이 미세 조정합니다. 또한 영어 중심의 대화 중심의 사전 훈련된 챗봇 DialoGPT. 그 결과는 mT5 기반 모델이 sacreB에서 더 나은 성능을 보인다는 것을 보여준다.LEU 및 BertScore 다양성에 있어서는 더 나쁩니다. 비록 몇 번의 촬영에서 유망한 결과가 발견되더라도. 제로샷 시나리오, 세대 품질 간에 큰 차이가 있다. 영어와 다른 언어들. 우리는 mDIA의 공개가 격려가 될 수 있기를 바란다. 언어의 다양성을 증진시키기 위해 다국어 대화 생성에 관한 더 많은 연구들.
MDIA: A Benchmark for Multilingual Dialogue Generation in 46 Languages
Owing to the lack of corpora for low-resource languages, current works on dialogue generation have mainly focused on English. In this paper, we present mDIA, the first large-scale multilingual benchmark for dialogue generation across low- to high-resource languages. It covers real-life conversations in 46 languages across 19 language families. We present baseline results obtained by fine-tuning the multilingual, non-dialogue-focused pre-trained model mT5 as well as English-centric, dialogue-focused pre-trained chatbot DialoGPT. The results show that mT5-based models perform better on sacreBLEU and BertScore but worse on diversity. Even though promising results are found in few-shot and zero-shot scenarios, there is a large gap between the generation quality in English and other languages. We hope that the release of mDIA could encourage more works on multilingual dialogue generation to promote language diversity.
저자원 언어에 대한 말뭉치가 부족하기 때문에, 현재 작업은 다음과 같다. 대화 세대는 주로 영어에 집중해왔다. 이 논문에서, 우리는 다음을 제시한다. 대화 생성을 위한 최초의 대규모 다국어 벤치마크인 mDIA 저자원 언어에서 고자원 언어까지. 46편의 실제 대화를 다루고 있다. 19개 어족에 걸친 언어들. 우리는 다음과 같이 얻은 기준 결과를 제시한다. 다국어, 비대화 중심의 사전 교육 모델 mT5를 다음과 같이 미세 조정합니다. 또한 영어 중심의 대화 중심의 사전 훈련된 챗봇 DialoGPT. 그 결과는 mT5 기반 모델이 sacreB에서 더 나은 성능을 보인다는 것을 보여준다.LEU 및 BertScore 다양성에 있어서는 더 나쁩니다. 비록 몇 번의 촬영에서 유망한 결과가 발견되더라도. 제로샷 시나리오, 세대 품질 간에 큰 차이가 있다. 영어와 다른 언어들. 우리는 mDIA의 공개가 격려가 될 수 있기를 바란다. 언어의 다양성을 증진시키기 위해 다국어 대화 생성에 관한 더 많은 연구들.
Podcast Summary Assessment: A Resource for Evaluating Summary Assessment Methods
Automatic summary assessment is useful for both machine-generated and human-produced summaries. Automatically evaluating the summary text given the document enables, for example, summary generation system development and detection of inappropriate summaries. Summary assessment can be run in a number of modes: ranking summary generation systems; ranking summaries of a particular document; and estimating the quality of a document-summary pair on an absolute scale. Existing datasets with annotation for summary assessment are usually based on news summarization datasets such as CNN/DailyMail or XSum. In this work, we describe a new dataset, the podcast summary assessment corpus, a collection of podcast summaries that were evaluated by human experts at TREC2020. Compared to existing summary assessment data, this dataset has two unique aspects: (i) long-input, speech podcast based, documents; and (ii) an opportunity to detect inappropriate reference summaries in podcast corpus. First, we examine existing assessment methods, including model-free and model-based methods, and provide benchmark results for this long-input summary assessment dataset. Second, with the aim of filtering reference summary-document pairings for training, we apply summary assessment for data selection. The experimental results on these two aspects provide interesting insights on the summary assessment and generation tasks. The podcast summary assessment data is available.
자동 요약 평가는 기계 생성 및 인간이 만든 요약 주어진 요약 텍스트 자동 평가 예를 들어, 요약 생성 시스템 개발 및 부적절한 요약 검색 요약 평가는 여러 개에서 실행할 수 있습니다. 모드: 요약 생성 시스템 순위 지정; 특정 요약 순위 지정 문서; 그리고 절대값에서 문서와 문서 쌍의 품질을 추정한다. 척도. 요약 평가를 위한 주석이 있는 기존 데이터 세트는 일반적으로 CNN/DailyMail 또는 Xsum과 같은 뉴스 요약 데이터 세트를 기반으로 합니다. 이 점에서. 작업, 우리는 새로운 데이터 세트, 팟캐스트 요약 평가 말뭉치를 설명한다. 인간 전문가들이 평가한 팟캐스트 요약 모음 TEC 2020. 기존 요약 평가 데이터와 비교할 때 이 데이터 집합에는 두 가지가 있습니다. 고유한 측면: (i) 긴 입력, 스피치 팟캐스트 기반, 문서 및 (ii) 팟캐스트 말뭉치에서 부적절한 참조 요약을 탐지할 수 있는 기회. 먼저, 우리는 무모델과 무모델을 포함한 기존 평가 방법을 검토한다. 모델 기반 방법 및 이 긴 입력 요약에 대한 벤치마크 결과 제공 평가 데이터 세트 둘째, 참조를 필터링할 목적으로 교육을 위한 요약-요약 쌍, 데이터에 대한 요약 평가를 적용한다. 선택. 이 두 가지 측면에 대한 실험 결과는 흥미롭다. 요약 평가 및 생성 작업에 대한 통찰력. 팟캐스트 요약 평가 데이터를 사용할 수 있습니다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-08-31] 오늘의 자연어처리 (0) | 2022.08.31 |
---|---|
[2022-08-31] 오늘의 자연어처리 (0) | 2022.08.31 |
[2022-08-30] 오늘의 자연어처리 (0) | 2022.08.30 |
[2022-08-29] 오늘의 자연어처리 (0) | 2022.08.29 |
[2022-08-29] 오늘의 자연어처리 (0) | 2022.08.29 |
댓글