Questioning the Validity of Summarization Datasets and Improving Their Factual Consistency
The topic of summarization evaluation has recently attracted a surge of attention due to the rapid development of abstractive summarization systems. However, the formulation of the task is rather ambiguous, neither the linguistic nor the natural language processing community has succeeded in giving a mutually agreed-upon definition. Due to this lack of well-defined formulation, a large number of popular abstractive summarization datasets are constructed in a manner that neither guarantees validity nor meets one of the most essential criteria of summarization: factual consistency. In this paper, we address this issue by combining state-of-the-art factual consistency models to identify the problematic instances present in popular summarization datasets. We release SummFC, a filtered summarization dataset with improved factual consistency, and demonstrate that models trained on this dataset achieve improved performance in nearly all quality aspects. We argue that our dataset should become a valid benchmark for developing and evaluating summarization systems.
요약 평가의 주제는 최근에 급증했다. 추상적인 요약 시스템의 급속한 발전으로 인한 관심 그러나 과제의 공식화도 다소 모호하다. 언어학도 자연어 처리 공동체도 성공하지 못했다. 상호 합의된 정의를 제공합니다. 이러한 명확한 정의의 결여로 인해 많은 수의 인기 있는 추상 요약 데이터 세트는 다음과 같다. 타당성을 보장하지도 않고 다음 중 하나를 충족시키지 않는 방식으로 구성된다. 요약의 가장 필수적인 기준: 사실의 일관성. 이 논문에서, 우리는 최첨단 사실 일관성 모델을 결합하여 이 문제를 해결한다. 대중 요약에 존재하는 문제 사례를 식별하다 데이터 세트 우리는 개선된 필터링된 요약 데이터 세트인 SummFC를 출시한다. 사실상의 일관성, 그리고 이 데이터 세트에 대해 훈련된 모델들을 입증한다. 거의 모든 품질 측면에서 향상된 성능을 달성합니다. 우리는 우리의 데이터 세트는 개발 및 평가를 위한 유효한 벤치마크가 되어야 한다. 요약 시스템
Domain Curricula for Code-Switched MT at MixMT 2022
In multilingual colloquial settings, it is a habitual occurrence to compose expressions of text or speech containing tokens or phrases of different languages, a phenomenon popularly known as code-switching or code-mixing (CMX). We present our approach and results for the Code-mixed Machine Translation (MixMT) shared task at WMT 2022: the task consists of two subtasks, monolingual to code-mixed machine translation (Subtask-1) and code-mixed to monolingual machine translation (Subtask-2). Most non-synthetic code-mixed data are from social media but gathering a significant amount of this kind of data would be laborious and this form of data has more writing variation than other domains, so for both subtasks, we experimented with data schedules for out-of-domain data. We jointly learn multiple domains of text by pretraining and fine-tuning, combined with a sentence alignment objective. We found that switching between domains caused improved performance in the domains seen earliest during training, but depleted the performance on the remaining domains. A continuous training run with strategically dispensed data of different domains showed a significantly improved performance over fine-tuning.
다국어 구어 환경에서, 그것은 작곡하는 습관적인 일이다. 다른 토큰 또는 구문을 포함하는 텍스트 또는 연설의 표현 코드 스위칭 또는 코드 믹싱(CMX)으로 널리 알려진 현상인 언어. 우리는 코드 혼합 기계 번역에 대한 우리의 접근 방식과 결과를 제시한다. WMT 2022에서 (MixMT) 공유 작업: 작업은 단일 언어인 두 개의 하위 작업으로 구성됩니다. 코드 혼합 기계 번역(하위 작업-1) 및 코드 혼합에서 단일 언어로 기계 번역(하위 작업-2). 대부분의 비합성 코드 혼합 데이터는 다음과 같습니다. 소셜 미디어 그러나 이러한 종류의 많은 양의 데이터를 수집하는 것은 그리고 이러한 형태의 데이터는 다른 영역보다 더 많은 쓰기 변형을 가지고 있다. 따라서 두 하위 작업 모두에 대해 도메인 외부에 대한 데이터 일정을 실험했습니다. 우리는 사전 훈련과 미세 조정을 통해 여러 영역의 텍스트를 공동으로 학습합니다. 문장 정렬 목표와 결합됩니다. 그 사이는 도메인은 가장 먼저 발견된 도메인에서 향상된 성능을 유발했습니다. 그러나 나머지 도메인에서 성능이 저하되었습니다. 연속된 다른 도메인의 전략적으로 분산된 데이터로 실행되는 훈련은 다음을 보여주었다. 미세 조정에 비해 성능이 크게 향상되었습니다.
Zero-Shot Text Classification with Self-Training
Recent advances in large pretrained language models have increased attention to zero-shot text classification. In particular, models finetuned on natural language inference datasets have been widely adopted as zero-shot classifiers due to their promising results and off-the-shelf availability. However, the fact that such models are unfamiliar with the target task can lead to instability and performance issues. We propose a plug-and-play method to bridge this gap using a simple self-training approach, requiring only the class names along with an unlabeled dataset, and without the need for domain expertise or trial and error. We show that fine-tuning the zero-shot classifier on its most confident predictions leads to significant performance gains across a wide range of text classification tasks, presumably since self-training adapts the zero-shot model to the task at hand.
최근 사전 훈련된 대규모 언어 모델의 발전이 관심을 증가시켰다. 텍스트 분류를 제로샷합니다. 특히, 모델들은 내추럴에 미세 조정되었다. 언어 추론 데이터 세트는 제로샷 분류기로 널리 채택되었다. 그 유망한 결과와 기성품으로 인해. 하지만, 그 그러한 모델이 대상 작업에 익숙하지 않다는 사실은 다음과 같이 이어질 수 있다. 불안정성 및 성능 문제. 브리지하기 위한 플러그 앤 플레이 방법을 제안합니다. 이 간격은 단순한 자체 훈련 접근 방식을 사용하여, 클래스 이름만 요구합니다. 레이블이 지정되지 않은 데이터 세트와 함께, 도메인 전문 지식이나 시행 착오 우리는 제로샷 분류기를 가장 많이 미세 조정한다는 것을 보여준다. 신뢰할 수 있는 예측은 광범위한 성능 향상으로 이어집니다. 텍스트 분류 작업의 범위, 아마도 자체 훈련이 적응하기 때문이다. 당면한 작업에 대한 제로샷 모델.
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-11-03] 오늘의 자연어처리 (0) | 2022.11.03 |
---|---|
[2022-11-03] 오늘의 자연어처리 (0) | 2022.11.03 |
[2022-11-01] 오늘의 자연어처리 (0) | 2022.11.01 |
[2022-11-01] 오늘의 자연어처리 (0) | 2022.11.01 |
[2022-10-31] 오늘의 자연어처리 (0) | 2022.10.31 |
댓글