Improving Machine Translation with Phrase Pair Injection and Corpus Filtering
In this paper, we show that the combination of Phrase Pair Injection and Corpus Filtering boosts the performance of Neural Machine Translation (NMT) systems. We extract parallel phrases and sentences from the pseudo-parallel corpus and augment it with the parallel corpus to train the NMT models. With the proposed approach, we observe an improvement in the Machine Translation (MT) system for 3 low-resource language pairs, Hindi-Marathi, English-Marathi, and English-Pashto, and 6 translation directions by up to 2.7 BLEU points, on the FLORES test data. These BLEU score improvements are over the models trained using the whole pseudo-parallel corpus augmented with the parallel corpus.
본 논문에서, 우리는 문구 쌍 주입의 조합을 보여준다 말뭉치 필터링은 신경 기계 번역(NMT)의 성능을 향상시킨다 시스템들. 유사 병렬에서 병렬 구문과 문장을 추출합니다 NMT 모델을 훈련시키기 위해 말뭉치와 병렬 말뭉치로 그것을 증가시킨다. 와 함께 제안된 접근법, 우리는 기계 번역의 개선을 관찰한다 (MT) 힌디어-마라티, 영어-마라티, 3개의 저자원 언어 쌍을 위한 시스템, 그리고 영어-파슈토, 그리고 최대 2.7 BLEU 포인트까지 6개의 번역 방향 FLORS 검정 데이터. 이러한 BLEU 점수 향상은 교육을 받은 모델에 비해 우수합니다 병렬 말뭉치로 증강된 전체 의사-사이비 말뭉치를 사용한다.
On the State of German (Abstractive) Text Summarization
With recent advancements in the area of Natural Language Processing, the focus is slowly shifting from a purely English-centric view towards more language-specific solutions, including German. Especially practical for businesses to analyze their growing amount of textual data are text summarization systems, which transform long input documents into compressed and more digestible summary texts. In this work, we assess the particular landscape of German abstractive text summarization and investigate the reasons why practically useful solutions for abstractive text summarization are still absent in industry. Our focus is two-fold, analyzing a) training resources, and b) publicly available summarization systems. We are able to show that popular existing datasets exhibit crucial flaws in their assumptions about the original sources, which frequently leads to detrimental effects on system generalization and evaluation biases. We confirm that for the most popular training dataset, MLSUM, over 50% of the training set is unsuitable for abstractive summarization purposes. Furthermore, available systems frequently fail to compare to simple baselines, and ignore more effective and efficient extractive summarization approaches. We attribute poor evaluation quality to a variety of different factors, which are investigated in more detail in this work: A lack of qualitative (and diverse) gold data considered for training, understudied (and untreated) positional biases in some of the existing datasets, and the lack of easily accessible and streamlined pre-processing strategies or analysis tools. We provide a comprehensive assessment of available models on the cleaned datasets, and find that this can lead to a reduction of more than 20 ROUGE-1 points during evaluation. The code for dataset filtering and reproducing results can be found online at this https URL
최근 자연어 처리 분야의 발전과 함께 초점은 순수하게 영어 중심적인 관점에서 더 많은 관점으로 서서히 이동하고 있다 독일어를 포함한 언어별 솔루션. 특히 실용적입니다 증가하는 텍스트 데이터를 분석하는 기업은 텍스트입니다 요약 시스템, 긴 입력 문서를 압축 및 더 쉽게 이해할 수 있는 요약 텍스트. 이 작업에서, 우리는 특정한 풍경을 평가한다 독일어 추상 텍스트 요약과 그 이유를 조사합니다 추상적인 텍스트 요약을 위한 실질적으로 유용한 해결책은 여전히 존재한다 실업계에 없는. 우리의 초점은 두 가지로 나뉘며, a) 교육 자원을 분석하는 것이다 b) 공개적으로 사용 가능한 요약 시스템. 우리는 그 인기를 보여줄 수 있다 기존 데이터 세트는 원본에 대한 가정에 결정적인 결함을 나타낸다 소스, 시스템 일반화에 해로운 영향을 초래하는 경우가 많다 그리고 평가 편향. 우리는 가장 인기 있는 훈련 데이터 세트의 경우, MLSUM, 교육 세트의 50% 이상이 추상 요약에 적합하지 않습니다 목적들. 또한 사용 가능한 시스템은 단순한 시스템과 비교하지 못하는 경우가 많습니다 기준선, 더 효과적이고 효율적인 추출 요약 무시 접근. 우리는 낮은 평가 품질을 다양한 다른 것들의 탓으로 돌린다 이 작업에서 더 자세히 조사되는 요인: 부족 교육을 위해 고려된 질적(및 다양한) 골드 데이터, 과소 연구(및) 치료되지 않음) 일부 기존 데이터 세트의 위치 편향 및 쉽게 접근할 수 있고 간소화된 사전 처리 전략 또는 분석 도구. 클리닝된 모델에 대한 포괄적인 평가를 제공합니다 데이터 세트, 그리고 이것이 20개 이상의 ROUGE-1을 감소시킬 수 있다는 것을 발견한다 평가 중인 포인트. 데이터 집합 필터링 및 재생산을 위한 코드 결과는 이 https URL에서 온라인으로 확인할 수 있습니다
Understanding and Detecting Hallucinations in Neural Machine Translation via Model Introspection
Neural sequence generation models are known to "hallucinate", by producing outputs that are unrelated to the source text. These hallucinations are potentially harmful, yet it remains unclear in what conditions they arise and how to mitigate their impact. In this work, we first identify internal model symptoms of hallucinations by analyzing the relative token contributions to the generation in contrastive hallucinated vs. non-hallucinated outputs generated via source perturbations. We then show that these symptoms are reliable indicators of natural hallucinations, by using them to design a lightweight hallucination detector which outperforms both model-free baselines and strong classifiers based on quality estimation or large pre-trained models on manually annotated English-Chinese and German-English translation test beds.
신경 서열 생성 모델은 다음을 생성함으로써 "환원"하는 것으로 알려져 있다 원본 텍스트와 관련이 없는 출력입니다. 이 환각들은 잠재적으로 해롭지만, 그것들이 어떤 조건에서 발생하는지는 여전히 불분명하다 영향을 완화하는 방법. 이 작업에서는 먼저 내부 모델을 식별합니다 상대적인 토큰 기여를 분석함으로써 환각의 증상 대조적 환각 생성 대 비전향 출력 생성 소스 섭동을 통해. 그런 다음 이러한 증상이 신뢰할 수 있음을 보여줍니다 가벼운 무게를 디자인하기 위해 그것들을 사용함으로써, 자연적인 환각의 지표들 모델이 없는 기준선과 강력한 성능을 모두 능가하는 환각 감지기 품질 추정 또는 수동으로 사전 훈련된 대규모 모델을 기반으로 하는 분류기 주석이 달린 영어-중국어 및 독일어-영어 번역 테스트 베드.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-01-24] 오늘의 자연어처리 (0) | 2023.01.24 |
---|---|
[2023-01-23] 오늘의 자연어처리 (0) | 2023.01.23 |
[2023-01-21] 오늘의 자연어처리 (0) | 2023.01.21 |
[2023-01-20] 오늘의 자연어처리 (0) | 2023.01.20 |
[2023-01-19] 오늘의 자연어처리 (0) | 2023.01.19 |
댓글