본문 바로가기
오늘의 자연어 처리

[2022-09-19] 오늘의 자연어처리

by 지환이아빠 2022. 9. 19.
반응형

Examining Large Pre-Trained Language Models for Machine Translation: What You Don't Know About It

 

Pre-trained language models (PLMs) often take advantage of the monolingual and multilingual dataset that is freely available online to acquire general or mixed domain knowledge before deployment into specific tasks. Extra-large PLMs (xLPLMs) are proposed very recently to claim supreme performances over smaller-sized PLMs such as in machine translation (MT) tasks. These xLPLMs include Meta-AI's wmt21-dense-24-wide-en-X and NLLB. \textit{In this work, we examine if xLPLMs are absolutely superior to smaller-sized PLMs in fine-tuning toward domain-specific MTs.} We use two different in-domain data of different sizes: commercial automotive in-house data and \textbf{clinical} shared task data from the ClinSpEn2022 challenge at WMT2022. We choose popular Marian Helsinki as smaller sized PLM and two massive-sized Mega-Transformers from Meta-AI as xLPLMs. Our experimental investigation shows that 1) on smaller sized in-domain commercial automotive data, xLPLM wmt21-dense-24-wide-en-X indeed shows much better evaluation scores using S\textsc{acre}BLEU and hLEPOR metrics than smaller-sized Marian, even though its score increase rate is lower than Marian after fine-tuning; 2) on relatively larger-size well prepared clinical data fine-tuning, the xLPLM NLLB \textbf{tends to lose} its advantage over smaller-sized Marian on two sub-tasks (clinical terms and ontology concepts) using ClinSpEn offered metrics METEOR, COMET, and ROUGE-L, and totally lost to Marian on Task-1 (clinical cases) on all metrics including S\textsc{acre}BLEU and BLEU; 3) \textbf{metrics do not always agree} with each other on the same tasks using the same model outputs.

 

사전 훈련된 언어 모델(PLM)은 종종 단일 언어를 활용한다. 그리고 일반 또는 다언어 데이터 세트를 온라인으로 자유롭게 획득할 수 있다. 특정 작업에 배포하기 전에 도메인 지식을 혼합합니다. 초대형 PLM (xLPLM)은 매우 최근에 제안되어 최고의 성능을 자랑합니다. MT(기계 번역) 작업과 같은 더 작은 크기의 PLM. 다음 xLPLM Meta-AI의 wmt21-dense-24-wide-en-X 및 NLLB를 포함합니다. \textit{이 작품에서, 우리는 xLPLM이 미세 조정에서 소형 PLM보다 절대적으로 우수한지 검사합니다. 도메인별 MT를 향해.} 서로 다른 두 개의 서로 다른 도메인 내 데이터를 사용합니다. 크기: 상용 자동차 내부 데이터 및 \textbf{havior} 공유 작업 WMT2022의 ClinSpen2022 챌린지 데이터. 우리는 인기 있는 마리안을 선택한다. 헬싱키는 소형 PLM과 대형 변압기 2대를 보유하고 있다. xLPLM으로서의 Meta-AI. 우리의 실험 조사는 1) 더 작은 크기의 도메인에서 상용 자동차 데이터, xLPLM wmt21-dense-24-wide-en-X는 실제로 많은 것을 보여준다. S\textsc{acre}B를 사용하여 더 나은 평가 점수LEU 및 HLEPOR 메트릭: 비록 그것의 점수 상승률이 마리안보다 낮지만 작은 크기의 마리안. 미세 조정 후; 2) 비교적 큰 크기의 잘 준비된 임상 데이터 미세 조정, xLPLM NLLB \textbf{tends}에 비해 이점을 잃는 경향이 있습니다. 두 가지 하위 작업에 대한 소규모 마리안(임상 용어 및 온톨로지 개념) ClinSpen을 사용하여 METEOR, COMET 및 ROUGE-L 메트릭을 제공했지만 완전히 손실되었습니다. S\textsc{acre}B를 포함한 모든 메트릭에 대한 Marian on Task-1(임상 사례)LEU 및 BLEU; 3) \textbf{metrics가 항상 일치하지 않음} 같은 것에 대해 서로 일치함 동일한 모델 출력을 사용하는 작업입니다. 

 

 

Distribution Aware Metrics for Conditional Natural Language Generation

 

Traditional automated metrics for evaluating conditional natural language generation use pairwise comparisons between a single generated text and the best-matching gold-standard ground truth text. When multiple ground truths are available, scores are aggregated using an average or max operation across references. While this approach works well when diversity in the ground truth data (i.e. dispersion of the distribution of conditional texts) can be ascribed to noise, such as in automated speech recognition, it does not allow for robust evaluation in the case where diversity in the ground truths represents signal for the model. In this work we argue that existing metrics are not appropriate for domains such as visual description or summarization where ground truths are semantically diverse, and where the diversity in those captions captures useful additional information about the context. We propose a novel paradigm for multi-candidate evaluation of conditional language generation models, and a new family of metrics that compare the distributions of reference and model-generated caption sets using small sample sets of each. We demonstrate the utility of our approach with a case study in visual description: where we show that existing models optimize for single-description quality over diversity, and gain some insights into how sampling methods and temperature impact description quality and diversity.

 

조건부 자연어 평가를 위한 기존의 자동화된 측정 기준 생성은 단일 생성된 텍스트와 쌍별 비교를 사용합니다. 최고의 금 표준 지상 진실 텍스트입니다. 복수의 근거 진실이 다음과 같을 때 사용 가능, 점수는 전체 평균 또는 최대 연산을 사용하여 집계됩니다. 참고 문헌 이 접근법은 지상 진실의 다양성이 있을 때 잘 작동한다. 데이터(즉, 조건부 텍스트 분포의 분산)는 다음과 같이 설명할 수 있다. 자동 음성 인식과 같은 소음에, 그것은 강건함을 허용하지 않는다. 진실의 다양성이 신호를 나타내는 경우 평가 모델을 위해서. 이 작업에서 우리는 기존 메트릭이 적절하지 않다고 주장한다. 시각적 설명 또는 요약과 같은 영역에서 근거 진실이 있는 경우 의미론적으로 다양하며, 그러한 캡션의 다양성이 유용한 곳. 컨텍스트에 대한 추가 정보. 에 대한 새로운 패러다임을 제안한다. 조건부 언어 생성 모델에 대한 다중 평가 및 새로운 평가 기준 분포와 기준 분포를 비교하는 메트릭 제품군 각각의 작은 샘플 세트를 사용하여 모델 생성 캡션 세트. 우리는 시범을 보인다. 시각적 설명에서의 사례 연구를 통한 접근 방식의 유용성: 여기서 우리는 기존 모델이 단일 기술 품질에 최적화되어 있음을 보여 줍니다. 다양성, 그리고 샘플링 방법 및 온도에 대한 통찰력을 얻습니다. 영향 설명 품질 및 다양성. 

 

 

On the State of the Art in Authorship Attribution and Authorship Verification

 

Despite decades of research on authorship attribution (AA) and authorship verification (AV), inconsistent dataset splits/filtering and mismatched evaluation methods make it difficult to assess the state of the art. In this paper, we present a survey of the fields, resolve points of confusion, introduce Valla that standardizes and benchmarks AA/AV datasets and metrics, provide a large-scale empirical evaluation, and provide apples-to-apples comparisons between existing methods. We evaluate eight promising methods on fifteen datasets (including distribution-shifted challenge sets) and introduce a new large-scale dataset based on texts archived by Project Gutenberg. Surprisingly, we find that a traditional Ngram-based model performs best on 5 (of 7) AA tasks, achieving an average macro-accuracy of $76.50\%$ (compared to $66.71\%$ for a BERT-based model). However, on the two AA datasets with the greatest number of words per author, as well as on the AV datasets, BERT-based models perform best. While AV methods are easily applied to AA, they are seldom included as baselines in AA papers. We show that through the application of hard-negative mining, AV methods are competitive alternatives to AA methods. Valla and all experiment code can be found here: this https URL

 

저작자 귀속(AA)과 저작자에 대한 수십 년의 연구에도 불구하고 검증(AV), 일관성 없는 데이터 세트 분할/필터링 및 불일치 평가 방법은 기술의 상태를 평가하는 것을 어렵게 만든다. 이 점에서. 서류, 우리는 분야에 대한 조사를 제시하고, 혼란스러운 점들을 해결한다. AA/AV 데이터 세트 및 측정 기준을 표준화하고 벤치마킹하는 Valla를 소개합니다. 대규모 경험적 평가를 제공하고, 사과에서 사과까지 제공한다. 기존 방법 간의 비교 우리는 8가지 유망한 방법을 평가한다. 15개의 데이터 세트(분산 할당 과제 세트 포함) 및 도입 프로젝트 구텐베르크에 의해 보관된 텍스트에 기반한 새로운 대규모 데이터 세트 놀랍게도, 우리는 전통적인 Ngram 기반 모델이 5에서 가장 잘 수행된다는 것을 발견했다. (7) AA 과제, $76.50\%$의 평균 매크로 정확도 달성 (과 비교) BERT 기반 모델의 경우 $66.71\%$). 그러나 두 개의 AA 데이터 세트에서 AV 데이터 세트뿐만 아니라 작성자당 최대 단어 수, BERT 기반 모델이 가장 성능이 좋습니다. AV 방법은 AA에 쉽게 적용되지만, 거의 적용되지 않는다. AA 논문에 기준선으로 포함되어 있다. 우리는 의 적용을 통해 그것을 보여준다. 하드 네거티브 마이닝, AV 방법은 AA 방법에 대한 경쟁력 있는 대안이다. 발라와 모든 실험 코드는 여기에서 찾을 수 있다. 이 https URL 

 

 

반응형

댓글