본문 바로가기
오늘의 자연어 처리

[2022-11-24] 오늘의 자연어처리

by 지환이아빠 2022. 11. 24.
반응형

HaRiM$^+$: Evaluating Summary Quality with Hallucination Risk

 

One of the challenges of developing a summarization model arises from the difficulty in measuring the factual inconsistency of the generated text. In this study, we reinterpret the decoder overconfidence-regularizing objective suggested in (Miao et al., 2021) as a hallucination risk measurement to better estimate the quality of generated summaries. We propose a reference-free metric, HaRiM+, which only requires an off-the-shelf summarization model to compute the hallucination risk based on token likelihoods. Deploying it requires no additional training of models or ad-hoc modules, which usually need alignment to human judgments. For summary-quality estimation, HaRiM+ records state-of-the-art correlation to human judgment on three summary-quality annotation sets: FRANK, QAGS, and SummEval. We hope that our work, which merits the use of summarization models, facilitates the progress of both automated evaluation and generation of summary.

 

요약 모델 개발의 어려움 중 하나는 다음과 같다. 생성된 텍스트의 사실적 불일치를 측정하는 데 어려움이 있습니다. 인 이 연구에서는 디코더 과신뢰 정규화 목표를 재해석한다. (Miao et al., 2021)에서 개선하기 위한 환각 위험 측정으로 제안되었다. 생성된 요약의 품질을 추정합니다. 우리는 참조가 없는 것을 제안한다. 메트릭, HaRiM+, 이는 다음과 같은 기성 요약 모델만 필요하다. 토큰 가능성을 기준으로 환각 위험을 계산합니다. 배포 일반적으로 필요한 모델 또는 애드혹 모듈에 대한 추가 교육이 필요하지 않습니다. 인간의 판단에 대한 일치 요약 품질 추정을 위해 HaRiM+ 레코드 세 가지 요약 품질에 대한 인간의 판단과 최첨단 상관관계 주석 세트: Frank, QAGS 및 SumEval. 우리는 가치 있는 우리의 일을 바란다. 요약 모델의 사용, 자동화된 두 가지 모두의 진행을 용이하게 한다. 요약의 평가 및 생성. 

 

 

Coreference Resolution through a seq2seq Transition-Based System

 

Most recent coreference resolution systems use search algorithms over possible spans to identify mentions and resolve coreference. We instead present a coreference resolution system that uses a text-to-text (seq2seq) paradigm to predict mentions and links jointly. We implement the coreference system as a transition system and use multilingual T5 as an underlying language model. We obtain state-of-the-art accuracy on the CoNLL-2012 datasets with 83.3 F1-score for English (a 2.3 higher F1-score than previous work (Dobrovolskii, 2021)) using only CoNLL data for training, 68.5 F1-score for Arabic (+4.1 higher than previous work) and 74.3 F1-score for Chinese (+5.3). In addition we use the SemEval-2010 data sets for experiments in the zero-shot setting, a few-shot setting, and supervised setting using all available training data. We get substantially higher zero-shot F1-scores for 3 out of 4 languages than previous approaches and significantly exceed previous supervised state-of-the-art results for all five tested languages.

 

가장 최근의 상호 참조 해결 시스템은 다음과 같은 검색 알고리즘을 사용합니다. 언급을 식별하고 상호 참조를 해결하기 위해 가능한 범위. 우리는 대신 발표한다. 텍스트 대 텍스트(seq2seq) 패러다임을 사용하는 상호 참조 해결 시스템 언급 및 링크를 공동으로 예측합니다. 우리는 다음과 같이 상호 참조 시스템을 구현한다. 변환 시스템 및 다국어 T5를 기본 언어 모델로 사용합니다. 우리가 83.3 F1 점수로 CoNLL-2012 데이터 세트에 대한 최첨단 정확도를 얻는다. 영어의 경우 (이전 작업보다 2.3 높은 F1 점수(Dobrovolski, 2021)) 훈련을 위해 CoNLL 데이터만 사용, 아랍어의 경우 68.5 F1 점수(+4.1)보다 높다. 이전 작업) 및 74.3 F1 점수(중국어(+5.3). 추가로 우리는 제로샷 설정, 퓨샷 실험을 위한 SemEval-2010 데이터 세트 사용 가능한 모든 교육 데이터를 사용하여 설정 및 감독 설정을 수행합니다. 우리는 이해한다 4개 언어 중 3개 언어에 대해 이전보다 훨씬 높은 제로샷 F1 점수 접근 방식과 이전의 감독된 최첨단 기술을 크게 능가한다. 테스트된 5개 언어 모두에 대한 결과. 

 

 

Coreference Resolution through a seq2seq Transition-Based System

 

Most recent coreference resolution systems use search algorithms over possible spans to identify mentions and resolve coreference. We instead present a coreference resolution system that uses a text-to-text (seq2seq) paradigm to predict mentions and links jointly. We implement the coreference system as a transition system and use multilingual T5 as an underlying language model. We obtain state-of-the-art accuracy on the CoNLL-2012 datasets with 83.3 F1-score for English (a 2.3 higher F1-score than previous work (Dobrovolskii, 2021)) using only CoNLL data for training, 68.5 F1-score for Arabic (+4.1 higher than previous work) and 74.3 F1-score for Chinese (+5.3). In addition we use the SemEval-2010 data sets for experiments in the zero-shot setting, a few-shot setting, and supervised setting using all available training data. We get substantially higher zero-shot F1-scores for 3 out of 4 languages than previous approaches and significantly exceed previous supervised state-of-the-art results for all five tested languages.

 

가장 최근의 상호 참조 해결 시스템은 다음과 같은 검색 알고리즘을 사용합니다. 언급을 식별하고 상호 참조를 해결하기 위해 가능한 범위. 우리는 대신 발표한다. 텍스트 대 텍스트(seq2seq) 패러다임을 사용하는 상호 참조 해결 시스템 언급 및 링크를 공동으로 예측합니다. 우리는 다음과 같이 상호 참조 시스템을 구현한다. 변환 시스템 및 다국어 T5를 기본 언어 모델로 사용합니다. 우리가 83.3 F1 점수로 CoNLL-2012 데이터 세트에 대한 최첨단 정확도를 얻는다. 영어의 경우 (이전 작업보다 2.3 높은 F1 점수(Dobrovolski, 2021)) 훈련을 위해 CoNLL 데이터만 사용, 아랍어의 경우 68.5 F1 점수(+4.1)보다 높다. 이전 작업) 및 74.3 F1 점수(중국어(+5.3). 추가로 우리는 제로샷 설정, 퓨샷 실험을 위한 SemEval-2010 데이터 세트 사용 가능한 모든 교육 데이터를 사용하여 설정 및 감독 설정을 수행합니다. 우리는 이해한다 4개 언어 중 3개 언어에 대해 이전보다 훨씬 높은 제로샷 F1 점수 접근 방식과 이전의 감독된 최첨단 기술을 크게 능가한다. 테스트된 5개 언어 모두에 대한 결과. 

 

 

반응형

댓글