본문 바로가기
오늘의 자연어 처리

[2023-05-31] 오늘의 자연어처리

by 지환이아빠 2023. 5. 31.
반응형

A Critical Evaluation of Evaluations for Long-form Question Answering

 

Long-form question answering (LFQA) enables answering a wide range of questions, but its flexibility poses enormous challenges for evaluation. We perform the first targeted study of the evaluation of long-form answers, covering both human and automatic evaluation practices. We hire domain experts in seven areas to provide preference judgments over pairs of answers, along with free-form justifications for their choices. We present a careful analysis of experts' evaluation, which focuses on new aspects such as the comprehensiveness of the answer. Next, we examine automatic text generation metrics, finding that no existing metrics are predictive of human preference judgments. However, some metrics correlate with fine-grained aspects of answers (e.g., coherence). We encourage future work to move away from a single "overall score" of the answer and adopt a multi-faceted evaluation, targeting aspects such as factuality and completeness. We publicly release all of our annotations and code to spur future work into LFQA evaluation.

 

LFQA(Long-form Question Answering)를 통해 광범위한 질문에 답변할 수 있습니다 질문이 있지만, 그 유연성은 평가에 엄청난 도전을 제기한다. 우리가 긴 형식의 답변 평가에 대한 첫 번째 대상 연구를 수행합니다, 인간 및 자동 평가 관행을 모두 포함한다. 우리는 도메인 전문가를 고용한다 답변 쌍에 대한 선호 판단을 제공하는 7개 영역에서 그들의 선택에 대한 자유로운 형태의 정당성을 가지고. 우리는 신중한 분석을 제시한다 전문가들의 평가에서, 그것은 다음과 같은 새로운 측면에 초점을 맞춘다 포괄적인 대답. 다음으로, 우리는 자동 텍스트 생성을 검토한다 측정지표, 기존 측정지표가 인간의 선호도를 예측할 수 없음을 발견한다 판결. 그러나 일부 메트릭은 답변의 세부적인 측면과 관련이 있습니다 (예: 일관성). 향후 작업이 단일 "전체"에서 벗어나도록 권장합니다 "점수"를 매기고 다면적인 평가를 채택하여 측면을 목표로 한다 사실성과 완전성과 같은. 우리는 모든 주석을 공개적으로 공개한다 LFQA 평가에 대한 향후 작업에 박차를 가하기 위한 코드. 

 

 

A Critical Evaluation of Evaluations for Long-form Question Answering

 

Long-form question answering (LFQA) enables answering a wide range of questions, but its flexibility poses enormous challenges for evaluation. We perform the first targeted study of the evaluation of long-form answers, covering both human and automatic evaluation practices. We hire domain experts in seven areas to provide preference judgments over pairs of answers, along with free-form justifications for their choices. We present a careful analysis of experts' evaluation, which focuses on new aspects such as the comprehensiveness of the answer. Next, we examine automatic text generation metrics, finding that no existing metrics are predictive of human preference judgments. However, some metrics correlate with fine-grained aspects of answers (e.g., coherence). We encourage future work to move away from a single "overall score" of the answer and adopt a multi-faceted evaluation, targeting aspects such as factuality and completeness. We publicly release all of our annotations and code to spur future work into LFQA evaluation.

 

LFQA(Long-form Question Answering)를 통해 광범위한 질문에 답변할 수 있습니다 질문이 있지만, 그 유연성은 평가에 엄청난 도전을 제기한다. 우리가 긴 형식의 답변 평가에 대한 첫 번째 대상 연구를 수행합니다, 인간 및 자동 평가 관행을 모두 포함한다. 우리는 도메인 전문가를 고용한다 답변 쌍에 대한 선호 판단을 제공하는 7개 영역에서 그들의 선택에 대한 자유로운 형태의 정당성을 가지고. 우리는 신중한 분석을 제시한다 전문가들의 평가에서, 그것은 다음과 같은 새로운 측면에 초점을 맞춘다 포괄적인 대답. 다음으로, 우리는 자동 텍스트 생성을 검토한다 측정지표, 기존 측정지표가 인간의 선호도를 예측할 수 없음을 발견한다 판결. 그러나 일부 메트릭은 답변의 세부적인 측면과 관련이 있습니다 (예: 일관성). 향후 작업이 단일 "전체"에서 벗어나도록 권장합니다 "점수"를 매기고 다면적인 평가를 채택하여 측면을 목표로 한다 사실성과 완전성과 같은. 우리는 모든 주석을 공개적으로 공개한다 LFQA 평가에 대한 향후 작업에 박차를 가하기 위한 코드. 

 

 

Improving Textless Spoken Language Understanding with Discrete Units as Intermediate Target

 

Spoken Language Understanding (SLU) is a task that aims to extract semantic information from spoken utterances. Previous research has made progress in end-to-end SLU by using paired speech-text data, such as pre-trained Automatic Speech Recognition (ASR) models or paired text as intermediate targets. However, acquiring paired transcripts is expensive and impractical for unwritten languages. On the other hand, Textless SLU extracts semantic information from speech without utilizing paired transcripts. However, the absence of intermediate targets and training guidance for textless SLU often results in suboptimal performance. In this work, inspired by the content-disentangled discrete units from self-supervised speech models, we proposed to use discrete units as intermediate guidance to improve textless SLU performance. Our method surpasses the baseline method on five SLU benchmark corpora. Additionally, we find that unit guidance facilitates few-shot learning and enhances the model's ability to handle noise.

 

구어 이해(SLU)는 의미론적 추출을 목표로 하는 작업이다 구어에서 나온 정보. 이전의 연구는 에서 진전을 이루었다 사전 훈련된 자동과 같은 쌍으로 구성된 음성 텍스트 데이터를 사용하여 종단 간 SLU ASR(음성 인식) 모델 또는 쌍을 이룬 텍스트를 중간 대상으로 사용합니다. 그러나 짝을 이룬 스크립트를 얻는 것은 비용이 많이 들고 비실용적이다 불문 언어. 반면에, Textless SLU는 의미론적으로 추출한다 쌍으로 구성된 녹취록을 사용하지 않고 음성에서 얻은 정보입니다. 하지만, 그 중간 대상의 부재 및 텍스트 없는 SLU에 대한 교육 지침 결과적으로 성능이 최적화되지 않습니다. 이 작품에서, 영감을 받아 자체 감독 음성 모델에서 내용이 분리된 이산 단위, 우리 텍스트 없는 SLU를 개선하기 위한 중간 지침으로 이산 단위를 사용할 것을 제안했다 성능. 우리의 방법은 5개의 SLU 벤치마크에서 기준 방법을 능가한다 말뭉치. 또한, 우리는 유닛 안내가 퓨샷 학습을 촉진한다는 것을 발견했다 모델의 소음 처리 능력을 향상시킵니다. 

 

 

반응형

댓글