본문 바로가기
오늘의 자연어 처리

[2023-06-24] 오늘의 자연어처리

by 지환이아빠 2023. 6. 24.
반응형

Overview of Robust and Multilingual Automatic Evaluation Metrics for Open-Domain Dialogue Systems at DSTC 11 Track 4

 

The advent and fast development of neural networks have revolutionized the research on dialogue systems and subsequently have triggered various challenges regarding their automatic evaluation. Automatic evaluation of open-domain dialogue systems as an open challenge has been the center of the attention of many researchers. Despite the consistent efforts to improve automatic metrics' correlations with human evaluation, there have been very few attempts to assess their robustness over multiple domains and dimensions. Also, their focus is mainly on the English language. All of these challenges prompt the development of automatic evaluation metrics that are reliable in various domains, dimensions, and languages. This track in the 11th Dialogue System Technology Challenge (DSTC11) is part of the ongoing effort to promote robust and multilingual automatic evaluation metrics. This article describes the datasets and baselines provided to participants and discusses the submission and result details of the two proposed subtasks.

 

신경망의 출현과 빠른 발전은 혁명을 일으켰다 대화 시스템에 대한 연구와 그에 따른 다양한 도전들을 촉발시켰다 그들의 자동 평가와 관련하여. 오픈 도메인 자동 평가 공개적인 도전으로서의 대화 시스템은 관심의 중심이었다 많은 연구자들. 자동 측정 기준을 개선하기 위한 지속적인 노력에도 불구하고' 인간 평가와의 상관관계, 평가하려는 시도는 거의 없었다 여러 영역 및 차원에 걸친 견고성. 또한 그들의 초점은 주로 영어에 관한 것이다. 이러한 모든 도전은 개발을 촉진한다 다양한 도메인에서 신뢰할 수 있는 자동 평가 지표의, 차원, 언어. 11차 대화 시스템 기술의 이 트랙 과제(DSTC11)는 견고하고 강력한 제품을 홍보를 위한 지속적인 노력의 일부이다 다국어 자동 평가 메트릭입니다. 이 문서에서는 데이터 세트에 대해 설명합니다 참가자에게 제공되는 기준선 및 제출 및 결과에 대해 논의합니다 제안된 두 하위 작업의 세부 정보입니다. 

 

 

ARIES: A Corpus of Scientific Paper Edits Made in Response to Peer Reviews

 

Revising scientific papers based on peer feedback is a challenging task that requires not only deep scientific knowledge and reasoning, but also the ability to recognize the implicit requests in high-level feedback and to choose the best of many possible ways to update the manuscript in response. We introduce this task for large language models and release ARIES, a dataset of review comments and their corresponding paper edits, to enable training and evaluating models. We study two versions of the task: comment-edit alignment and edit generation, and evaluate several baselines, including GPT-4. We find that models struggle even to identify the edits that correspond to a comment, especially in cases where the comment is phrased in an indirect way or where the edit addresses the spirit of a comment but not the precise request. When tasked with generating edits, GPT-4 often succeeds in addressing comments on a surface level, but it rigidly follows the wording of the feedback rather than the underlying intent, and includes fewer technical details than human-written edits. We hope that our formalization, dataset, and analysis will form a foundation for future work in this area.

 

동료 피드백에 기초한 과학 논문을 수정하는 것은 어려운 일이다 깊은 과학적 지식과 추론을 요구할 뿐만 아니라, 능력도 요구한다 높은 수준의 피드백에서 암묵적인 요청을 인식하고 선택한다 이에 대응하여 원고를 업데이트할 수 있는 여러 가지 가능한 방법 중 가장 좋습니다. 소개합니다 대규모 언어 모델 및 ARIES 릴리스에 대한 이 작업, 검토 데이터 세트 교육 및 평가를 가능하게 하는 코멘트 및 해당 논문 편집 모델. 우리는 두 가지 버전의 작업을 연구한다: 주석 편집 정렬과 편집 생성 및 GPT-4를 포함한 여러 기준선을 평가한다. 우리는 다음을 발견한다 모델들은 댓글에 해당하는 편집을 식별하는 데조차 어려움을 겪는다, 특히 논평이 간접적인 방법으로 표현된 경우 또는 어디에서 편집은 댓글의 정신을 다루지만 정확한 요청은 다루지 않습니다. 언제 편집을 생성하는 작업을 수행하는 GPT-4는 종종 코멘트를 처리하는 데 성공한다 표면 수준, 그러나 그것은 피드백의 문구를 엄격하게 따른다 근본적인 의도, 그리고 인간이 작성한 것보다 적은 기술적 세부 사항을 포함한다 우리는 우리의 공식화, 데이터 세트, 그리고 분석이 형성되기를 바란다 이 분야에서의 향후 작업을 위한 기반. 

 

 

Overview of Robust and Multilingual Automatic Evaluation Metrics for Open-Domain Dialogue Systems at DSTC 11 Track 4

 

The advent and fast development of neural networks have revolutionized the research on dialogue systems and subsequently have triggered various challenges regarding their automatic evaluation. Automatic evaluation of open-domain dialogue systems as an open challenge has been the center of the attention of many researchers. Despite the consistent efforts to improve automatic metrics' correlations with human evaluation, there have been very few attempts to assess their robustness over multiple domains and dimensions. Also, their focus is mainly on the English language. All of these challenges prompt the development of automatic evaluation metrics that are reliable in various domains, dimensions, and languages. This track in the 11th Dialogue System Technology Challenge (DSTC11) is part of the ongoing effort to promote robust and multilingual automatic evaluation metrics. This article describes the datasets and baselines provided to participants and discusses the submission and result details of the two proposed subtasks.

 

신경망의 출현과 빠른 발전은 혁명을 일으켰다 대화 시스템에 대한 연구와 그에 따른 다양한 도전들을 촉발시켰다 그들의 자동 평가와 관련하여. 오픈 도메인 자동 평가 공개적인 도전으로서의 대화 시스템은 관심의 중심이었다 많은 연구자들. 자동 측정 기준을 개선하기 위한 지속적인 노력에도 불구하고' 인간 평가와의 상관관계, 평가하려는 시도는 거의 없었다 여러 영역 및 차원에 걸친 견고성. 또한 그들의 초점은 주로 영어에 관한 것이다. 이러한 모든 도전은 개발을 촉진한다 다양한 도메인에서 신뢰할 수 있는 자동 평가 지표의, 차원, 언어. 11차 대화 시스템 기술의 이 트랙 과제(DSTC11)는 견고하고 강력한 제품을 홍보를 위한 지속적인 노력의 일부이다 다국어 자동 평가 메트릭입니다. 이 문서에서는 데이터 세트에 대해 설명합니다 참가자에게 제공되는 기준선 및 제출 및 결과에 대해 논의합니다 제안된 두 하위 작업의 세부 정보입니다. 

 

 

반응형

댓글