MERA: A Comprehensive LLM Evaluation in Russian
Abstract:Over the past few years, one of the most notable advancements in AI research has been in foundation models (FMs), headlined by the rise of language models (LMs). As the models' size increases, LMs demonstrate enhancements in measurable aspects and the development of new qualitative features. However, despite researchers' attention and the rapid growth in LM application, the capabilities, limitations, and associated risks still need to be better understood. To address these issues, we introduce an open Multimodal Evaluation of Russian-language Architectures (MERA), a new instruction benchmark for evaluating foundation models oriented towards the Russian language. The benchmark encompasses 21 evaluation tasks for generative models in 11 skill domains and is designed as a black-box test to ensure the exclusion of data leakage. The paper introduces a methodology to evaluate FMs and LMs in zero- and few-shot fixed instruction settings that can be extended to other modalities. We propose an evaluation methodology, an open-source code base for the MERA assessment, and a leaderboard with a submission system. We evaluate open LMs as baselines and find that they are still far behind the human level. We publicly release MERA to guide forthcoming research, anticipate groundbreaking model features, standardize the evaluation procedure, and address potential societal drawbacks.
추상화:지난 몇 년 동안 AI 연구에서 가장 주목할 만한 발전 중 하나는 언어 모델(LM)의 부상으로 인한 기반 모델(FM)이었다. 모델의 크기가 증가함에 따라 LM은 측정 가능한 측면에서 향상되고 새로운 질적 기능이 개발되는 것을 보여준다. 그러나, 연구자들의 관심과 LM 적용의 급속한 성장에도 불구하고, 여전히 능력, 한계 및 관련 위험을 더 잘 이해할 필요가 있다. 이러한 문제를 해결하기 위해 러시아어를 지향하는 기반 모델을 평가하기 위한 새로운 지침 벤치마크인 개방형 MERA(Multimodal Evaluation of Russian-Language Architectures)를 소개한다. 벤치마크는 11개 스킬 도메인의 생성 모델에 대한 21개의 평가 과제를 포괄하며 데이터 유출 배제를 보장하기 위한 블랙박스 테스트로 설계되었다. 본 논문에서는 다른 양식으로 확장할 수 있는 제로 샷 및 퓨 샷 고정 명령 설정에서 FM 및 LM을 평가하는 방법론을 소개한다. 평가 방법론, MERA 평가를 위한 오픈 소스 코드 기반, 제출 시스템을 갖춘 리더보드를 제안한다. 우리는 열린 LM을 기준선으로 평가하고 그것들이 여전히 인간 수준에 훨씬 뒤떨어져 있다는 것을 발견했다. 우리는 MERA를 공개적으로 공개하여 미래의 연구를 안내하고 획기적인 모델 특징을 예측하며 평가 절차를 표준화하고 잠재적인 사회적 단점을 해결한다.
MARG: Multi-Agent Review Generation for Scientific Papers
Abstract:We study the ability of LLMs to generate feedback for scientific papers and develop MARG, a feedback generation approach using multiple LLM instances that engage in internal discussion. By distributing paper text across agents, MARG can consume the full text of papers beyond the input length limitations of the base LLM, and by specializing agents and incorporating sub-tasks tailored to different comment types (experiments, clarity, impact) it improves the helpfulness and specificity of feedback. In a user study, baseline methods using GPT-4 were rated as producing generic or very generic comments more than half the time, and only 1.7 comments per paper were rated as good overall in the best baseline. Our system substantially improves the ability of GPT-4 to generate specific and helpful feedback, reducing the rate of generic comments from 60% to 29% and generating 3.7 good comments per paper (a 2.2x improvement).
추상화:우리는 LLM이 과학 논문에 대한 피드백을 생성할 수 있는 능력을 연구하고, 내부 논의에 참여하는 여러 LLM 인스턴스를 사용한 피드백 생성 접근법인 MARG를 개발한다. MARG는 에이전트 간 종이 텍스트를 배포함으로써 기본 LLM의 입력 길이 제한을 넘어 논문 전문을 소비할 수 있으며, 에이전트를 전문화하고 다양한 코멘트 유형(실험, 명확성, 영향)에 맞춘 하위 작업을 통합함으로써 피드백의 유용성과 특수성을 향상시킨다. 사용자 연구에서 GPT-4를 사용한 기준선 방법은 일반 또는 매우 일반적인 의견을 절반 이상 생성하는 것으로 평가되었으며, 최상의 기준선에서 논문당 1.7개의 의견만이 전체적으로 양호한 것으로 평가되었다. 우리의 시스템은 GPT-4가 구체적이고 유용한 피드백을 생성하는 능력을 실질적으로 향상시켜 일반 댓글 비율을 60%에서 29%로 줄이고 논문당 3.7개의 좋은 댓글을 생성한다(2.2배 향상).
The Critique of Critique
Abstract:Critique, as a natural language description for assessing the quality of model-generated content, has been proven to play an essential role in the training, evaluation, and refinement of Large Language Models (LLMs). However, there is a lack of principled understanding in evaluating the quality of the critique itself. In this paper, we pioneer the critique of critique, termed MetaCritique, which is a framework to evaluate the critique from two aspects, i.e., factuality as precision score and comprehensiveness as recall score. We calculate the harmonic mean of precision and recall as the overall rating called F1 score. To obtain a reliable evaluation outcome, we propose Atomic Information Units (AIUs), which describe the critique in a more fine-grained manner. MetaCritique takes each AIU into account and aggregates each AIU's judgment for the overall score. Moreover, given the evaluation process involves intricate reasoning, our MetaCritique provides a natural language rationale to support each judgment. We construct a meta-evaluation dataset containing 300 critiques (2653 AIUs) across four tasks (question answering, reasoning, entailment, and summarization), and we conduct a comparative study to demonstrate the feasibility and effectiveness. Experiments also show superior critique judged by MetaCritique leads to better refinement, indicating generative artificial intelligence indeed has the potential to be significantly advanced with our MetaCritique. We will release relevant code and meta-evaluation datasets at this https URL.
추상화:비평은 모델 생성 콘텐츠의 품질을 평가하기 위한 자연어 기술로서 LLM(Large Language Models)의 훈련, 평가 및 개선에 중요한 역할을 하는 것으로 입증되었다. 그러나 비평 자체의 질을 평가하는 데 있어서는 원론적인 이해가 부족하다. 본 논문에서는 메타크리틱이라는 비평 비평을 개척하는데, 이는 비평을 정확성 점수로서의 사실성과 회상 점수로서의 포괄성이라는 두 가지 측면에서 평가하는 틀이다. 우리는 정밀도와 회상의 조화 평균을 F1 점수라는 전체 등급으로 계산한다. 신뢰할 수 있는 평가 결과를 얻기 위해 보다 세분화된 방식으로 비판을 설명하는 원자 정보 단위(AIU)를 제안한다. 메타크리틱은 각 AIU를 고려하여 전체 점수에 대한 각 AIU의 판단을 종합한다. 또한 평가 과정이 복잡한 추론을 수반한다는 점에서, 우리의 메타크리틱은 각 판단을 뒷받침할 수 있는 자연 언어적 근거를 제공한다. 4가지 과제(질문응답, 추론, 수반, 요약)에 걸쳐 300개의 비판(2653개의 AIU)을 포함하는 메타평가 데이터셋을 구성하고, 타당성과 효과를 입증하기 위한 비교 연구를 수행한다. 실험은 또한 메타크리틱에 의해 판단된 우수한 비평이 더 나은 정교화로 이어진다는 것을 보여주며, 생성 인공 지능이 실제로 우리의 메타크리틱과 함께 크게 발전할 가능성이 있음을 보여준다. 이 https URL에서 관련 코드 및 메타 평가 데이터 세트를 공개합니다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2024-01-10] 오늘의 자연어처리 (0) | 2024.01.10 |
---|---|
[2024-01-09] 오늘의 자연어처리 (2) | 2024.01.09 |
[2024-01-08] 오늘의 자연어처리 (1) | 2024.01.08 |
[2024-01-07] 오늘의 자연어처리 (0) | 2024.01.07 |
[2024-01-06] 오늘의 자연어처리 (1) | 2024.01.06 |
댓글