본문 바로가기
오늘의 자연어 처리

[2023-05-19] 오늘의 자연어처리

by 지환이아빠 2023. 5. 19.
반응형

M3KE: A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models

 

Large language models have recently made tremendous progress in a variety of aspects, e.g., cross-task generalization, instruction following. Comprehensively evaluating the capability of large language models in multiple tasks is of great importance. In this paper, we propose M3KE, a Massive Multi-Level Multi-Subject Knowledge Evaluation benchmark, which is developed to measure knowledge acquired by Chinese large language models by testing their multitask accuracy in zero- and few-shot settings. We have collected 20,477 questions from 71 tasks. Our selection covers all major levels of Chinese education system, ranging from the primary school to college, as well as a wide variety of subjects, including humanities, history, politics, law, education, psychology, science, technology, art and religion. All questions are multiple-choice questions with four options, hence guaranteeing a standardized and unified assessment process. We've assessed a number of state-of-the-art open-source Chinese large language models on the proposed benchmark. The size of these models varies from 335M to 130B parameters. Experiment results demonstrate that they perform significantly worse than GPT-3.5 that reaches an accuracy of ~ 48% on M3KE. The dataset is available at this https URL.

 

대형 언어 모델은 최근 다양한 분야에서 엄청난 발전을 이루었다 측면(예: 교차 작업 일반화, 지침 후속). 여러 언어 모델의 능력을 종합적으로 평가하는 것 일은 매우 중요하다. 이 논문에서, 우리는 M3KE, 매시브를 제안한다 다단계 다과목 지식 평가 벤치마크를 개발하여 중국의 큰 언어 모델에 의해 습득된 지식을 시험함으로써 측정한다 제로샷 및 퓨샷 설정에서 멀티태스킹 정확도. 우리는 20,477개를 모았다 71개 과제에서 질문을 받았습니다. 우리의 선택은 중국어의 모든 주요 수준을 포함한다 초등학교에서 대학에 이르기까지 광범위한 교육 시스템 인문학, 역사, 정치, 법, 교육을 포함한 다양한 주제들, 심리학, 과학, 기술, 예술 그리고 종교. 모든 질문은 네 가지 옵션이 있는 객관식 문제, 따라서 표준화된 문제 보장 통합된 평가 프로세스를 제공합니다. 우리는 많은 최첨단 기술을 평가했다 제안된 벤치마크에서 오픈 소스 중국어 큰 언어 모델. 사이즈는 이 모델들 중 335M에서 130B까지의 매개 변수가 있습니다. 실험 결과 GPT-3.5보다 성능이 훨씬 더 나쁘다는 것을 증명한다 M3KE에서 ~48%의 정확도. 데이터 세트는 다음 사이트에서 사용할 수 있습니다 이 https URL. 

 

 

PaLM 2 Technical Report

 

We introduce PaLM 2, a new state-of-the-art language model that has better multilingual and reasoning capabilities and is more compute-efficient than its predecessor PaLM. PaLM 2 is a Transformer-based model trained using a mixture of objectives. Through extensive evaluations on English and multilingual language, and reasoning tasks, we demonstrate that PaLM 2 has significantly improved quality on downstream tasks across different model sizes, while simultaneously exhibiting faster and more efficient inference compared to PaLM. This improved efficiency enables broader deployment while also allowing the model to respond faster, for a more natural pace of interaction. PaLM 2 demonstrates robust reasoning capabilities exemplified by large improvements over PaLM on BIG-Bench and other reasoning tasks. PaLM 2 exhibits stable performance on a suite of responsible AI evaluations, and enables inference-time control over toxicity without additional overhead or impact on other capabilities. Overall, PaLM 2 achieves state-of-the-art performance across a diverse set of tasks and capabilities. When discussing the PaLM 2 family, it is important to distinguish between pre-trained models (of various sizes), fine-tuned variants of these models, and the user-facing products that use these models. In particular, user-facing products typically include additional pre- and post-processing steps. Additionally, the underlying models may evolve over time. Therefore, one should not expect the performance of user-facing products to exactly match the results reported in this report.

 

우리는 더 나은 새로운 최첨단 언어 모델인 PaLM 2를 소개한다 다국어 및 추론 기능과 그것보다 더 계산 효율적이다 이전의 PaLM. PaLM 2는 혼합물을 사용하여 훈련된 트랜스포머 기반 모델입니다 목적의. 영어와 다국어에 대한 광범위한 평가를 통해 언어와 추론 과제, 우리는 PaLM 2가 상당히 가지고 있다는 것을 증명한다 다양한 모델 크기에 걸쳐 다운스트림 작업의 품질 향상 동시에 PaLM과 비교하여 더 빠르고 효율적인 추론을 보여줍니다. 이러한 향상된 효율성은 광범위한 구현을 가능하게 하는 동시에 보다 자연스러운 상호 작용 속도를 위해 더 빨리 반응하는 모델. PaLM 2 대규모 개선으로 예시된 강력한 추론 능력을 보여줍니다 BIG-Bench 및 기타 추론 작업에서 PaLM을 초과합니다. PaLM 2는 안정적입니다 일련의 책임 있는 AI 평가에 대한 성과, 그리고 가능한 추가적인 오버헤드나 영향 없이 독성에 대한 추론 시간 제어 기타 능력. 전반적으로, PaLM 2는 최첨단 성능을 달성합니다 다양한 작업 및 기능을 수행할 수 있습니다. PalLM 2 제품군을 논의할 때 다음을 구별하는 것이 중요합니다 사전 훈련된 모델(다양한 크기의), 이러한 모델의 미세 조정 변형 및 이러한 모델을 사용하는 사용자 대면 제품. 특히, 사용자 대면 제품에는 일반적으로 추가적인 사전 및 사후 처리 단계가 포함됩니다. 또한 기본 모델은 시간이 지남에 따라 진화할 수 있습니다. 그러므로, 우리는 해야 한다 사용자 대면 제품의 성능이 결과와 정확히 일치할 것으로 예상하지 않음 이 보고서에 보고되었다. 

 

 

LeTI: Learning to Generate from Textual Interactions

 

Finetuning pre-trained language models (LMs) enhances the models' capabilities. Prior techniques fine-tune a pre-trained LM on input-output pairs (e.g., instruction fine-tuning), or with numerical rewards that gauge the quality of its outputs (e.g., reinforcement learning from human feedback). We explore LMs' potential to learn from textual interactions (LeTI) that not only check their correctness with binary labels, but also pinpoint and explain errors in their outputs through textual feedback. Our investigation focuses on the code generation task, where the model produces code pieces in response to natural language instructions. This setting invites a natural and scalable way to acquire the textual feedback: the error messages and stack traces from code execution using a Python interpreter. LeTI iteratively fine-tunes the model, using the LM objective, on a concatenation of natural language instructions, LM-generated programs, and textual feedback, which is only provided when the generated program fails to solve the task. Prepended to this fine-tuning text, a binary reward token is used to differentiate correct and buggy solutions. On MBPP, a code generation dataset, LeTI substantially improves the performance of two base LMs of different scales. LeTI requires no ground-truth outputs for training and even outperforms a fine-tuned baseline that does. LeTI's strong performance generalizes to other datasets. Trained on MBPP, it achieves comparable or better performance than the base LMs on unseen problems in HumanEval. Furthermore, compared to binary feedback, we observe that textual feedback leads to improved generation quality and sample efficiency, achieving the same performance with fewer than half of the gradient steps. LeTI is equally applicable in natural language tasks when they can be formulated as code generation, which we empirically verified on event argument extraction.

 

사전 훈련된 언어 모델(LM)을 미세 조정하면 모델의 성능이 향상된다 성능. 이전 기술은 입출력 쌍에서 사전 훈련된 LM을 미세 조정한다 (예: 명령 미세 조정) 또는 다음을 측정하는 수치 보상을 사용합니다 출력의 품질(예: 인간 피드백을 통한 강화 학습). 우리가 텍스트 상호 작용(LeTI)에서 학습할 수 있는 LM의 잠재력을 탐구한다 이진 레이블을 사용하여 정확성을 확인하고, 또한 정확한 위치를 파악하여 설명합니다 텍스트 피드백을 통한 출력의 오류. 우리의 조사는 다음에 초점을 맞추고 있다 모델이 응답하여 코드 조각을 생성하는 코드 생성 작업 자연어 사용법. 이 설정은 자연스럽고 확장 가능한 방법을 초대합니다 텍스트 피드백을 획득하다: 코드에서 오류 메시지와 스택 추적 Python 인터프리터를 사용하여 실행합니다. LeTI가 반복적으로 모델을 미세 조정합니다, LM 목표를 사용하여 자연어 지침의 연결에 대해, LM 생성 프로그램 및 텍스트 피드백은 다음과 같은 경우에만 제공됩니다 생성된 프로그램이 작업을 해결하지 못합니다. 이 미세 조정 텍스트 앞에 추가하면, 이진 보상 토큰은 정확한 솔루션과 버그가 있는 솔루션을 구별하는 데 사용됩니다. 온 코드 생성 데이터 세트인 MBPP, LeTI는 성능을 크게 향상시킨다 서로 다른 스케일의 두 개의 기본 LM. LeTI는 다음을 위한 실측 출력을 필요로 하지 않습니다 훈련은 물론이고 심지어 미세 조정된 기준선을 능가한다. 레티는 강하다 성능은 다른 데이터셋으로 일반화됩니다. MBPP에 대해 교육을 받았으며, 이를 달성했다 보이지 않는 문제에 대한 기본 LM과 비교하거나 더 나은 성능 Human Eval. 또한 이진 피드백과 비교하여 텍스트를 관찰한다 피드백은 발전 품질과 샘플 효율을 개선하고, 달성한다 그라데이션 스텝의 절반 미만으로 동일한 성능을 제공합니다. LeTI는 다음과 같이 공식화될 수 있을 때 자연어 작업에 동일하게 적용할 수 있다 이벤트 인수 추출에서 경험적으로 검증한 코드 생성. 

 

 

반응형

댓글