LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models
Abstract:Large language models (LLMs) provide excellent text-generation capabilities, but standard prompting and generation methods generally do not lead to intentional or goal-directed agents and might necessitate considerable prompt tuning. This becomes particularly apparent in multi-turn conversations: even the best current LLMs rarely ask clarifying questions, engage in explicit information gathering, or take actions now that lead to better decisions after multiple turns. Reinforcement learning has the potential to leverage the powerful modeling capabilities of LLMs, as well as their internal representation of textual interactions, to create capable goal-directed language agents. This can enable intentional and temporally extended interactions, such as with humans, through coordinated persuasion and carefully crafted questions, or in goal-directed play through text games to bring about desired final outcomes. However, enabling this requires the community to develop stable and reliable reinforcement learning algorithms that can effectively train LLMs. Developing such algorithms requires tasks that can gauge progress on algorithm design, provide accessible and reproducible evaluations for multi-turn interactions, and cover a range of task properties and challenges in improving reinforcement learning algorithms. Our paper introduces the LMRL-Gym benchmark for evaluating multi-turn RL for LLMs, together with an open-source research framework containing a basic toolkit for getting started on multi-turn RL with offline value-based and policy-based RL methods. Our benchmark consists of 8 different language tasks, which require multiple rounds of language interaction and cover a range of tasks in open-ended dialogue and text games.
추상화:LLM(Large Language Model)은 우수한 텍스트 생성 기능을 제공하지만 표준 프롬프트 및 생성 방법은 일반적으로 의도적이거나 목표 지향적인 에이전트로 이어지지 않으며 상당한 신속한 조정이 필요할 수 있다. 이는 특히 여러 차례의 대화에서 명확하게 드러납니다. 현재 최고의 LLM조차도 명확한 질문을 하거나 명시적인 정보 수집에 참여하거나 여러 차례의 대화 후에 더 나은 결정으로 이어지는 조치를 취하는 경우가 거의 없습니다. 강화 학습은 LLM의 강력한 모델링 기능과 텍스트 상호 작용의 내부 표현을 활용하여 유능한 목표 지향 언어 에이전트를 만들 수 있는 잠재력을 가지고 있다. 이를 통해 인간과의 의도적이고 시간적으로 확장된 상호작용, 예를 들어 조정된 설득과 신중하게 만들어진 질문을 통해 또는 텍스트 게임을 통한 목표 지향적인 플레이를 가능하게 하여 원하는 최종 결과를 가져올 수 있다. 그러나 이를 가능하게 하기 위해서는 커뮤니티가 LLM을 효과적으로 훈련시킬 수 있는 안정적이고 신뢰성 있는 강화 학습 알고리즘을 개발해야 한다. 이러한 알고리즘을 개발하기 위해서는 알고리즘 설계의 진행 상황을 측정하고, 멀티 턴 상호 작용에 대한 접근 가능하고 재현 가능한 평가를 제공할 수 있는 작업이 필요하다, 그리고 강화 학습 알고리즘을 개선하는 데 있어 다양한 작업 속성과 과제를 다룬다. 본 논문은 LLM에 대한 다중 턴 RL 평가를 위한 LMRL-Gym 벤치마크와 오프라인 가치 기반 및 정책 기반 RL 방법으로 다중 턴 RL에서 시작하기 위한 기본 툴킷을 포함하는 오픈 소스 연구 프레임워크를 소개한다. 우리의 벤치마크는 8개의 다른 언어 작업으로 구성되어 있으며, 이 작업은 여러 라운드의 언어 상호 작용을 필요로 하며 개방형 대화 및 텍스트 게임의 다양한 작업을 다룹니다.
Can training neural language models on a curriculum with developmentally plausible data improve alignment with human reading behavior?
Abstract:The use of neural language models to model human behavior has met with mixed success. While some work has found that the surprisal estimates from these models can be used to predict a wide range of human neural and behavioral responses, other work studying more complex syntactic phenomena has found that these surprisal estimates generate incorrect behavioral predictions. This paper explores the extent to which the misalignment between empirical and model-predicted behavior can be minimized by training models on more developmentally plausible data, such as in the BabyLM Challenge. We trained teacher language models on the BabyLM "strict-small" dataset and used sentence level surprisal estimates from these teacher models to create a curriculum. We found tentative evidence that our curriculum made it easier for models to acquire linguistic knowledge from the training data: on the subset of tasks in the BabyLM challenge suite evaluating models' grammatical knowledge of English, models first trained on the BabyLM data curriculum and then on a few randomly ordered training epochs performed slightly better than models trained on randomly ordered epochs alone. This improved linguistic knowledge acquisition did not result in better alignment with human reading behavior, however: models trained on the BabyLM dataset (with or without a curriculum) generated predictions that were as misaligned with human behavior as models trained on larger less curated datasets. This suggests that training on developmentally plausible datasets alone is likely insufficient to generate language models capable of accurately predicting human language processing.
추상화:인간의 행동을 모델링하기 위해 신경 언어 모델을 사용하는 것은 엇갈린 성공을 거두었다. 일부 연구는 이러한 모델의 놀라운 추정치가 광범위한 인간의 신경 및 행동 반응을 예측하는 데 사용될 수 있다는 것을 발견했지만, 더 복잡한 구문 현상을 연구하는 다른 연구는 이러한 놀라운 추정치가 잘못된 행동 예측을 생성한다는 것을 발견했다. 본 논문은 Baby와 같이 보다 발전적으로 타당한 데이터에 대한 모델을 훈련함으로써 경험적 행동과 모델 예측 행동 간의 불일치를 최소화할 수 있는 정도를 탐구한다LM 챌린지. 우리는 BabyLM "strict-small" 데이터 세트에서 교사 언어 모델을 훈련하고 이러한 교사 모델에서 얻은 문장 수준 놀라운 추정치를 사용하여 교육 과정을 만들었다. 우리는 우리의 커리큘럼이 모델들이 훈련 데이터로부터 언어적 지식을 더 쉽게 습득할 수 있도록 하는 잠정적인 증거를 발견했다: 아기의 작업의 하위 집합에 대해모델들의 영어 문법 지식을 평가하는 LM challenge suet, 모델들은 먼저 Baby에 대해 훈련을 받았다LM 데이터 커리큘럼과 무작위로 정렬된 몇 개의 훈련 에포크는 무작위로 정렬된 에포크에서만 훈련된 모델보다 약간 더 나은 성능을 보였다. 그러나 이렇게 향상된 언어적 지식 습득은 인간의 읽기 행동과 더 잘 일치하는 결과를 낳지는 못했다: 아기에 대해 훈련된 모델LM 데이터 세트(교육 과정이 있든 없든)는 덜 선별된 더 큰 데이터 세트에서 훈련된 모델만큼 인간 행동과 잘못된 예측을 생성했다. 이는 개발적으로 타당한 데이터 세트에 대한 훈련만으로는 인간의 언어 처리를 정확하게 예측할 수 있는 언어 모델을 생성하기에 불충분할 가능성이 있음을 시사한다.
TaskBench: Benchmarking Large Language Models for Task Automation
Abstract:Recently, the incredible progress of large language models (LLMs) has ignited the spark of task automation, which decomposes the complex tasks described by user instructions into sub-tasks, and invokes external tools to execute them, and plays a central role in autonomous agents. However, there lacks a systematic and standardized benchmark to foster the development of LLMs in task automation. To this end, we introduce TaskBench to evaluate the capability of LLMs in task automation. Specifically, task automation can be formulated into three critical stages: task decomposition, tool invocation, and parameter prediction to fulfill user intent. This complexity makes data collection and evaluation more challenging compared to common NLP tasks. To generate high-quality evaluation datasets, we introduce the concept of Tool Graph to represent the decomposed tasks in user intent, and adopt a back-instruct method to simulate user instruction and annotations. Furthermore, we propose TaskEval to evaluate the capability of LLMs from different aspects, including task decomposition, tool invocation, and parameter prediction. Experimental results demonstrate that TaskBench can effectively reflects the capability of LLMs in task automation. Benefiting from the mixture of automated data construction and human verification, TaskBench achieves a high consistency compared to the human evaluation, which can be utilized as a comprehensive and faithful benchmark for LLM-based autonomous agents.
추상화:최근 대형 언어 모델(LLM)의 놀라운 진행은 사용자 지시에 의해 설명되는 복잡한 작업을 하위 작업으로 분해하고 이를 실행하기 위해 외부 도구를 호출하는 작업 자동화의 불꽃에 불을 붙였으며 자율 에이전트에서 중심 역할을 한다. 그러나 업무 자동화에 있어서 LLM의 개발을 촉진하기 위한 체계적이고 표준화된 벤치마크가 부족한 실정이다. 이를 위해 TaskBench를 도입하여 작업 자동화에서 LLM의 능력을 평가한다. 구체적으로, 태스크 자동화는 사용자 의도를 충족시키기 위해 태스크 분해, 툴 호출, 파라미터 예측의 세 가지 중요한 단계로 공식화될 수 있다. 이러한 복잡성은 일반적인 NLP 작업에 비해 데이터 수집 및 평가를 더 어렵게 만든다. 고품질 평가 데이터 세트를 생성하기 위해 분해된 작업을 사용자 의도로 표현하기 위해 도구 그래프의 개념을 도입하고 사용자 지시 및 주석을 시뮬레이션하는 백인스트럭션 방법을 채택한다. 또한 과제 분해, 도구 호출, 파라미터 예측 등 다양한 측면에서 LLM의 능력을 평가하기 위해 TaskEval을 제안한다. 실험 결과는 TaskBench가 LLMs의 능력을 업무 자동화에 효과적으로 반영할 수 있음을 보여준다. TaskBench는 자동화된 데이터 구축과 인적 검증이 혼합된 이점을 활용하여 인적 평가 대비 높은 일관성을 달성하며, 이는 LLM 기반 자율 에이전트의 종합적이고 충실한 벤치마크로 활용될 수 있다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-12-06] 오늘의 자연어처리 (2) | 2023.12.06 |
---|---|
[2023-12-05] 오늘의 자연어처리 (1) | 2023.12.05 |
[2023-12-03] 오늘의 자연어처리 (3) | 2023.12.03 |
[2023-12-02] 오늘의 자연어처리 (1) | 2023.12.02 |
[2023-12-01] 오늘의 자연어처리 (1) | 2023.12.01 |
댓글