ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks
Abstract:Large language models have shown promising performance in code generation benchmarks. However, a considerable divide exists between these benchmark achievements and their practical applicability, primarily attributed to real-world programming's reliance on pre-existing libraries. Instead of evaluating LLMs to code from scratch, this work aims to propose a new evaluation setup where LLMs use open-source libraries to finish machine learning tasks. Therefore, we propose ML-Bench, an expansive benchmark developed to assess the effectiveness of LLMs in leveraging existing functions in open-source libraries. Consisting of 10044 samples spanning 130 tasks over 14 notable machine learning GitHub repositories. In this setting, given a specific machine learning task instruction and the accompanying README in a codebase, an LLM is tasked to generate code to accomplish the task. This necessitates the comprehension of long and language-code interleaved documents, as well as the understanding of complex cross-file code structures, introducing new challenges. Notably, while GPT-4 exhibits remarkable improvement over other LLMs, it manages to accomplish only 39.73\% of the tasks, leaving a huge space for improvement. We address these challenges by proposing ML-Agent, designed to effectively navigate the codebase, locate documentation, retrieve code, and generate executable code. Empirical results demonstrate that ML-Agent, built upon GPT-4, results in further improvements. Code, data, and models are available at \url{this https URL}.
추상화:큰 언어 모델은 코드 생성 벤치마크에서 유망한 성능을 보여주었다. 그러나 이러한 벤치마크 성과와 실제 적용 가능성 사이에는 상당한 차이가 존재하며, 이는 주로 실제 프로그래밍이 기존 라이브러리에 의존하는 데 기인한다. 본 연구는 LLM을 처음부터 코드화하기 위해 평가하는 대신, LLM이 오픈 소스 라이브러리를 사용하여 기계 학습 작업을 완료하는 새로운 평가 설정을 제안하는 것을 목표로 한다. 따라서 오픈 소스 라이브러리에서 기존 기능을 활용하는 데 있어 LLM의 효과를 평가하기 위해 개발된 확장 벤치마크인 ML-Bench를 제안한다. 14개의 주목할 만한 기계 학습 GitHub 저장소에 걸쳐 130개의 작업에 걸쳐 10044개의 샘플로 구성된다. 이 설정에서, 특정 기계 학습 태스크 명령과 코드 베이스에서 수반되는 README가 주어지면, LLM은 태스크를 달성하기 위한 코드를 생성하는 임무를 맡는다. 이를 위해서는 긴 언어 코드 인터리빙 문서에 대한 이해와 복잡한 파일 간 코드 구조에 대한 이해가 필요하며, 새로운 과제를 도입해야 한다. 특히, GPT-4는 다른 LLM에 비해 현저한 개선을 보이지만 39.73\%의 작업만 수행하여 개선의 여지가 크다. 우리는 코드베이스를 효과적으로 탐색하고 문서를 찾고 코드를 검색하고 실행 코드를 생성하도록 설계된 ML-Agent를 제안함으로써 이러한 문제를 해결한다. 경험적 결과는 GPT-4를 기반으로 구축된 ML-Agent가 추가적인 개선을 초래한다는 것을 보여준다. 코드, 데이터 및 모델은 \url{this https URL}에서 사용할 수 있습니다.
$\textit{Dial BeInfo for Faithfulness}$: Improving Factuality of Information-Seeking Dialogue via Behavioural Fine-Tuning
Abstract:Factuality is a crucial requirement in information seeking dialogue: the system should respond to the user's queries so that the responses are meaningful and aligned with the knowledge provided to the system. However, most modern large language models suffer from hallucinations, that is, they generate responses not supported by or contradicting the knowledge source. To mitigate the issue and increase faithfulness of information-seeking dialogue systems, we introduce BeInfo, a simple yet effective method that applies behavioural tuning to aid information-seeking dialogue. Relying on three standard datasets, we show that models tuned with BeInfo} become considerably more faithful to the knowledge source both for datasets and domains seen during BeInfo-tuning, as well as on unseen domains, when applied in a zero-shot manner. In addition, we show that the models with 3B parameters (e.g., Flan-T5) tuned with BeInfo demonstrate strong performance on data from real `production' conversations and outperform GPT4 when tuned on a limited amount of such realistic in-domain dialogues.
추상화:사실성은 대화를 추구하는 정보에서 중요한 요건이다: 시스템은 사용자의 질문에 응답하여 응답이 의미 있고 시스템에 제공된 지식과 일치하도록 해야 한다. 그러나 대부분의 현대 대형 언어 모델은 환각에 시달리며, 즉 지식 소스에 의해 지원되지 않거나 모순되는 응답을 생성한다. 정보 추구 대화 시스템의 문제를 완화하고 충실도를 높이기 위해, 우리는 정보 추구 대화를 돕기 위해 행동 조정을 적용하는 간단하지만 효과적인 방법인 BeInfo를 소개한다. 세 가지 표준 데이터 세트에 의존하여 BeInfo}로 조정된 모델이 제로샷 방식으로 적용될 때 BeInfo 조정 중에 보이는 데이터 세트와 도메인뿐만 아니라 보이지 않는 도메인 모두에 대해 지식 소스에 훨씬 더 충실해진다는 것을 보여준다. 또한 BeInfo로 튜닝된 3B 매개 변수(예: Flan-T5)를 사용한 모델이 실제 '생산' 대화의 데이터에 대해 강력한 성능을 보여주고 제한된 양의 이러한 현실적인 도메인 내 대화에서 튜닝되었을 때 GPT4를 능가한다는 것을 보여준다.
SUQL: Conversational Search over Structured and Unstructured Data with Large Language Models
Abstract:Many knowledge sources consist of both structured information such as relational databases as well as unstructured free text. Building a conversational interface to such data sources is challenging. This paper introduces SUQL, Structured and Unstructured Query Language, the first formal executable representation that naturally covers compositions of structured and unstructured data queries. Specifically, it augments SQL with several free-text primitives to form a precise, succinct, and expressive representation. This paper also presents a conversational search agent based on large language models, including a few-shot contextual semantic parser for SUQL. To validate our approach, we introduce a dataset consisting of crowdsourced questions and conversations about real restaurants. Over 51% of the questions in the dataset require both structured and unstructured data, suggesting that it is a common phenomenon. We show that our few-shot conversational agent based on SUQL finds an entity satisfying all user requirements 89.3% of the time, compared to just 65.0% for a strong and commonly used baseline.
추상화:많은 지식 소스는 관계형 데이터베이스와 같은 정형화된 정보와 비정형화된 자유 텍스트로 구성된다. 이러한 데이터 소스에 대한 대화 인터페이스를 구축하는 것은 어렵다. 본 논문에서는 정형 및 비정형 데이터 쿼리의 구성을 자연스럽게 다루는 최초의 공식 실행 파일 표현인 SUQL, 정형 및 비정형 쿼리 언어를 소개한다. 특히 SQL을 여러 자유 텍스트 프리미티브로 증강하여 정확하고 간결하며 표현적인 표현을 형성한다. 본 논문에서는 또한 SUQL에 대한 몇 번의 상황별 의미 구문 분석기를 포함하여 대규모 언어 모델을 기반으로 한 대화형 검색 에이전트를 제시한다. 우리의 접근 방식을 검증하기 위해 실제 레스토랑에 대한 크라우드 소스 질문과 대화로 구성된 데이터 세트를 도입한다. 데이터셋의 질문 중 51% 이상이 정형화된 데이터와 비정형화된 데이터를 모두 필요로 하는 것으로 나타나 일반적인 현상임을 시사한다. 우리는 SUQL 기반의 몇 번의 대화 에이전트가 강력하고 일반적으로 사용되는 기준선의 경우 65.0%에 불과했던 것에 비해 89.3%의 시간 동안 모든 사용자 요구 사항을 충족하는 엔티티를 발견한다는 것을 보여준다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-11-21] 오늘의 자연어처리 (1) | 2023.11.21 |
---|---|
[2023-11-20] 오늘의 자연어처리 (0) | 2023.11.20 |
[2023-11-18] 오늘의 자연어처리 (0) | 2023.11.18 |
[2023-11-17] 오늘의 자연어처리 (0) | 2023.11.17 |
[2023-11-16] 오늘의 자연어처리 (0) | 2023.11.16 |
댓글