ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks
Abstract:Large language models have shown promising performance in code generation benchmarks. However, a considerable divide exists between these benchmark achievements and their practical applicability, primarily attributed to real-world programming's reliance on pre-existing libraries. Instead of evaluating LLMs to code from scratch, this work aims to propose a new evaluation setup where LLMs use open-source libraries to finish machine learning tasks. Therefore, we propose ML-Bench, an expansive benchmark developed to assess the effectiveness of LLMs in leveraging existing functions in open-source libraries. Consisting of 10044 samples spanning 130 tasks over 14 notable machine learning GitHub repositories. In this setting, given a specific machine learning task instruction and the accompanying README in a codebase, an LLM is tasked to generate code to accomplish the task. This necessitates the comprehension of long and language-code interleaved documents, as well as the understanding of complex cross-file code structures, introducing new challenges. Notably, while GPT-4 exhibits remarkable improvement over other LLMs, it manages to accomplish only 39.73\% of the tasks, leaving a huge space for improvement. We address these challenges by proposing ML-Agent, designed to effectively navigate the codebase, locate documentation, retrieve code, and generate executable code. Empirical results demonstrate that ML-Agent, built upon GPT-4, results in further improvements. Code, data, and models are available at \url{this https URL}.
추상화:큰 언어 모델은 코드 생성 벤치마크에서 유망한 성능을 보여주었다. 그러나 이러한 벤치마크 성과와 실제 적용 가능성 사이에는 상당한 차이가 존재하며, 이는 주로 실제 프로그래밍이 기존 라이브러리에 의존하는 데 기인한다. 본 연구는 LLM을 처음부터 코드화하기 위해 평가하는 대신, LLM이 오픈 소스 라이브러리를 사용하여 기계 학습 작업을 완료하는 새로운 평가 설정을 제안하는 것을 목표로 한다. 따라서 오픈 소스 라이브러리에서 기존 기능을 활용하는 데 있어 LLM의 효과를 평가하기 위해 개발된 확장 벤치마크인 ML-Bench를 제안한다. 14개의 주목할 만한 기계 학습 GitHub 저장소에 걸쳐 130개의 작업에 걸쳐 10044개의 샘플로 구성된다. 이 설정에서, 특정 기계 학습 태스크 명령과 코드 베이스에서 수반되는 README가 주어지면, LLM은 태스크를 달성하기 위한 코드를 생성하는 임무를 맡는다. 이를 위해서는 긴 언어 코드 인터리빙 문서에 대한 이해와 복잡한 파일 간 코드 구조에 대한 이해가 필요하며, 새로운 과제를 도입해야 한다. 특히, GPT-4는 다른 LLM에 비해 현저한 개선을 보이지만 39.73\%의 작업만 수행하여 개선의 여지가 크다. 우리는 코드베이스를 효과적으로 탐색하고 문서를 찾고 코드를 검색하고 실행 코드를 생성하도록 설계된 ML-Agent를 제안함으로써 이러한 문제를 해결한다. 경험적 결과는 GPT-4를 기반으로 구축된 ML-Agent가 추가적인 개선을 초래한다는 것을 보여준다. 코드, 데이터 및 모델은 \url{this https URL}에서 사용할 수 있습니다.
$\textit{Dial BeInfo for Faithfulness}$: Improving Factuality of Information-Seeking Dialogue via Behavioural Fine-Tuning
Abstract:Factuality is a crucial requirement in information seeking dialogue: the system should respond to the user's queries so that the responses are meaningful and aligned with the knowledge provided to the system. However, most modern large language models suffer from hallucinations, that is, they generate responses not supported by or contradicting the knowledge source. To mitigate the issue and increase faithfulness of information-seeking dialogue systems, we introduce BeInfo, a simple yet effective method that applies behavioural tuning to aid information-seeking dialogue. Relying on three standard datasets, we show that models tuned with BeInfo} become considerably more faithful to the knowledge source both for datasets and domains seen during BeInfo-tuning, as well as on unseen domains, when applied in a zero-shot manner. In addition, we show that the models with 3B parameters (e.g., Flan-T5) tuned with BeInfo demonstrate strong performance on data from real `production' conversations and outperform GPT4 when tuned on a limited amount of such realistic in-domain dialogues.
추상화:사실성은 대화를 추구하는 정보에서 중요한 요건이다: 시스템은 사용자의 질문에 응답하여 응답이 의미 있고 시스템에 제공된 지식과 일치하도록 해야 한다. 그러나 대부분의 현대 대형 언어 모델은 환각에 시달리며, 즉 지식 소스에 의해 지원되지 않거나 모순되는 응답을 생성한다. 정보 추구 대화 시스템의 문제를 완화하고 충실도를 높이기 위해, 우리는 정보 추구 대화를 돕기 위해 행동 조정을 적용하는 간단하지만 효과적인 방법인 BeInfo를 소개한다. 세 가지 표준 데이터 세트에 의존하여 BeInfo}로 조정된 모델이 제로샷 방식으로 적용될 때 BeInfo 조정 중에 보이는 데이터 세트와 도메인뿐만 아니라 보이지 않는 도메인 모두에 대해 지식 소스에 훨씬 더 충실해진다는 것을 보여준다. 또한 BeInfo로 튜닝된 3B 매개 변수(예: Flan-T5)를 사용한 모델이 실제 '생산' 대화의 데이터에 대해 강력한 성능을 보여주고 제한된 양의 이러한 현실적인 도메인 내 대화에서 튜닝되었을 때 GPT4를 능가한다는 것을 보여준다.
Cognitive Overload: Jailbreaking Large Language Models with Overloaded Logical Thinking
Abstract:While large language models (LLMs) have demonstrated increasing power, they have also given rise to a wide range of harmful behaviors. As representatives, jailbreak attacks can provoke harmful or unethical responses from LLMs, even after safety alignment. In this paper, we investigate a novel category of jailbreak attacks specifically designed to target the cognitive structure and processes of LLMs. Specifically, we analyze the safety vulnerability of LLMs in the face of (1) multilingual cognitive overload, (2) veiled expression, and (3) effect-to-cause reasoning. Different from previous jailbreak attacks, our proposed cognitive overload is a black-box attack with no need for knowledge of model architecture or access to model weights. Experiments conducted on AdvBench and MasterKey reveal that various LLMs, including both popular open-source model Llama 2 and the proprietary model ChatGPT, can be compromised through cognitive overload. Motivated by cognitive psychology work on managing cognitive load, we further investigate defending cognitive overload attack from two perspectives. Empirical studies show that our cognitive overload from three perspectives can jailbreak all studied LLMs successfully, while existing defense strategies can hardly mitigate the caused malicious uses effectively.
추상화:대형 언어 모델(LLM)은 증가하는 힘을 보여주었지만, 또한 다양한 유해 행동을 야기했다. 대표적으로 탈옥 공격은 안전 정렬 이후에도 LLM의 유해하거나 비윤리적인 반응을 유발할 수 있다. 본 논문에서는 LLM의 인지 구조와 과정을 목표로 특별히 설계된 탈옥 공격의 새로운 범주를 조사한다. 구체적으로, 우리는 (1) 다국어 인지 과부하, (2) 베일에 싸인 표현 및 (3) 효과 대 원인 추론에 직면하여 LLM의 안전 취약성을 분석한다. 이전의 탈옥 공격과는 달리, 우리가 제안한 인지 과부하는 모델 아키텍처에 대한 지식이나 모델 가중치에 대한 접근이 필요 없는 블랙박스 공격이다. AdvBench와 MasterKey에 대해 수행된 실험은 인기 있는 오픈 소스 모델 Lama 2와 독점 모델인 ChatGPT를 모두 포함한 다양한 LLM이 인지 과부하를 통해 손상될 수 있음을 보여준다. 인지 부하 관리에 대한 인지 심리학 작업에 동기를 부여하여 두 가지 관점에서 인지 과부하 공격 방어를 추가로 조사한다. 경험적 연구에 따르면 세 가지 관점에서 우리의 인지 과부하는 연구된 모든 LLM을 성공적으로 제거할 수 있는 반면 기존 방어 전략은 유발된 악의적 사용을 효과적으로 완화할 수 없다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-11-20] 오늘의 자연어처리 (0) | 2023.11.20 |
---|---|
[2023-11-19] 오늘의 자연어처리 (0) | 2023.11.19 |
[2023-11-17] 오늘의 자연어처리 (0) | 2023.11.17 |
[2023-11-16] 오늘의 자연어처리 (0) | 2023.11.16 |
[2023-11-15] 오늘의 자연어처리 (0) | 2023.11.15 |
댓글