본문 바로가기
오늘의 자연어 처리

[2023-12-06] 오늘의 자연어처리

by 지환이아빠 2023. 12. 6.
반응형

Retrieval-augmented Multi-modal Chain-of-Thoughts Reasoning for Large Language Models

 

Abstract:The advancement of Large Language Models(LLMs) has brought substantial attention to the Chain of Thought(CoT) approach, primarily due to its ability to enhance the capability of LLMs on tasks requiring complex reasoning. Moreover, the significance of CoT approaches extends to the application of LLMs for multi-modal tasks, such as multi-modal question answering. However, the selection of optimal CoT demonstration examples in multi-modal reasoning for LLMs remains less explored for LLMs due to the inherent complexity of multi-modal examples. In this paper, we introduce a novel approach that addresses this challenge by using retrieval mechanisms to dynamically and automatically select demonstration examples based on cross-modal similarities. This method aims to refine the CoT reasoning process in multi-modal scenarios via informing LLMs with more relevant and informative examples. Furthermore, we employ a stratified sampling method categorising demonstration examples into groups based on their types and retrieving examples from different groups respectively to promote the diversity of demonstration examples. Through a series of experiments, we demonstrate that our approach significantly improves the performance of LLMs, achieving state-of-the-art results in multi-modal reasoning tasks. Specifically, our methods demonstrate significant advancements on the ScienceQA dataset. While our method based on ChatGPT outperforms the Chameleon(ChatGPT) by 2.74% with an accuracy of 82.67%, the GPT4-based approach surpasses the Chameleon(GPT-4) by 0.89%, achieving 87.43% on accuracy under the same setting. Moreover, our best performing show a 6.05% increase over Chameleon for ChatGPT-based models and a 4.57% increase for GPT-4-based models.

 

추상화:LLM(Large Language Models)의 발전은 복잡한 추론이 필요한 작업에 대한 LLM의 능력을 향상시키는 능력으로 인해 생각의 사슬(CoT) 접근 방식에 상당한 관심을 가져왔다. 더욱이, CoT 접근법의 중요성은 다중 모드 질문 답변과 같은 다중 모드 작업에 대한 LLM의 적용으로 확장된다. 그러나 LLM에 대한 다중 모드 추론에서 최적의 CoT 시연 예제의 선택은 다중 모드 예제의 고유한 복잡성으로 인해 LLM에 대해 덜 탐구된다. 본 논문에서는 검색 메커니즘을 사용하여 모델 간 유사성을 기반으로 시연 예를 동적으로 자동으로 선택함으로써 이 문제를 해결하는 새로운 접근 방식을 소개한다. 이 방법은 보다 관련성 있고 유익한 예를 LLM에 알려줌으로써 다중 모델 시나리오에서 CoT 추론 과정을 개선하는 것을 목표로 한다. 또한 실증 사례의 다양성을 촉진하기 위해 실증 사례를 유형에 따라 그룹으로 분류하고 다른 그룹의 사례를 각각 검색하는 계층화 샘플링 방법을 사용한다. 일련의 실험을 통해 우리의 접근 방식이 LLM의 성능을 크게 향상시켜 다중 모드 추론 작업에서 최첨단 결과를 달성한다는 것을 입증한다. 특히, 우리의 방법은 과학에서 상당한 발전을 보여준다QA 데이터 세트. ChatGPT을 기반으로 한 우리의 방법이 82.67%의 정확도로 카멜레온(ChatGPT)을 2.74% 능가하는 반면, GPT4 기반 접근법은 카멜레온(GPT-4)을 0.89% 능가하여 동일한 설정에서 정확도 87.43%를 달성했다. 또한 ChatGPT 기반 모델의 경우 카멜레온보다 6.05%, GPT-4 기반 모델의 경우 4.57% 증가한 것으로 나타났다. 

 

 

Distilled Self-Critique of LLMs with Synthetic Data: a Bayesian Perspective

 

Abstract:This paper proposes an interpretation of RLAIF as Bayesian inference by introducing distilled Self-Critique (dSC), which refines the outputs of a LLM through a Gibbs sampler that is later distilled into a fine-tuned model. Only requiring synthetic data, dSC is exercised in experiments regarding safety, sentiment, and privacy control, showing it can be a viable and cheap alternative to align LLMs. Code released at \url{this https URL}.

 

추상화:본 논문에서는 추후 미세 조정 모델로 증류되는 깁스 샘플러를 통해 LLM의 출력을 정제하는 증류된 자기 비판(desisted Self-Critique, dSC)을 도입하여 RLAIF를 베이지안 추론으로 해석할 것을 제안한다. 합성 데이터만을 필요로 하는 dSC는 안전, 감정 및 개인 정보 제어에 관한 실험에서 발휘되며, LLM을 정렬하는 실행 가능하고 저렴한 대안이 될 수 있음을 보여준다. 코드는 \url{this https URL}에서 공개되었다. 

 

 

Magicoder: Source Code Is All You Need

 

Abstract:We introduce Magicoder, a series of fully open-source (code, weights, and data) Large Language Models (LLMs) for code that significantly closes the gap with top code models while having no more than 7B parameters. Magicoder models are trained on 75K synthetic instruction data using OSS-Instruct, a novel approach to enlightening LLMs with open-source code snippets to generate high-quality instruction data for code. Our main motivation is to mitigate the inherent bias of the synthetic data generated by LLMs by empowering them with a wealth of open-source references for the production of more diverse, realistic, and controllable data. The orthogonality of OSS-Instruct and other data generation methods like Evol-Instruct further enables us to build an enhanced MagicoderS. Both Magicoder and MagicoderS substantially outperform state-of-the-art code models with similar or even larger sizes on a wide range of coding benchmarks, including Python text-to-code generation, multilingual coding, and data-science program completion. Notably, MagicoderS-CL-7B based on CodeLlama even surpasses the prominent ChatGPT on HumanEval+ (66.5 vs. 65.9 in pass@1). Overall, OSS-Instruct opens a new direction for low-bias and high-quality instruction tuning using abundant open-source references.

 

추상화:우리는 7B 이상의 매개변수를 갖지 않으면서 상위 코드 모델과의 격차를 크게 줄이는 코드를 위한 일련의 완전 오픈 소스(코드, 가중치, 데이터) LLM(Large Language Models)인 Magicoder를 소개한다. 매직코더 모델은 오픈 소스 코드 스니펫으로 LLM을 계몽하여 코드에 대한 고품질 명령 데이터를 생성하는 새로운 접근 방식인 OSS-Instruct를 사용하여 75K 합성 명령 데이터에 대해 훈련된다. 우리의 주요 동기는 보다 다양하고 현실적이며 제어 가능한 데이터 생산을 위한 풍부한 오픈 소스 참조 권한을 부여함으로써 LLM에서 생성된 합성 데이터의 고유한 편향을 완화하는 것이다. 또한 OSS-Instruct의 직교성과 Evol-Instruct와 같은 다른 데이터 생성 방법을 통해 향상된 MagicoderS를 구축할 수 있습니다. Magicoder와 MagicoderS는 모두 Python 텍스트-코드 생성, 다국어 코딩, 데이터-과학 프로그램 완성을 포함한 광범위한 코딩 벤치마크에서 유사하거나 더 큰 크기의 최첨단 코드 모델을 훨씬 능가한다. 특히 CodeLama 기반의 MagicoderS-CL-7B는 HumanEval+의 저명한 ChatGPT(pass@1에서 66.5 대 65.9)을 능가한다. 전체적으로 OSS-Instruct는 풍부한 오픈 소스 레퍼런스를 사용하여 저편향 및 고품질의 명령어 튜닝을 위한 새로운 방향을 연다. 

 

 

반응형

댓글