본문 바로가기
오늘의 자연어 처리

[2023-05-01] 오늘의 자연어처리

by 지환이아빠 2023. 5. 1.
반응형

mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality

 

Large language models (LLMs) have demonstrated impressive zero-shot abilities on a variety of open-ended tasks, while recent research has also explored the use of LLMs for multi-modal generation. In this study, we introduce mPLUG-Owl, a novel training paradigm that equips LLMs with multi-modal abilities through modularized learning of foundation LLM, a visual knowledge module, and a visual abstractor module. This approach can support multiple modalities and facilitate diverse unimodal and multimodal abilities through modality collaboration. The training paradigm of mPLUG-Owl involves a two-stage method for aligning image and text, which learns visual knowledge with the assistance of LLM while maintaining and even improving the generation abilities of LLM. In the first stage, the visual knowledge module and abstractor module are trained with a frozen LLM module to align the image and text. In the second stage, language-only and multi-modal supervised datasets are used to jointly fine-tune a low-rank adaption (LoRA) module on LLM and the abstractor module by freezing the visual knowledge module. We carefully build a visually-related instruction evaluation set OwlEval. Experimental results show that our model outperforms existing multi-modal models, demonstrating mPLUG-Owl's impressive instruction and visual understanding ability, multi-turn conversation ability, and knowledge reasoning ability. Besides, we observe some unexpected and exciting abilities such as multi-image correlation and scene text understanding, which makes it possible to leverage it for harder real scenarios, such as vision-only document comprehension. Our code, pre-trained model, instruction-tuned models, and evaluation set are available at this https URL. The online demo is available at this https URL.

 

대형 언어 모델(LLM)은 인상적인 제로샷 능력을 보여주었다 다양한 개방형 작업에 대해, 최근 연구는 또한 탐구했다 다중 모드 생성을 위한 LLM의 사용. 이 연구에서는 mPLUG-OWL을 소개합니다, 다음을 통해 LLM이 다중 모드 능력을 갖추도록 하는 새로운 훈련 패러다임 기초 LLM, 시각적 지식 모듈 및 시각적 학습의 모듈화된 학습 추상화 모듈입니다. 이 접근 방식은 다양한 양식을 지원하고 다음을 촉진할 수 있습니다 양식 협업을 통한 다양한 단모달 및 멀티모달 능력. 그 mPLUG-OWL의 훈련 패러다임은 이미지를 정렬하기 위한 2단계 방법을 포함한다 텍스트, LLM의 도움으로 시각적 지식을 학습하는 동안 LLM의 생성 능력을 유지하고 심지어 향상시킵니다. 처음에 단계, 시각적 지식 모듈과 추상적 모듈은 다음과 같이 훈련된다 이미지와 텍스트를 정렬하기 위한 고정 LLM 모듈. 두 번째 단계에서는, 언어 전용 및 다중 언어 감독 데이터 세트는 공동으로 미세 조정하는 데 사용된다 LLM의 Low Rank Adaptation(LoRA) 모듈과 동결을 통한 추상화 모듈 시각적 지식 모듈. 우리는 시각적으로 관련된 지침을 신중하게 작성한다 평가 세트 OwlEval. 실험 결과는 우리 모델이 성능을 능가한다는 것을 보여준다 mPLUG-OWL의 인상적인 명령을 보여주는 기존의 다중 모드 모델 시각적 이해 능력, 다중 턴 대화 능력, 그리고 지식 추리력. 게다가, 우리는 예상치 못한 흥미로운 것들을 관찰한다 다중 이미지 상관 관계 및 장면 텍스트 이해와 같은 능력 비전 전용과 같은 보다 어려운 실제 시나리오에 활용할 수 있도록 지원 문서 이해. 우리의 코드, 사전 훈련된 모델, 명령 조정된 모델, 및 평가 세트는 이 https URL에서 사용할 수 있습니다. 그 온라인 데모는 이 https URL에서 사용할 수 있습니다. 

 

 

SweCTRL-Mini: a data-transparent Transformer-based large language model for controllable text generation in Swedish

 

We present SweCTRL-Mini, a large Swedish language model that can be used for inference and fine-tuning on a single consumer-grade GPU. The model is based on the CTRL architecture by Keskar, McCann, Varshney, Xiong, and Socher (2019), which means that users of the SweCTRL-Mini model can control the genre of the generated text by inserting special tokens in the generation prompts. SweCTRL-Mini is trained on a subset of the Swedish part of the mC4 corpus and a set of Swedish novels. In this article, we provide (1) a detailed account of the utilized training data and text pre-processing steps, to the extent that it is possible to check whether a specific phrase/source was a part of the training data, and (2) an evaluation of the model on both discriminative tasks, using automatic evaluation methods, and generative tasks, using human referees. We also compare the generative capabilities of the model with those of GPT-3. SweCTRL-Mini is fully open and available for download.

 

우리는 스웨덴어 모델인 SweCTRL-Mini를 제시한다 단일 소비자 등급 GPU에 대한 추론과 미세 조정. 모델은 다음을 기반으로 한다 Keskar, McCann, Varshney, Xiong 및 Socher의 CTRL 아키텍처(2019), 즉, SweCTRL-Mini 모델의 사용자가 장르를 제어할 수 있습니다 생성 프롬프트에 특수 토큰을 삽입하여 텍스트를 생성했습니다. SweCTRL-Mini는 mC4 말뭉치의 스웨덴 부분의 하위 집합에 대해 훈련되고 스웨덴 소설 세트. 이 기사에서, 우리는 (1)에 대한 상세한 설명을 제공한다 활용된 교육 데이터와 텍스트 사전 처리 단계는 다음과 같다 특정 문구/출처가 의 일부였는지 확인할 수 있다 교육 데이터, 그리고 (2) 두 가지 차별적 과제에 대한 모델의 평가, 자동 평가 방법을 사용하고 인간 심판을 사용하는 생성 작업을 사용합니다. 또한 모델의 생성 기능을 GPT-3의 생성 기능과 비교한다. SweCTRL-Mini는 완전히 열려 있으며 다운로드할 수 있습니다. 

 

 

What's in a Name? Evaluating Assembly-Part Semantic Knowledge in Language Models through User-Provided Names in CAD Files

 

Semantic knowledge of part-part and part-whole relationships in assemblies is useful for a variety of tasks from searching design repositories to the construction of engineering knowledge bases. In this work we propose that the natural language names designers use in Computer Aided Design (CAD) software are a valuable source of such knowledge, and that Large Language Models (LLMs) contain useful domain-specific information for working with this data as well as other CAD and engineering-related tasks. In particular we extract and clean a large corpus of natural language part, feature and document names and use this to quantitatively demonstrate that a pre-trained language model can outperform numerous benchmarks on three self-supervised tasks, without ever having seen this data before. Moreover, we show that fine-tuning on the text data corpus further boosts the performance on all tasks, thus demonstrating the value of the text data which until now has been largely ignored. We also identify key limitations to using LLMs with text data alone, and our findings provide a strong motivation for further work into multi-modal text-geometry models. To aid and encourage further work in this area we make all our data and code publicly available.

 

어셈블리의 부품 및 전체 관계에 대한 의미론적 지식은 다음과 같다 디자인 저장소 검색에서 시작하여 다양한 작업에 유용합니다 공학 지식 기반의 구축. 이 작업에서 우리는 제안한다 설계자가 CAD(Computer Aided Design) 소프트웨어에서 사용하는 자연어 이름 이러한 지식의 귀중한 원천이며, LLM(대규모 언어 모델) 이 데이터로 작업하는 데 유용한 도메인별 정보도 포함합니다 다른 CAD 및 엔지니어링 관련 작업으로 사용할 수 있습니다. 특히 우리는 자연어 부분의 많은 말뭉치를 추출하고 청소한다, 기능 및 문서 이름을 사용하여 다음을 정량적으로 입증합니다 사전 훈련된 언어 모델은 3가지에서 수많은 벤치마크를 능가할 수 있다 이전에 이 데이터를 본 적이 없는 자체 감독 작업. 게다가, 우리는 텍스트 데이터 말뭉치의 미세 조정이 성능을 더욱 향상시킨다는 것을 보여준다 모든 작업, 따라서 지금까지 가지고 있는 텍스트 데이터의 가치를 보여줍니다 크게 무시당하다. 또한 텍스트와 함께 LLM을 사용할 때의 주요 제한 사항을 식별합니다 데이터만으로, 그리고 우리의 발견은 추가 작업에 대한 강력한 동기를 제공한다 다중 스레드 텍스트 변환 모델입니다. 이 분야의 추가 작업을 지원하고 장려하기 위해 우리는 모든 데이터와 코드를 만든다 일반에 공개된. 

 

 

반응형

댓글