본문 바로가기
오늘의 자연어 처리

[2023-09-11] 오늘의 자연어처리

by 지환이아빠 2023. 9. 11.
반응형

ImageBind-LLM: Multi-modality Instruction Tuning

 

We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at this https URL.

 

우리는 대형의 다중 양식 명령어 튜닝 방법인 ImageBind-LLM을 제시한다 이미지 바인더를 통한 언어 모델(LLM). 기존 작품들은 주로 언어에 초점을 맞추고 있다 그리고 이미지 명령 튜닝은 우리의 ImageBind-LLM이 할 수 있는 것과 다르다 오디오, 3D 포인트 클라우드, 비디오를 포함한 다중 모드 조건에 대응합니다, 이미지 텍스트 정렬 훈련만으로 내장 공간 연산을 수행할 수 있습니다. 교육 중에 임베딩 공간을 정렬하기 위해 학습 가능한 바인딩 네트워크를 채택한다 LlaMA와 ImageBind의 이미지 인코더 사이에 위치합니다. 그러면 이미지 특징이 bind network에 의해 변환된 것은 모든 계층의 단어 토큰에 추가된다 무주의를 통해 시각적 명령을 점진적으로 주입하는 LLAMA 그리고 제로 동기화된 게이팅 메커니즘. 공동 내장에 의해 도움을 받습니다 ImageBind, 간단한 이미지 텍스트 교육을 통해 모델이 우수한 성능을 발휘할 수 있습니다 다중 인터페이스 명령어 처리 기능을 제공합니다. 추론하는 동안 다중-모달리티 입력들은 대응하는 ImageBind 인코더들에 공급된다 제안된 시각적 캐시 모델에 의해 처리되어 추가적인 교차 패턴 임베딩을 수행한다 증량. 훈련이 필요 없는 캐시 모델은 3백만 개의 이미지에서 검색합니다 ImageBind에 의해 추출된 기능은 효과적으로 완화됩니다 훈련과 훈련 방식의 불일치. 특히, 우리의 접근방식으로는, ImageBind-LLM은 다양한 양식의 지침에 응답하고 시연할 수 있습니다 상당한 언어 생성의 질. 코드는 다음에서 공개됩니다 이 https URL. 

 

 

FLM-101B: An Open LLM and How to Train It with $100K Budget

 

Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a $100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of $100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at this https URL.

 

대형 언어 모델(Large Language Model, LLM)은 NLP 및 복합 작업. 이러한 성공에도 불구하고, 그들의 발전은 크게 두 가지에 직면해 있다 과제: (i) 높은 계산 비용 및 (ii) 공정 수행의 어려움 그리고 객관적 평가. LLM은 엄청나게 비싸서 실현 가능합니다 소수의 주요 선수들만 훈련에 착수할 수 있도록 함으로써 연구 및 응용 기회를 모두 제공합니다. 이것은 중요성을 강조한다 비용 효율적인 LLM 교육을 받을 수 있습니다. 본 논문에서는 성장 전략을 활용하여 다음을 수행한다 LLM 교육 비용을 대폭 절감합니다. 우리는 101B와 함께 LLM을 보여준다 모수 및 0.31TB 토큰은 10만 달러의 예산으로 교육될 수 있다. 우리는 또한 A를 채택한다 LLMs의 IQ 평가를 위한 체계적인 평가 패러다임을 보완한다 지식 지향적인 능력에 더 초점을 맞춘 기존의 평가들. 우리가 중요한 측면에 대한 평가를 포함하여 우리의 벤치마크를 소개한다 상징적인 매핑, 규칙 이해, 패턴 마이닝을 포함한 지능, 방해금지. 이러한 평가는 잠재적인 영향을 최소화한다 암기. 실험 결과에 따르면 FLM-101B 모델은 다음과 같이 훈련되었다 10만 달러의 예산으로 강력하고 잘 알려진 제품과 동등한 성능을 달성합니다 GPT-3 및 GLM-130B와 같은 모델, 특히 다음과 같은 IQ 벤치마크 평가에서 교육 데이터에서 볼 수 없는 컨텍스트. FLM-101B의 체크포인트는 이 https URL에서 오픈 소스. 

 

 

ImageBind-LLM: Multi-modality Instruction Tuning

 

We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at this https URL.

 

우리는 대형의 다중 양식 명령어 튜닝 방법인 ImageBind-LLM을 제시한다 이미지 바인더를 통한 언어 모델(LLM). 기존 작품들은 주로 언어에 초점을 맞추고 있다 그리고 이미지 명령 튜닝은 우리의 ImageBind-LLM이 할 수 있는 것과 다르다 오디오, 3D 포인트 클라우드, 비디오를 포함한 다중 모드 조건에 대응합니다, 이미지 텍스트 정렬 훈련만으로 내장 공간 연산을 수행할 수 있습니다. 교육 중에 임베딩 공간을 정렬하기 위해 학습 가능한 바인딩 네트워크를 채택한다 LlaMA와 ImageBind의 이미지 인코더 사이에 위치합니다. 그러면 이미지 특징이 bind network에 의해 변환된 것은 모든 계층의 단어 토큰에 추가된다 무주의를 통해 시각적 명령을 점진적으로 주입하는 LLAMA 그리고 제로 동기화된 게이팅 메커니즘. 공동 내장에 의해 도움을 받습니다 ImageBind, 간단한 이미지 텍스트 교육을 통해 모델이 우수한 성능을 발휘할 수 있습니다 다중 인터페이스 명령어 처리 기능을 제공합니다. 추론하는 동안 다중-모달리티 입력들은 대응하는 ImageBind 인코더들에 공급된다 제안된 시각적 캐시 모델에 의해 처리되어 추가적인 교차 패턴 임베딩을 수행한다 증량. 훈련이 필요 없는 캐시 모델은 3백만 개의 이미지에서 검색합니다 ImageBind에 의해 추출된 기능은 효과적으로 완화됩니다 훈련과 훈련 방식의 불일치. 특히, 우리의 접근방식으로는, ImageBind-LLM은 다양한 양식의 지침에 응답하고 시연할 수 있습니다 상당한 언어 생성의 질. 코드는 다음에서 공개됩니다 이 https URL. 

 

 

반응형

댓글