본문 바로가기
오늘의 자연어 처리

[2023-07-15] 오늘의 자연어처리

by 지환이아빠 2023. 7. 15.
반응형

mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs

 

Modular vision-language models (Vision-LLMs) align pretrained image encoders with (pretrained) large language models (LLMs), representing a computationally much more efficient alternative to end-to-end training of large vision-language models from scratch, which is prohibitively expensive for most. Vision-LLMs instead post-hoc condition LLMs to `understand' the output of an image encoder. With the abundance of readily available high-quality English image-text data as well as monolingual English LLMs, the research focus has been on English-only Vision-LLMs. Multilingual vision-language models are still predominantly obtained via expensive end-to-end pretraining, resulting in comparatively smaller models, trained on limited multilingual image data supplemented with text-only multilingual corpora. In this work, we present mBLIP, the first multilingual Vision-LLM, which we obtain in a computationally efficient manner -- on consumer hardware using only a few million training examples -- by leveraging a pretrained multilingual LLM. To this end, we \textit{re-align} an image encoder previously tuned to an English LLM to a new, multilingual LLM -- for this, we leverage multilingual data from a mix of vision-and-language tasks, which we obtain by machine-translating high-quality English data to 95 languages. On the IGLUE benchmark, mBLIP yields results competitive with state-of-the-art models. Moreover, in image captioning on XM3600, mBLIP (zero-shot) even outperforms PaLI-X (a model with 55B parameters). Compared to these very large multilingual vision-language models trained from scratch, we obtain mBLIP by training orders of magnitude fewer parameters on magnitudes less data. We release our model and code at \url{this https URL}.

 

모듈식 비전 언어 모델(Vision-LLM) 정렬 사전 훈련된 이미지 인코더 계산적으로 표현하는 (사전 훈련된) 큰 언어 모델(LLM)과 함께 대규모 비전 언어의 엔드 투 엔드 교육에 대한 훨씬 더 효율적인 대안 대부분의 사람들에게 엄청나게 비싼, 처음부터 시작하는 모델들. 비전-LLM 대신 이미지 인코더의 출력을 '이해'하기 위해 LLM을 사후 조건화합니다. 쉽게 이용할 수 있는 고품질 영어 이미지 텍스트 데이터의 풍부함과 함께 단일 언어 영어 LLM 뿐만 아니라, 연구는 영어에만 초점을 맞추고 있다 비전-LLM. 다국어 비전-언어 모델은 여전히 우세하다 값비싼 종단 간 사전 교육을 통해 얻은 결과 비교적 제한된 다국어 이미지 데이터에 대해 교육을 받은 소규모 모델을 사용하여 텍스트 전용 다국어 말뭉치입니다. 이 작업에서, 우리는 첫 번째 mBLIP을 제시한다 계산적으로 효율적인 방법으로 얻은 다국어 Vision-LLM -- 수백만 개의 교육 사례만을 사용하여 소비자 하드웨어에서 --에 의해 사전 훈련된 다국어 LLM을 활용합니다. 이를 위해 \textit{re-align} an 이미지 인코더는 이전에 영어 LLM을 새로운 다국어 LLM로 튜닝했습니다 이를 위해 비전과 언어가 혼합된 다국어 데이터를 활용합니다 고품질 영어 데이터를 95로 기계 번역하여 얻은 작업 언어들. IGLUE 벤치마크에서 mBLIP는 다음과 같은 경쟁력 있는 결과를 산출합니다 최첨단 모델. 또한 XM3600의 이미지 캡션에서 mBLIP (제로샷)은 PalLI-X(55B 매개 변수가 있는 모델)보다 성능이 뛰어나다. 와 비교하여 이 매우 큰 다국어 비전 언어 모델들은 처음부터 훈련을 받았고, 우리는 크기에 대한 매개 변수를 훨씬 적게 훈련시켜 mBLIP을 획득한다 더 적은 데이터. 모델 및 코드는 다음 위치에 출시됩니다 \url{이 https URL}. 

 

 

The Acquisition of Semantic Relationships between words

 

The study of semantic relationships has revealed a close connection between these relationships and the morphological characteristics of a language. Morphology, as a subfield of linguistics, investigates the internal structure and formation of words. By delving into the relationship between semantic relationships and language morphology, we can gain deeper insights into how the underlying structure of words contributes to the interpretation and comprehension of language. This paper explores the dynamic interplay between semantic relationships and the morphological aspects of different languages, by examining the intricate relationship between language morphology and semantic relationships, valuable insights can be gained regarding how the structure of words influences language comprehension.

 

의미론적 관계에 대한 연구는 사이의 밀접한 연관성을 밝혀냈다 이러한 관계와 언어의 형태학적 특성. 언어학의 하위 분야로서 형태학은 내부 구조를 조사한다 그리고 단어의 형성. 의미론적 관계를 탐구함으로써 관계와 언어 형태학, 우리는 어떻게 하면 더 깊은 통찰력을 얻을 수 있다 단어의 근본적인 구조는 해석에 기여한다 언어의 이해. 이 논문은 사이의 동적 상호작용을 탐구한다 의미론적 관계와 다른 언어의 형태학적 측면에 의해 언어 형태학과 의미론 사이의 복잡한 관계를 조사하기 관계, 구조에 관한 귀중한 통찰력을 얻을 수 있다 단어들은 언어 이해에 영향을 미친다. 

 

 

Misclassification in Automated Content Analysis Causes Bias in Regression. Can We Fix It? Yes We Can!

 

Automated classifiers (ACs), often built via supervised machine learning (SML), can categorize large, statistically powerful samples of data ranging from text to images and video, and have become widely popular measurement devices in communication science and related fields. Despite this popularity, even highly accurate classifiers make errors that cause misclassification bias and misleading results in downstream analyses-unless such analyses account for these errors. As we show in a systematic literature review of SML applications, communication scholars largely ignore misclassification bias. In principle, existing statistical methods can use "gold standard" validation data, such as that created by human annotators, to correct misclassification bias and produce consistent estimates. We introduce and test such methods, including a new method we design and implement in the R package misclassificationmodels, via Monte Carlo simulations designed to reveal each method's limitations, which we also release. Based on our results, we recommend our new error correction method as it is versatile and efficient. In sum, automated classifiers, even those below common accuracy standards or making systematic misclassifications, can be useful for measurement with careful study design and appropriate error correction methods.

 

종종 감독된 기계 학습을 통해 구축되는 자동 분류기(AC) (SML), 통계적으로 강력한 대규모 데이터 범위 샘플을 분류할 수 있습니다 텍스트에서 이미지와 비디오에 이르기까지, 그리고 널리 인기 있는 측정이 되었다 통신 과학 및 관련 분야의 장치. 이런 인기에도 불구하고, 심지어 매우 정확한 분류기들도 잘못된 분류 편향을 야기하는 오류를 만든다 다운스트림 분석에서 오해의 소지가 있는 결과 - 그러한 분석이 설명되지 않는 한 이 오류들. 우리가 SML 애플리케이션에 대한 체계적인 문헌 검토에서 보여주듯이, 의사소통 학자들은 대부분 잘못된 분류 편향을 무시한다. 원칙적으로, 기존의 통계적 방법은 다음과 같은 "골드 표준" 검증 데이터를 사용할 수 있다 잘못된 분류 편향을 수정하고 생산하기 위해 인간 주석자에 의해 창조되었다 일관된 추정. 우리는 새로운 방법을 포함하여 그러한 방법을 소개하고 테스트한다 R 패키지 오분류 모델에서 우리가 설계하고 구현하는 방법은 다음과 같다 각 방법의 한계를 드러내기 위해 설계된 몬테카를로 시뮬레이션 또한 출시합니다. 결과에 따라 새로운 오류 수정을 권장합니다 다재다능하고 효율적인 방법입니다. 요약하자면, 자동 분류기, 심지어 일반적인 정확도 표준 이하 또는 체계적인 오분류를 하는 것, 신중한 연구 설계와 적절한 오류로 측정에 유용할 수 있습니다 교정 방법. 

 

 

반응형

댓글