본문 바로가기
오늘의 자연어 처리

[2023-09-21] 오늘의 자연어처리

by 지환이아빠 2023. 9. 21.
반응형

NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages

 

Abstract:Democratizing access to natural language processing (NLP) technology is crucial, especially for underrepresented and extremely low-resource languages. Previous research has focused on developing labeled and unlabeled corpora for these languages through online scraping and document translation. While these methods have proven effective and cost-efficient, we have identified limitations in the resulting corpora, including a lack of lexical diversity and cultural relevance to local communities. To address this gap, we conduct a case study on Indonesian local languages. We compare the effectiveness of online scraping, human translation, and paragraph writing by native speakers in constructing datasets. Our findings demonstrate that datasets generated through paragraph writing by native speakers exhibit superior quality in terms of lexical diversity and cultural content. In addition, we present the \datasetname{} benchmark, encompassing 12 underrepresented and extremely low-resource languages spoken by millions of individuals in Indonesia. Our empirical experiment results using existing multilingual large language models conclude the need to extend these models to more underrepresented languages. We release the NusaWrites dataset at this https URL.

 

초록:자연어 처리(NLP) 기술에 대한 접근을 민주화하는 것은 특히 표현이 부족하고 자원이 매우 낮은 언어에 대해 중요하다. 이전의 연구는 온라인 스크래핑과 문서 번역을 통해 이러한 언어들에 대한 레이블링된 말뭉치와 레이블링되지 않은 말뭉치를 개발하는 데 초점을 맞추고 있다. 이러한 방법이 효과적이고 비용 효율적인 것으로 입증되었지만, 우리는 어휘 다양성의 부족과 지역 사회와의 문화적 관련성을 포함하여 결과적인 말뭉치의 한계를 확인했다. 이러한 차이를 해소하기 위해 인도네시아 현지 언어에 대한 사례 연구를 실시한다. 데이터 세트를 구성할 때 원어민의 온라인 스크래핑, 인간 번역 및 문단 작성의 효과를 비교한다. 우리의 연구 결과는 원어민의 문단 작성을 통해 생성된 데이터셋이 어휘적 다양성과 문화적 내용 면에서 우수한 품질을 나타냄을 보여준다. 또한 인도네시아에서 수백만 명의 개인이 사용하는 12개의 과소 표현되고 극도로 낮은 자원 언어를 포괄하는 \datasetname{} 벤치마크를 제시한다. 기존의 다국어 대형 언어 모델을 사용한 경험적 실험 결과는 이러한 모델을 더 잘 표현되지 않은 언어로 확장할 필요성을 결론짓는다. NusaWrites 데이터셋은 이 https URL에서 공개합니다. 

 

 

Investigating the Catastrophic Forgetting in Multimodal Large Language Models

 

Abstract:Following the success of GPT4, there has been a surge in interest in multimodal large language model (MLLM) research. This line of research focuses on developing general-purpose LLMs through fine-tuning pre-trained LLMs and vision models. However, catastrophic forgetting, a notorious phenomenon where the fine-tuned model fails to retain similar performance compared to the pre-trained model, still remains an inherent problem in multimodal LLMs (MLLM). In this paper, we introduce EMT: Evaluating MulTimodality for evaluating the catastrophic forgetting in MLLMs, by treating each MLLM as an image classifier. We first apply EMT to evaluate several open-source fine-tuned MLLMs and we discover that almost all evaluated MLLMs fail to retain the same performance levels as their vision encoders on standard image classification tasks. Moreover, we continue fine-tuning LLaVA, an MLLM and utilize EMT to assess performance throughout the fine-tuning. Interestingly, our results suggest that early-stage fine-tuning on an image dataset improves performance across other image datasets, by enhancing the alignment of text and visual features. However, as fine-tuning proceeds, the MLLMs begin to hallucinate, resulting in a significant loss of generalizability, even when the image encoder remains frozen. Our results suggest that MLLMs have yet to demonstrate performance on par with their vision models on standard image classification tasks and the current MLLM fine-tuning procedure still has room for improvement.

 

초록:GPT4의 성공 이후, 멀티모달 대형 언어 모델(MLLM) 연구에 대한 관심이 급증하고 있다. 본 연구 라인은 사전에 훈련된 LLM과 비전 모델을 미세 조정하여 범용 LLM을 개발하는데 초점을 맞추고 있다. 그러나 미세 조정된 모델이 사전 훈련된 모델과 비교하여 유사한 성능을 유지하지 못하는 악명 높은 현상인 재앙적 망각은 여전히 멀티모달 LLM(MLLM)에 내재된 문제로 남아 있다. 본 논문에서는 각각의 MLLM을 이미지 분류기로 취급하여 MLLM에서 재앙적인 망각을 평가하기 위한 EMT: 멀티모달리티 평가를 소개한다. 우리는 먼저 EMT를 적용하여 여러 오픈 소스 미세 조정 MLLM을 평가하고 거의 모든 평가된 MLLM이 표준 이미지 분류 작업에서 비전 인코더와 동일한 성능 수준을 유지하지 못한다는 것을 발견한다. 또한 MLLM인 LlaVA 미세 조정을 계속하고 EMT를 활용하여 미세 조정 전반에 걸쳐 성능을 평가한다. 흥미롭게도, 우리의 결과는 이미지 데이터 세트에 대한 초기 단계 미세 조정이 텍스트 및 시각적 기능의 정렬을 향상시킴으로써 다른 이미지 데이터 세트 전반에 걸쳐 성능을 향상시킨다는 것을 시사한다. 그러나, 미세 조정이 진행됨에 따라, MLLM들이 환각을 일으키기 시작하여, 영상 인코더가 동결된 상태로 유지되는 경우에도, 상당한 일반화 가능성의 손실을 초래한다. 우리의 결과는 MLLM이 표준 이미지 분류 작업에서 비전 모델과 동등한 성능을 아직 입증하지 못했으며 현재의 MLLM 미세 조정 절차는 여전히 개선의 여지가 있음을 시사한다. 

 

 

CFGPT: Chinese Financial Assistant with Large Language Model

 

Abstract:Large language models (LLMs) have demonstrated great potential in natural language processing tasks within the financial domain. In this work, we present a Chinese Financial Generative Pre-trained Transformer framework, named CFGPT, which includes a dataset~(CFData) for pre-training and supervised fine-tuning, a financial LLM~(CFLLM) to adeptly manage financial texts, and a deployment framework~(CFAPP) designed to navigate real-world financial applications. The CFData comprising both a pre-training dataset and a supervised fine-tuning dataset, where the pre-training dataset collates Chinese financial data and analytics, alongside a smaller subset of general-purpose text with 584M documents and 141B tokens in total, and the supervised fine-tuning dataset is tailored for six distinct financial tasks, embodying various facets of financial analysis and decision-making with 1.5M instruction pairs and 1.5B tokens in total. The CFLLM, which is based on InternLM-7B to balance the model capability and size, is trained on CFData in two stage, continued pre-training and supervised fine-tuning. The CFAPP is centered on large language models (LLMs) and augmented with additional modules to ensure multifaceted functionality in real-world application. Our codes are released at this https URL.

 

초록:대형 언어 모델(LLM)은 금융 영역 내의 자연어 처리 작업에서 큰 잠재력을 보여주었다. 본 연구에서는 사전 훈련 및 감독 미세 조정을 위한 데이터 세트~(CFData~), 금융 텍스트를 능숙하게 관리하기 위한 금융 LLM~(CFLLM), 실제 금융 애플리케이션을 탐색하기 위해 설계된 배치 프레임워크~(CFAPP)를 포함하는 CFGPT라는 중국 금융 생성 사전 훈련 트랜스포머 프레임워크를 제시한다. 사전 훈련 데이터 세트와 감독된 미세 조정 데이터 세트로 구성된 CFData는 사전 훈련 데이터 세트가 총 584M 문서 및 141B 토큰으로 구성된 범용 텍스트의 더 작은 부분 집합과 함께 중국 금융 데이터 및 분석을 수집하고 감독된 미세 조정 데이터 세트는 6개의 서로 다른 금융 작업에 맞게 조정된다, 총 150만 개의 명령어 쌍과 15억 개의 토큰으로 재무 분석 및 의사 결정의 다양한 측면을 구현합니다. 모델 능력과 크기의 균형을 맞추기 위해 InterLM-7B를 기반으로 하는 CFLLM은 두 단계, 지속적인 사전 훈련과 감독된 미세 조정으로 CFData에 대해 훈련된다. CFAPP는 대형 언어 모델(LLM)을 중심으로 하며 실제 응용 프로그램에서 다면적인 기능을 보장하기 위해 추가 모듈로 증강된다. 우리의 코드는 이 https URL에서 공개됩니다. 

 

 

반응형

댓글