CFBenchmark: Chinese Financial Assistant Benchmark for Large Language Model
Abstract:Large language models (LLMs) have demonstrated great potential in the financial domain. Thus, it becomes important to assess the performance of LLMs in the financial tasks. In this work, we introduce CFBenchmark, to evaluate the performance of LLMs for Chinese financial assistant. The basic version of CFBenchmark is designed to evaluate the basic ability in Chinese financial text processing from three aspects~(\emph{i.e.} recognition, classification, and generation) including eight tasks, and includes financial texts ranging in length from 50 to over 1,800 characters. We conduct experiments on several LLMs available in the literature with CFBenchmark-Basic, and the experimental results indicate that while some LLMs show outstanding performance in specific tasks, overall, there is still significant room for improvement in basic tasks of financial text processing with existing models. In the future, we plan to explore the advanced version of CFBenchmark, aiming to further explore the extensive capabilities of language models in more profound dimensions as a financial assistant in Chinese. Our codes are released at this https URL.
초록:대형 언어 모델(LLM)은 금융 영역에서 큰 잠재력을 보여주었다. 따라서 재정 업무에서 LLM의 성과를 평가하는 것이 중요해진다. 본 연구에서는 중국 금융 보조원에 대한 LLM의 성과를 평가하기 위해 CFBenchmark를 소개한다. CFBenchmark의 기본 버전은 세 가지 측면에서 중국 금융 텍스트 처리의 기본 능력을 평가하기 위해 고안되었다~(\emph{i.} 인식, 분류, 생성) 8개의 작업을 포함하고 50자에서 1800자 이상의 길이의 금융 텍스트를 포함한다. 우리는 CFBenchmark-Basic으로 문헌에서 사용할 수 있는 여러 LLM에 대한 실험을 수행하며, 실험 결과는 일부 LLM이 특정 작업에서 뛰어난 성능을 보여주지만, 전반적으로 기존 모델로 금융 텍스트 처리의 기본 작업에서는 여전히 개선의 여지가 있음을 보여준다. 앞으로 우리는 중국어의 재정 보조자로서 언어 모델의 광범위한 역량을 보다 심도 있는 차원에서 더 깊이 탐구하는 것을 목표로 CF벤치마크의 고급 버전을 탐구할 계획이다. 우리의 코드는 이 https URL에서 공개됩니다.
Prompt Engineering a Prompt Engineer
Abstract:Prompt engineering is a challenging yet crucial task for optimizing the performance of large language models (LLMs). It requires complex reasoning to examine the model's errors, hypothesize what is missing or misleading in the current prompt, and communicate the task with clarity. While recent works indicate that LLMs can be meta-prompted to perform automatic prompt engineering, their potentials may not be fully untapped due to the lack of sufficient guidance to elicit complex reasoning capabilities in LLMs in the meta-prompt. In this work, we investigate the problem of "prompt engineering a prompt engineer" -- constructing a meta-prompt that more effectively guides LLMs to perform automatic prompt engineering. We introduce and analyze key components, such as a step-by-step reasoning template and context specification, which lead to improved performance. In addition, inspired by common optimization concepts such as batch size, step size and momentum, we introduce their verbalized counterparts to the meta-prompt and investigate their effects. Our final method, named PE2, finds a prompt that outperforms "let's think step by step" by 6.3% on the MultiArith dataset and 3.1% on the GSM8K dataset. To demonstrate its versatility, we apply PE2 to the Instruction Induction benchmark, a suite of counterfactual tasks, and a lengthy, real-world industrial prompt. In these settings, PE2 achieves strong performance and outperforms prior automatic prompt engineering baselines. Further, we show that PE2 makes meaningful and targeted prompt edits, amends erroneous or incomplete prompts, and presents non-trivial counterfactual reasoning abilities.
초록:신속한 엔지니어링은 대형 언어 모델(LLM)의 성능을 최적화하기 위해 도전적이면서도 중요한 작업이다. 모델의 오류를 검토하고 현재 프롬프트에서 누락되거나 오해를 불러일으키는 것이 무엇인지 가설을 세우고 과제를 명확하게 전달하기 위해서는 복잡한 추론이 필요하다. 최근 연구에 따르면 LLM은 자동 신속 엔지니어링을 수행하기 위해 메타 프롬프트를 사용할 수 있지만, 메타 프롬프트에서 LLM의 복잡한 추론 능력을 이끌어내기 위한 충분한 지침이 없기 때문에 잠재력이 완전히 활용되지 않을 수 있다. 본 연구에서는 LLM이 자동 신속 엔지니어링을 수행하도록 보다 효과적으로 안내하는 메타 프롬프트를 구성하는 "신속한 엔지니어"의 문제를 조사한다. 단계별 추론 템플릿 및 컨텍스트 사양과 같은 주요 구성 요소를 도입하고 분석하여 성능을 향상시킨다. 또한 배치 크기, 단계 크기 및 운동량과 같은 일반적인 최적화 개념에서 영감을 받아 메타 프롬프트에 언어화된 대응물을 소개하고 그 효과를 조사한다. PE2라는 이름의 우리의 최종 방법은 MultiArith 데이터 세트에서 6.3%, GSM8K 데이터 세트에서 3.1%의 "한 걸음씩 생각하자"를 능가하는 프롬프트를 발견한다. PE2의 범용성을 입증하기 위해 명령 유도 벤치마크에 PE2를 적용하고, 일련의 반사실적 작업과 긴 실제 산업 프롬프트를 제공합니다. 이러한 설정에서 PE2는 강력한 성능을 달성하고 이전의 자동 신속 엔지니어링 기준선을 능가합니다. 또한 PE2가 의미 있고 목표가 되는 신속한 편집을 하고 오류가 있거나 불완전한 프롬프트를 수정하며 사소한 사실에 반하는 추론 능력을 제시한다는 것을 보여준다.
Tamil-Llama: A New Tamil Language Model Based on Llama 2
Abstract:Language modeling has witnessed remarkable advancements in recent years, with Large Language Models (LLMs) like ChatGPT setting unparalleled benchmarks in human-like text generation. However, a prevailing limitation is the underrepresentation of languages like Tamil in these cutting-edge models, leading to suboptimal performance in diverse linguistic contexts. This paper addresses this lacuna, enhancing the open-source LLaMA model with an addition of 16,000 Tamil tokens, aiming to achieve superior text generation and comprehension in the Tamil language. We strategically employ the LoRA methodology for efficient model training on a comprehensive Tamil corpus, ensuring computational feasibility and model robustness. Moreover, we introduce a Tamil-translated version of the Alpaca dataset and a subset of the OpenOrca dataset tailored for instruction fine-tuning. Our results showcase significant performance improvements in Tamil text generation, with potential implications for the broader landscape of LLMs in Indian languages. We further underscore our commitment to open research by making our models, datasets, and code publicly accessible, fostering further innovations in language modeling.
초록:언어 모델링은 최근 몇 년 동안 괄목할 만한 발전을 보였고, ChatGPT와 같은 LLM(Large Language Models)은 인간과 같은 텍스트 생성에서 유례없는 벤치마크를 설정했다. 그러나 이러한 최첨단 모델에서 타밀어와 같은 언어를 과소 표현하여 다양한 언어적 맥락에서 최적의 성능을 발휘하지 못한다는 한계가 지배적이다. 본 논문은 타밀어에서 우수한 텍스트 생성과 이해를 달성하기 위해 16,000개의 타밀 토큰을 추가한 오픈 소스 LlaMA 모델을 개선하여 이러한 라쿠나를 다룬다. 포괄적인 타밀 말뭉치에 대한 효율적인 모델 훈련을 위해 LoRA 방법론을 전략적으로 사용하여 계산 가능성과 모델 견고성을 보장한다. 또한 알파카 데이터 세트의 타밀 번역 버전과 명령 미세 조정에 맞춘 OpenOrca 데이터 세트의 하위 집합을 소개한다. 우리의 결과는 타밀어 텍스트 생성에서 상당한 성능 개선을 보여주며, 인도 언어의 LLM의 광범위한 환경에 잠재적인 영향을 미친다. 우리는 모델, 데이터 세트 및 코드를 공개적으로 접근할 수 있도록 함으로써 개방형 연구에 대한 우리의 약속을 더욱 강조하여 언어 모델링의 혁신을 촉진한다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-11-16] 오늘의 자연어처리 (0) | 2023.11.16 |
---|---|
[2023-11-15] 오늘의 자연어처리 (0) | 2023.11.15 |
[2023-11-13] 오늘의 자연어처리 (0) | 2023.11.13 |
[2023-11-12] 오늘의 자연어처리 (1) | 2023.11.12 |
[2023-11-11] 오늘의 자연어처리 (0) | 2023.11.11 |
댓글