MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning
Abstract:We introduce MAmmoTH, a series of open-source large language models (LLMs) specifically tailored for general math problem-solving. The MAmmoTH models are trained on MathInstruct, our meticulously curated instruction tuning dataset. MathInstruct is compiled from 13 math datasets with intermediate rationales, six of which have rationales newly curated by us. It presents a unique hybrid of chain-of-thought (CoT) and program-of-thought (PoT) rationales, and also ensures extensive coverage of diverse fields in math. The hybrid of CoT and PoT not only unleashes the potential of tool use but also allows different thought processes for different math problems. As a result, the MAmmoTH series substantially outperform existing open-source models on nine mathematical reasoning datasets across all scales with an average accuracy gain between 13% and 29%. Remarkably, our MAmmoTH-7B model reaches 35% on MATH (a competition-level dataset), which exceeds the best open-source 7B model (WizardMath) by 25%, and the MAmmoTH-34B model achieves 46% accuracy on MATH, even surpassing GPT-4's CoT result. Our work underscores the importance of diverse problem coverage and the use of hybrid rationales in developing superior math generalist models.
초록:우리는 일반 수학 문제 해결에 특별히 맞춘 일련의 오픈 소스 대형 언어 모델(LLM)인 MAMMOTH를 소개한다. 맘모TH 모델은 꼼꼼하게 큐레이션된 명령어 튜닝 데이터 세트인 MathInstrument에 대해 훈련된다. MathInstrument는 13개의 수학 데이터 세트에서 중간 이유로 컴파일되었으며, 이 중 6개는 우리가 새롭게 큐레이팅한 이유를 가지고 있다. 그것은 생각의 연쇄(CoT)와 생각의 프로그램(PoT) 이성의 독특한 혼합을 제시하고, 또한 수학의 다양한 분야에 대한 광범위한 범위를 보장한다. CoT와 PoT의 혼합은 도구 사용의 잠재력을 발휘할 뿐만 아니라 다양한 수학 문제에 대한 다양한 사고 과정을 가능하게 한다. 결과적으로 맘모는TH 시리즈는 평균 정확도가 13%에서 29% 사이에서 모든 규모에 걸쳐 9개의 수학적 추론 데이터 세트에서 기존 오픈 소스 모델을 크게 능가한다. 놀랍게도 우리 맘모가TH-7B 모델은 MATH(경쟁 수준의 데이터 세트)에서 35%에 달하며, 이는 최고의 오픈 소스 7B 모델(Wizard Math)을 25% 초과하고 MAMMOTH-34B 모델은 수학에서 46%의 정확도를 달성하여 GPT-4의 CoT 결과를 능가한다. 우리의 연구는 우수한 수학 일반론자 모델을 개발하는 데 있어 다양한 문제 적용 범위와 하이브리드 합리의 사용의 중요성을 강조한다.
Personality Detection and Analysis using Twitter Data
Abstract:Personality types are important in various fields as they hold relevant information about the characteristics of a human being in an explainable format. They are often good predictors of a person's behaviors in a particular environment and have applications ranging from candidate selection to marketing and mental health. Recently automatic detection of personality traits from texts has gained significant attention in computational linguistics. Most personality detection and analysis methods have focused on small datasets making their experimental observations often limited. To bridge this gap, we focus on collecting and releasing the largest automatically curated dataset for the research community which has 152 million tweets and 56 thousand data points for the Myers-Briggs personality type (MBTI) prediction task. We perform a series of extensive qualitative and quantitative studies on our dataset to analyze the data patterns in a better way and infer conclusions. We show how our intriguing analysis results often follow natural intuition. We also perform a series of ablation studies to show how the baselines perform for our dataset.
초록:성격 유형은 인간의 특성에 대한 관련 정보를 설명 가능한 형식으로 보유하고 있기 때문에 다양한 분야에서 중요하다. 그들은 종종 특정 환경에서 사람의 행동을 잘 예측하고 후보 선정부터 마케팅, 정신 건강에 이르기까지 다양한 응용 분야를 가지고 있다. 최근에는 컴퓨터 언어학에서 텍스트로부터 성격 특성을 자동으로 감지하는 것이 주목받고 있다. 대부분의 성격 탐지 및 분석 방법은 작은 데이터 세트에 초점을 맞추어 실험 관측치가 종종 제한된다. 이러한 격차를 해소하기 위해, 우리는 Myers-Briggs 성격 유형(MBTI) 예측 작업을 위한 1억 5,200만 개의 트윗과 56,000개의 데이터 포인트를 가진 연구 커뮤니티를 위한 가장 큰 자동 큐레이션 데이터 세트를 수집하고 발표하는 데 중점을 둔다. 데이터 패턴을 더 나은 방식으로 분석하고 결론을 추론하기 위해 데이터 세트에 대한 일련의 광범위한 질적 및 양적 연구를 수행한다. 우리는 우리의 흥미로운 분석 결과가 종종 자연스러운 직관을 따르는 것을 보여준다. 또한 일련의 절제 연구를 수행하여 기준선이 데이터 세트에서 어떻게 작동하는지 보여준다.
Incorporating Pre-trained Model Prompting in Multimodal Stock Volume Movement Prediction
Abstract:Multimodal stock trading volume movement prediction with stock-related news is one of the fundamental problems in the financial area. Existing multimodal works that train models from scratch face the problem of lacking universal knowledge when modeling financial news. In addition, the models ability may be limited by the lack of domain-related knowledge due to insufficient data in the datasets. To handle this issue, we propose the Prompt-based MUltimodal Stock volumE prediction model (ProMUSE) to process text and time series modalities. We use pre-trained language models for better comprehension of financial news and adopt prompt learning methods to leverage their capability in universal knowledge to model textual information. Besides, simply fusing two modalities can cause harm to the unimodal representations. Thus, we propose a novel cross-modality contrastive alignment while reserving the unimodal heads beside the fusion head to mitigate this problem. Extensive experiments demonstrate that our proposed ProMUSE outperforms existing baselines. Comprehensive analyses further validate the effectiveness of our architecture compared to potential variants and learning mechanisms.
초록:주식 관련 뉴스를 활용한 멀티모달 주식 거래량 움직임 예측은 금융 영역의 근본적인 문제점 중 하나이다. 모델을 처음부터 훈련하는 기존의 멀티모달 작업은 금융 뉴스를 모델링할 때 보편적인 지식이 부족하다는 문제에 직면한다. 또한, 데이터셋에서 데이터가 충분하지 않아 도메인 관련 지식이 부족하여 모델 능력이 제한될 수 있다. 이 문제를 해결하기 위해 텍스트 및 시계열 양식을 처리하기 위한 Prompt-based Multimodal Stock volumeE 예측 모델(ProMUSE)을 제안한다. 우리는 금융 뉴스를 더 잘 이해하기 위해 사전 훈련된 언어 모델을 사용하고 보편적 지식의 능력을 활용하여 텍스트 정보를 모델링하는 신속한 학습 방법을 채택한다. 또한, 단순히 두 가지 양식을 융합하는 것은 단일 양식 표현에 해를 끼칠 수 있다. 따라서, 우리는 이 문제를 완화하기 위해 퓨전 헤드 옆에 유니모달 헤드를 보존하면서 새로운 교차 모달 대조 정렬을 제안한다. 광범위한 실험에 따르면 우리가 제안한 ProMUSE는 기존 기준선을 능가한다. 포괄적인 분석은 잠재적 변형 및 학습 메커니즘과 비교하여 아키텍처의 효과를 더욱 검증한다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-09-15] 오늘의 자연어처리 (0) | 2023.09.15 |
---|---|
[2023-09-14] 오늘의 자연어처리 (0) | 2023.09.14 |
[2023-09-12] 오늘의 자연어처리 (0) | 2023.09.12 |
[2023-09-11] 오늘의 자연어처리 (0) | 2023.09.11 |
[2023-09-10] 오늘의 자연어처리 (0) | 2023.09.10 |
댓글