본문 바로가기
오늘의 자연어 처리

[2023-08-07] 오늘의 자연어처리

by 지환이아빠 2023. 8. 7.
반응형

Reasoning in Large Language Models Through Symbolic Math Word Problems

 

Large language models (LLMs) have revolutionized NLP by solving downstream tasks with little to no labeled data. Despite their versatile abilities, the larger question of their ability to reason remains ill-understood. This paper addresses reasoning in math word problems (MWPs) by studying symbolic versions of the numeric problems, since a symbolic expression is a "concise explanation" of the numeric answer. We create and use a symbolic version of the SVAMP dataset and find that GPT-3's davinci-002 model also has good zero-shot accuracy on symbolic MWPs. To evaluate the faithfulness of the model's reasoning, we go beyond accuracy and additionally evaluate the alignment between the final answer and the outputted reasoning, which correspond to numeric and symbolic answers respectively for MWPs. We explore a self-prompting approach to encourage the symbolic reasoning to align with the numeric answer, thus equipping the LLM with the ability to provide a concise and verifiable reasoning and making it more interpretable. Surprisingly, self-prompting also improves the symbolic accuracy to be higher than both the numeric and symbolic accuracies, thus providing an ensembling effect. The SVAMP_Sym dataset will be released for future research on symbolic math problems.

 

대형 언어 모델(LLM)은 다운스트림을 해결함으로써 NLP에 혁신을 가져왔다 레이블이 지정된 데이터가 거의 없거나 전혀 없는 작업입니다. 그들의 다재다능한 능력에도 불구하고 그들의 추론 능력에 대한 더 큰 문제는 여전히 잘 이해되지 않고 있다. 이 논문 기호 버전을 연구하여 수학 단어 문제(MWP)의 추론을 해결합니다 숫자 문제의 경우, 기호 표현은 "이상적인 설명"이기 때문에 숫자 답의. SVAMP의 심볼릭 버전을 생성하여 사용합니다 데이터 세트와 GPT-3의 davinci-002 모델도 제로샷이 좋다는 것을 확인합니다 상징적 MWP에 대한 정확성. 모델의 충실도를 평가하기 위해 추론, 우리는 정확성을 넘어 정렬을 추가로 평가한다 최종 답과 출력된 추론 사이에서, 다음에 해당한다 MWP에 대해 각각 숫자 및 기호 답변. 자체 프롬프트를 탐색합니다 기호적 추론이 숫자 답과 일치하도록 장려하는 접근법, 따라서 LLM에 간결하고 검증 가능한 기능을 제공합니다 추론하고 더 해석하기 쉽게 만드는 것. 놀랍게도, 또한 스스로를 격려합니다 기호 정확도가 숫자와 기호 모두보다 더 높게 향상됩니다 정확성, 따라서 앙상블 효과를 제공합니다. SVAMP_Sym 데이터 세트는 다음과 같습니다 기호 수학 문제에 대한 향후 연구를 위해 발표되었다. 

 

 

HouYi: An open-source large language model specially designed for renewable energy and carbon neutrality field

 

Renewable energy is important for achieving carbon neutrality goal. With the great success of Large Language Models (LLMs) like ChatGPT in automatic content generation, LLMs are playing an increasingly important role. However, there has not been a specially designed LLM for renewable energy. Meanwhile, there has not been any dataset of renewable energy for training LLMs. Therefore, this paper published the first open-source Renewable Energy Academic Paper (REAP) dataset for non-commercial LLM research of renewable energy. REAP dataset is collected through searching the title and abstract of 1,168,970 academic literatures from Web of Science. Based on REAP dataset, HouYi model, the first LLM for renewable energy, is developed through finetuning general LLMs. HouYi demonstrated powerful academic paper paragraph generation ability in renewable energy field. Experiments show that its ability to generate academic papers on renewable energy is comparable to ChatGPT, slightly outperforms Claude, ERNIE Bot and SparkDesk, and significantly outperforms open-source LLaMA-13B model.

 

재생 에너지는 탄소 중립 목표를 달성하기 위해 중요하다. 와 함께 ChatGPT와 같은 LLM(Large Language Model)이 자동 콘텐츠에서 큰 성공을 거두었습니다 세대, LLM은 점점 더 중요한 역할을 하고 있다. 하지만, 있다 재생 에너지를 위해 특별히 설계된 LLM이 아닙니다. 한편, 있다 LLM 훈련을 위한 재생 가능 에너지 데이터 세트가 아닙니다. 그러므로 이것은 최초의 오픈 소스 REAP(Renewable Energy Academic Paper)를 발표한 논문 재생 에너지에 대한 비상업적 LLM 연구를 위한 데이터 세트. REAP 데이터 세트는 학술지 1,168,970개의 제목과 초록을 검색하여 수집했다 웹 오브 사이언스로부터의 문학. 최초의 REAP 데이터 세트인 HouYi 모델을 기반으로 합니다 재생 에너지용 LLM은 미세 조정 일반 LLM을 통해 개발되었습니다. HouYi 재생 가능성에서 강력한 학술 논문 문단 생성 능력을 입증했다 에너지 분야. 실험은 그것의 학술 논문 생성 능력을 보여준다 재생 가능 에너지는 ChatGPT에 필적하며, ERNIE의 클로드를 약간 능가한다 Bot과 SparkDesk는 오픈 소스 LLAMA-13B 모델을 크게 능가합니다. 

 

 

Baby's CoThought: Leveraging Large Language Models for Enhanced Reasoning in Compact Models

 

Large Language Models (LLMs) demonstrate remarkable performance on a variety of Natural Language Understanding (NLU) tasks, primarily due to their in-context learning ability. This ability is utilized in our proposed "CoThought" pipeline, which efficiently trains smaller "baby" language models (BabyLMs) by leveraging the Chain of Thought (CoT) prompting of LLMs. Our pipeline restructures a dataset of less than 100M in size using GPT-3.5-turbo, transforming it into task-oriented, human-readable texts that are comparable to the school texts for language learners. The BabyLM is then pretrained on this restructured dataset in a RoBERTa (Liu et al., 2019) fashion. In evaluations across 4 benchmarks, our BabyLM outperforms the RoBERTa-base in 10 linguistic, NLU, and question answering tasks by more than 3 points, showing superior ability to extract contextual information. These results suggest that compact LMs pretrained on small, LLM-restructured data can better understand tasks and achieve improved performance. The code for data processing and model training is available at: this https URL.

 

LLM(Large Language Model)은 다양한 분야에서 탁월한 성능을 입증합니다 주로 자연어 이해(NLU) 작업으로 인해 교내 학습 능력. 이 기능은 우리가 제안한 것에 활용된다 더 작은 "아기" 언어 모델을 효율적으로 훈련하는 "CoThought" 파이프라인 (아기 LM) LLM의 프롬프트를 생각의 사슬(CoT)을 활용하여. 우리의 파이프라인은 GPT-3.5-터보를 사용하여 크기가 100M 미만인 데이터 세트를 재구성한다, 임무 지향적으로 변화시키고, 에 필적하는 사람이 읽을 수 있는 텍스트 언어 학습자를 위한 학교 교재. 더 베이비그런 다음 LM은 이것에 대해 사전 교육을 받습니다 데이터 세트를 RoBERTa(Liu et al., 2019) 방식으로 재구성했다. 평가에서 4개의 벤치마크에 걸쳐, 우리의 아기LM은 10개 언어에서 Roberta 기반을 능가한다, NLU 및 질문 응답 작업이 3점 이상 향상되어 우수함 상황에 맞는 정보를 추출할 수 있습니다. 이러한 결과는 콤팩트가 소규모 LLM 구조 데이터에 대해 사전 훈련된 LM은 작업을 더 잘 이해할 수 있습니다 실적이 향상되다. 데이터 처리 및 모델 교육을 위한 코드 사용 가능한 위치: 이 https URL. 

 

 

반응형

댓글