Analysis of the Reasoning with Redundant Information Provided Ability of Large Language Models
Abstract:Recent advancements in Large Language Models (LLMs) have demonstrated impressive capabilities across a range of natural language processing tasks, especially in reasoning, a cornerstone for achieving Artificial General Intelligence (AGI). However, commonly used benchmarks may not fully encapsulate the inferential abilities of these models in real-world scenarios. To address this gap, a new form of Question-Answering (QA) task, termed Reasoning with Redundant Information Provided (RRIP), is introduced. The study designed a modified version of the grade school math 8K (GSM-8K) dataset which has several variants focusing on different attributes of redundant information. This investigation evaluates two popular LLMs, LlaMA2-13B-chat and generative pre-trained transformer 3.5 (GPT-3.5), contrasting their performance on traditional QA tasks against the RRIP tasks. Findings indicate that while these models achieved moderate success on standard QA benchmarks, their performance notably declines when assessed on RRIP tasks. The study not only highlights the limitations of current LLMs in handling redundant information but also suggests that future training of these models should focus on incorporating redundant information into the training data to increase the performance on RRIP tasks.
초록:최근 LLM(Large Language Models)의 발전은 다양한 자연어 처리 작업, 특히 인공 일반 지능(AGI)을 달성하기 위한 초석인 추론에 걸쳐 인상적인 능력을 입증했다. 그러나 일반적으로 사용되는 벤치마크는 실제 시나리오에서 이러한 모델의 추론 능력을 완전히 캡슐화하지 못할 수 있다. 이러한 격차를 해결하기 위해 중복 정보 제공 추론(RRIP)이라는 새로운 형태의 질의 응답(QA) 작업이 도입된다. 이 연구는 중복 정보의 다양한 속성에 초점을 맞춘 여러 변형이 있는 초등학교 수학 8K(GSM-8K) 데이터 세트의 수정된 버전을 설계했다. 이 조사는 두 가지 인기 LLM인 LlaMA2-13B 채팅과 생성 사전 훈련된 트랜스포머 3.5(GPT-3.5)를 평가하여 RRIP 작업과 기존 QA 작업에 대한 성능을 비교한다. 결과는 이러한 모델이 표준 QA 벤치마크에서 중간 수준의 성공을 거두었지만 RRIP 작업에서 평가할 때 성능이 현저히 저하된다는 것을 보여준다. 이 연구는 중복 정보를 처리하는 데 있어 현재 LLM의 한계를 강조할 뿐만 아니라 향후 이러한 모델의 훈련은 RRIP 작업에 대한 성능을 높이기 위해 중복 정보를 훈련 데이터에 통합하는 데 중점을 두어야 함을 시사한다.
Exploring the evolution of research topics during the COVID-19 pandemic
Abstract:The COVID-19 pandemic has changed the research agendas of most scientific communities, resulting in an overwhelming production of research articles in a variety of domains, including medicine, virology, epidemiology, economy, psychology, and so on. Several open-access corpora and literature hubs were established; among them, the COVID-19 Open Research Dataset (CORD-19) has systematically gathered scientific contributions for 2.5 years, by collecting and indexing over one million articles. Here, we present the CORD-19 Topic Visualizer (CORToViz), a method and associated visualization tool for inspecting the CORD-19 textual corpus of scientific abstracts. Our method is based upon a careful selection of up-to-date technologies (including large language models), resulting in an architecture for clustering articles along orthogonal dimensions and extraction techniques for temporal topic mining. Topic inspection is supported by an interactive dashboard, providing fast, one-click visualization of topic contents as word clouds and topic trends as time series, equipped with easy-to-drive statistical testing for analyzing the significance of topic emergence along arbitrarily selected time windows. The processes of data preparation and results visualization are completely general and virtually applicable to any corpus of textual documents - thus suited for effective adaptation to other contexts.
초록:코로나19 범유행은 대부분의 과학계의 연구 어젠다를 변화시켰고, 의학, 바이러스학, 역학, 경제, 심리학 등 다양한 분야의 연구 논문이 압도적으로 많이 생산되었다. 이 중 CORD-19 오픈 리서치 데이터셋(COVID-19 Open Research Dataset, CORD-19)은 2.5년 동안 100만 건 이상의 논문을 수집하고 색인화하여 과학적 기여를 체계적으로 수집하였다. 여기서는 과학적 추상물의 CORD-19 텍스트 코퍼스를 검사하는 방법 및 관련 시각화 도구인 CORD-19 Topic Visualizer(CORtoViz)를 제시한다. 우리의 방법은 (큰 언어 모델을 포함한) 최신 기술의 신중한 선택을 기반으로 하며, 이를 통해 기사를 직교 차원을 따라 클러스터링하는 아키텍처와 시간적 토픽 마이닝을 위한 추출 기술이 도출된다. 토픽 검사는 대화형 대시보드를 통해 지원되며, 워드 클라우드로 토픽 내용을 빠르고 원클릭으로 시각화하고 시계열로 토픽 트렌드를 빠르게 시각화할 수 있으며, 임의로 선택한 시간대를 따라 토픽 출현의 유의성을 분석하기 위한 운전이 쉬운 통계 테스트를 갖추고 있다. 데이터 준비 및 결과 시각화 과정은 완전히 일반적이며 텍스트 문서의 말뭉치에 사실상 적용 가능하므로 다른 맥락에 효과적으로 적응하는 데 적합하다.
Automatic and Human-AI Interactive Text Generation
Abstract:In this tutorial, we focus on text-to-text generation, a class of natural language generation (NLG) tasks, that takes a piece of text as input and then generates a revision that is improved according to some specific criteria (e.g., readability or linguistic styles), while largely retaining the original meaning and the length of the text. This includes many useful applications, such as text simplification, paraphrase generation, style transfer, etc. In contrast to text summarization and open-ended text completion (e.g., story), the text-to-text generation tasks we discuss in this tutorial are more constrained in terms of semantic consistency and targeted language styles. This level of control makes these tasks ideal testbeds for studying the ability of models to generate text that is both semantically adequate and stylistically appropriate. Moreover, these tasks are interesting from a technical standpoint, as they require complex combinations of lexical and syntactical transformations, stylistic control, and adherence to factual knowledge, -- all at once. With a special focus on text simplification and revision, this tutorial aims to provide an overview of the state-of-the-art natural language generation research from four major aspects -- Data, Models, Human-AI Collaboration, and Evaluation -- and to discuss and showcase a few significant and recent advances: (1) the use of non-retrogressive approaches; (2) the shift from fine-tuning to prompting with large language models; (3) the development of new learnable metric and fine-grained human evaluation framework; (4) a growing body of studies and datasets on non-English languages; (5) the rise of HCI+NLP+Accessibility interdisciplinary research to create real-world writing assistant systems.
초록:본 튜토리얼에서는 텍스트를 입력으로 취한 다음 일부 특정 기준(예: 가독성 또는 언어 스타일)에 따라 개선되는 수정판을 생성하는 텍스트 간 생성에 초점을 맞추면서 원래 의미와 텍스트의 길이를 크게 유지한다. 여기에는 텍스트 단순화, 구문 생성, 스타일 전송 등 많은 유용한 응용 프로그램이 포함된다. 텍스트 요약 및 개방형 텍스트 완성(예: 스토리)과 대조적으로, 이 튜토리얼에서 논의하는 텍스트 간 생성 작업은 의미적 일관성과 목표 언어 스타일 측면에서 더 제한적이다. 이러한 수준의 제어는 이러한 작업을 의미적으로 적합하고 양식적으로 적합한 텍스트를 생성하는 모델의 능력을 연구하는 데 이상적인 테스트 베드로 만든다. 게다가, 이 작업들은 어휘적이고 구문적인 변환, 문체적인 통제, 사실적인 지식에 대한 고수의 복잡한 조합을 한 번에 요구하기 때문에 기술적인 관점에서 흥미롭다. 텍스트 단순화 및 수정에 특별히 초점을 맞춘 본 튜토리얼은 데이터, 모델, 인간-AI 협업, 4가지 주요 측면에서 최첨단 자연어 생성 연구의 개요를 제공하는 것을 목표로 한다, 그리고 평가 - 그리고 몇 가지 중요하고 최근의 발전을 논의하고 보여주기 위해: (1) 비역진적 접근법의 사용; (2) 미세 조정에서 큰 언어 모델을 사용한 촉구로의 전환; (3) 새로운 학습 가능한 메트릭과 세분화된 인간 평가 프레임워크의 개발; (4) 비영어에 대한 증가하는 연구 및 데이터 세트 언어; (5) 실제 쓰기 보조 시스템을 만들기 위한 HCI+NLP+Accessibility 학제간 연구의 증가.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-10-12] 오늘의 자연어처리 (0) | 2023.10.12 |
---|---|
[2023-10-11] 오늘의 자연어처리 (0) | 2023.10.11 |
[2023-10-09] 오늘의 자연어처리 (0) | 2023.10.09 |
[2023-10-08] 오늘의 자연어처리 (0) | 2023.10.08 |
[2023-10-07] 오늘의 자연어처리 (1) | 2023.10.07 |
댓글