본문 바로가기
오늘의 자연어 처리

[2024-01-10] 오늘의 자연어처리

by 지환이아빠 2024. 1. 10.
반응형

A Philosophical Introduction to Language Models -- Part I: Continuity With Classic Debates

 

Abstract:Large language models like GPT-4 have achieved remarkable proficiency in a broad spectrum of language-based tasks, some of which are traditionally associated with hallmarks of human intelligence. This has prompted ongoing disagreements about the extent to which we can meaningfully ascribe any kind of linguistic or cognitive competence to language models. Such questions have deep philosophical roots, echoing longstanding debates about the status of artificial neural networks as cognitive models. This article -- the first part of two companion papers -- serves both as a primer on language models for philosophers, and as an opinionated survey of their significance in relation to classic debates in the philosophy cognitive science, artificial intelligence, and linguistics. We cover topics such as compositionality, language acquisition, semantic competence, grounding, world models, and the transmission of cultural knowledge. We argue that the success of language models challenges several long-held assumptions about artificial neural networks. However, we also highlight the need for further empirical investigation to better understand their internal mechanisms. This sets the stage for the companion paper (Part II), which turns to novel empirical methods for probing the inner workings of language models, and new philosophical questions prompted by their latest developments.

 

추상화:GPT-4와 같은 대형 언어 모델은 전통적으로 인간 지능의 특징과 관련된 광범위한 언어 기반 작업에서 놀라운 숙련도를 달성했다. 이것은 우리가 어떤 종류의 언어적 또는 인지적 능력을 언어 모델에 의미 있게 부여할 수 있는 정도에 대한 지속적인 논쟁을 촉발시켰다. 이와 같은 질문은 인지 모델로서의 인공신경망의 위상에 대한 오랜 논쟁을 상기시키며 철학적 뿌리가 깊다. 두 편의 동반 논문의 첫 부분인 이 글은 철학자들의 언어 모델에 대한 입문서이자 철학 인지 과학, 인공 지능 및 언어학의 고전적 논쟁과 관련하여 그들의 중요성에 대한 의견 조사의 역할을 한다. 구성성, 언어 습득, 의미 역량, 접지, 세계 모델 및 문화 지식 전달과 같은 주제를 다룹니다. 우리는 언어 모델의 성공이 인공 신경망에 대한 오랜 가정에 도전한다고 주장한다. 그러나 우리는 또한 그들의 내부 메커니즘을 더 잘 이해하기 위해 추가적인 경험적 조사의 필요성을 강조한다. 이는 언어 모델의 내적 작동을 조사하기 위한 새로운 경험적 방법과 그들의 최신 발전에 의해 촉발된 새로운 철학적 질문으로 전환하는 동반 논문(Part II)의 발판을 마련한다. 

 

 

TextMachina: Seamless Generation of Machine-Generated Text Datasets

 

Abstract:Recent advancements in Large Language Models (LLMs) have led to high-quality Machine-Generated Text (MGT), giving rise to countless new use cases and applications. However, easy access to LLMs is posing new challenges due to misuse. To address malicious usage, researchers have released datasets to effectively train models on MGT-related tasks. Similar strategies are used to compile these datasets, but no tool currently unifies them. In this scenario, we introduce TextMachina, a modular and extensible Python framework, designed to aid in the creation of high-quality, unbiased datasets to build robust models for MGT-related tasks such as detection, attribution, or boundary detection. It provides a user-friendly pipeline that abstracts away the inherent intricacies of building MGT datasets, such as LLM integrations, prompt templating, and bias mitigation. The quality of the datasets generated by TextMachina has been assessed in previous works, including shared tasks where more than one hundred teams trained robust MGT detectors.

 

추상화:최근 LLM(Large Language Model)의 발전은 고품질 기계 생성 텍스트(MGT)로 이어져 셀 수 없이 많은 새로운 사용 사례와 응용 프로그램을 탄생시켰다. 그러나, LLM들에 대한 용이한 접근은 오용으로 인해 새로운 도전들을 야기하고 있다. 악의적인 사용을 해결하기 위해 연구자들은 MGT 관련 작업에 대한 모델을 효과적으로 훈련시키기 위한 데이터 세트를 공개했다. 이러한 데이터 세트를 컴파일하기 위해 유사한 전략이 사용되지만 현재 이를 통합하는 도구는 없다. 이 시나리오에서는 검출, 귀속 또는 경계 검출과 같은 MGT 관련 작업을 위한 강력한 모델을 구축하기 위해 고품질의 편향되지 않은 데이터 세트를 생성하는 데 도움이 되도록 설계된 모듈식 확장 가능한 파이썬 프레임워크인 TextMachina를 소개한다. LLM 통합, 신속 템플릿 및 편향 완화와 같은 MGT 데이터 세트 구축의 고유한 복잡성을 추상화하는 사용자 친화적인 파이프라인을 제공한다. 텍스트 머신이 생성한 데이터 세트의 품질은 100개 이상의 팀이 강력한 MGT 검출기를 훈련시킨 공유 작업을 포함하여 이전 작업에서 평가되었다. 

 

 

Token-free LLMs Can Generate Chinese Classical Poetry with More Accurate Format

 

Abstract:Finetuned large language models (such as ChatGPT and Qwen-chat) can generate Chinese classical poetry following human's instructions. LLMs perform well in content, but are usually lacking in format, with occasionally excess or insufficient number of characters in each line. Since most SOTA LLMs are token-based, we assume that the format inaccuracy is due to the difficulty of the "token planning" task, which means that the LLM need to know exactly how much characters are contained in each token and do length-control planning based on that knowledge. In this paper, we first confirm our assumption by showing that existing token-based large language models has limited knowledge on token-character relationship. We use a spelling bee probing procedure, and find that Qwen-chat failed in nearly 15% Chinese spelling test. We then show that a token-based model can be easily tailored into a token-free model (in terms of Chinese), which can largely solve the format accuracy problem. Our tailoring procedure removes long-token from vocabulary and keeps only character-level or byte-level tokens. As part of our contribution, we release the finetuned token-free model (which is based on Qwen-chat-7B), which can generate chinese classical poetry following complex instructions like LLMs (such as story paraphrasing), and also perform well in format. On the test set, our token-free model achives an format accuracy of 0.96, compared to 0.84 for token-based counterparts and 0.38 for GPT-4.

 

추상화:ChatGPT, Qwen-chat 등의 미세조화된 대형 언어 모델은 인간의 지시에 따라 중국 고전 시를 생성할 수 있다. LLM은 콘텐츠에서는 우수한 성능을 발휘하지만, 형식이 부족한 경우가 많으며, 각 행의 문자 수가 초과하거나 부족한 경우가 있다. 대부분의 SOTA LLM은 토큰 기반이기 때문에 형식의 부정확성이 "토큰 계획" 작업의 난이도에 기인한다고 가정하며, 이는 LLM이 각 토큰에 얼마나 많은 문자가 포함되어 있는지 정확하게 알고 그 지식을 기반으로 길이-제어 계획을 수행해야 함을 의미한다. 본 논문에서는 먼저 기존 토큰 기반의 큰 언어 모델이 토큰-문자 관계에 대한 지식이 제한적이라는 것을 보여줌으로써 우리의 가정을 확인한다. 우리는 철자 조사 절차를 사용하고, Qwen-chat이 거의 15%의 중국어 철자 테스트에서 실패했다는 것을 발견했다. 그런 다음 토큰 기반 모델을 토큰 프리 모델(중국어 기준)로 쉽게 조정할 수 있으며, 이는 형식 정확성 문제를 크게 해결할 수 있음을 보여준다. 우리의 맞춤형 절차는 어휘에서 긴 토큰을 제거하고 문자 수준 또는 바이트 수준 토큰만 유지한다. 우리는 기여의 일환으로 LLM과 같은 복잡한 지침(이야기 패러프레이징 등)을 따라 중국 고전 시를 생성하고 형식적으로도 우수한 성능을 발휘할 수 있는 정교한 토큰 프리 모델(Qwen-chat-7B 기반)을 출시한다. 테스트 세트에서 토큰 프리 모델은 토큰 기반 대응 모델의 경우 0.84, GPT-4의 경우 0.38과 비교하여 0.96의 포맷 정확도를 달성한다. 

 

 

반응형

댓글