본문 바로가기
오늘의 자연어 처리

[2023-04-21] 오늘의 자연어처리

by 지환이아빠 2023. 4. 21.
반응형

Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agent

 

Large Language Models (LLMs) have demonstrated a remarkable ability to generalize zero-shot to various language-related tasks. This paper focuses on the study of exploring generative LLMs such as ChatGPT and GPT-4 for relevance ranking in Information Retrieval (IR). Surprisingly, our experiments reveal that properly instructed ChatGPT and GPT-4 can deliver competitive, even superior results than supervised methods on popular IR benchmarks. Notably, GPT-4 outperforms the fully fine-tuned monoT5-3B on MS MARCO by an average of 2.7 nDCG on TREC datasets, an average of 2.3 nDCG on eight BEIR datasets, and an average of 2.7 nDCG on ten low-resource languages Mr.TyDi. Subsequently, we delve into the potential for distilling the ranking capabilities of ChatGPT into a specialized model. Our small specialized model that trained on 10K ChatGPT generated data outperforms monoT5 trained on 400K annotated MS MARCO data on BEIR. The code to reproduce our results is available at this http URL

 

대규모 언어 모델(LLM)은 다음과 같은 놀라운 능력을 입증했습니다 다양한 언어 관련 작업에 제로샷을 일반화한다. 이 논문은 다음에 초점을 맞춘다 ChatGPT 및 GPT-4와 같은 생성 LLM의 관련성 연구 정보 검색(IR) 부문에서 순위. 놀랍게도, 우리의 실험은 적절하게 지시된 ChatGPT 및 GPT-4가 경쟁력, 심지어 인기 있는 IR 벤치마크에서 감독된 방법보다 우수한 결과. 특히, GPT-4는 MS MARCO에서 완전히 미세 조정된 모노T5-3B를 평균적으로 능가한다 TEC 데이터 세트에서 2.7 nDCG, 8개의 BEER 데이터 세트에서 평균 2.3 nDCG, 그리고 Mr.TyDi 10개의 저자원 언어에서 평균 2.7nDCG. 그 후, 우리는 ChatGPT의 잠재력을 탐구하다 전문화된 모델로. 10K에서 교육을 받은 소규모 전문 모델 ChatGPT 생성 데이터는 주석이 달린 40만 개의 MS MARCO에서 훈련된 monT5보다 성능이 뛰어납니다 BERE에 관한 자료. 결과를 재현할 코드는 다음 사이트에서 확인할 수 있습니다 이 http URL 

 

 

Bridging Natural Language Processing and Psycholinguistics: computationally grounded semantic similarity and relatedness datasets for Basque and Spanish

 

We present a computationally-grounded word similarity dataset based on two well-known Natural Language Processing resources; text corpora and knowledge bases. This dataset aims to fulfil a gap in psycholinguistic research by providing a variety of quantifications of semantic similarity in an extensive set of noun pairs controlled by variables that play a significant role in lexical processing. The dataset creation has consisted in three steps, 1) computing four key psycholinguistic features for each noun; concreteness, frequency, semantic and phonological neighbourhood density; 2) pairing nouns across these four variables; 3) for each noun pair, assigning three types of word similarity measurements, computed out of text, Wordnet and hybrid embeddings. The present dataset includes noun pairs' information in Basque and European Spanish, but further work intends to extend it to more languages.

 

우리는 두 가지를 기반으로 계산 기반 단어 유사성 데이터 세트를 제시한다 잘 알려진 자연어 처리 리소스; 텍스트 말뭉치 및 지식 이 데이터 세트는 심리언어학 연구의 공백을 메우는 것을 목표로 한다 광범위한 의미론적 유사성의 다양한 정량화 제공 에서 중요한 역할을 하는 변수에 의해 제어되는 명사 쌍의 집합 어휘 처리. 데이터셋 생성은 3단계, 1)로 구성되었습니다 각 명사에 대한 네 가지 핵심 심리언어학적 특징을 계산한다; 구체성, 빈도, 의미론적 및 음운론적 인접 밀도; 2) 명사 짝짓기 이 네 가지 변수에 걸쳐; 3) 각 명사 쌍에 대해, 세 가지 유형을 할당한다 워드 유사성 측정, 텍스트로 계산, 워드넷 및 하이브리드 임베디드 장치. 현재 데이터 세트는 바스크어로 된 명사 쌍의 정보를 포함하고 있다 유럽 스페인어이지만, 더 많은 언어로 확장하려는 노력이 있다. 

 

 

How to Do Things with Deep Learning Code

 

The premise of this article is that a basic understanding of the composition and functioning of large language models is critically urgent. To that end, we extract a representational map of OpenAI's GPT-2 with what we articulate as two classes of deep learning code, that which pertains to the model and that which underwrites applications built around the model. We then verify this map through case studies of two popular GPT-2 applications: the text adventure game, AI Dungeon, and the language art project, This Word Does Not Exist. Such an exercise allows us to test the potential of Critical Code Studies when the object of study is deep learning code and to demonstrate the validity of code as an analytical focus for researchers in the subfields of Critical Artificial Intelligence and Critical Machine Learning Studies. More broadly, however, our work draws attention to the means by which ordinary users might interact with, and even direct, the behavior of deep learning systems, and by extension works toward demystifying some of the auratic mystery of "AI." What is at stake is the possibility of achieving an informed sociotechnical consensus about the responsible applications of large language models, as well as a more expansive sense of their creative capabilities-indeed, understanding how and where engagement occurs allows all of us to become more active participants in the development of machine learning systems.

 

이 글의 전제는 구성에 대한 기본적인 이해이다 그리고 큰 언어 모델의 기능은 매우 시급하다. 이를 위해 우리는 OpenAI의 GPT-2의 대표적인 지도를 추출한다 모델과 관련된 딥 러닝 코드의 클래스와 모델을 중심으로 구축된 애플리케이션을 승인합니다. 그런 다음 이 지도를 확인합니다 두 가지 인기 있는 GPT-2 응용 프로그램의 사례 연구를 통해 텍스트 모험 게임, AI 던전, 그리고 언어 예술 프로젝트인 이 단어는 존재하지 않는다. 그런 연습을 통해 우리는 Critical Code Studies의 잠재력을 테스트할 수 있다 연구의 목적은 딥러닝 코드와 코드의 타당성을 증명하는 것이다 Critical Artificial 하위 분야의 연구자들을 위한 분석적 초점으로서 지능과 중요한 기계 학습 연구. 그러나 더 넓게 말하면, 우리의 작업은 일반 사용자가 상호 작용할 수 있는 수단에 주의를 끈다, 그리고 심지어 직접적으로, 딥 러닝 시스템의 행동, 그리고 확장에 의해 작동한다 "AI"의 귀에 거슬리는 미스터리의 일부를 이해하기 위해 정보에 입각한 사회 기술적 합의를 달성할 수 있는 가능성 더 광범위할 뿐만 아니라 큰 언어 모델의 책임감 있는 응용 그들의 창의적인 능력에 대한 감각-방법과 장소에 대한 이해 참여가 발생하면 우리 모두는 더 적극적인 참여자가 될 수 있다 기계 학습 시스템의 개발. 

 

 

반응형

댓글