The Turing Deception
This research revisits the classic Turing test and compares recent large language models such as ChatGPT for their abilities to reproduce human-level comprehension and compelling text generation. Two task challenges -- summarization, and question answering -- prompt ChatGPT to produce original content (98-99%) from a single text entry and also sequential questions originally posed by Turing in 1950. The question of a machine fooling a human judge recedes in this work relative to the question of "how would one prove it?" The original contribution of the work presents a metric and simple grammatical set for understanding the writing mechanics of chatbots in evaluating their readability and statistical clarity, engagement, delivery, and overall quality. While Turing's original prose scores at least 14% below the machine-generated output, the question of whether an algorithm displays hints of Turing's truly original thoughts (the "Lovelace 2.0" test) remains unanswered and potentially unanswerable for now.
이 연구는 고전적인 튜링 테스트를 재검토하고 최근의 큰 것을 비교한다. 인간 수준의 재생산 능력을 위한 ChatGPT와 같은 언어 모델 이해력과 설득력 있는 텍스트 생성. 두 가지 과제 - 요약 및 질문 답변 -- ChatGPT가 원본을 생성하도록 프롬프트합니다. 단일 텍스트 항목의 내용(98-99%) 및 순차적 질문 원래 1950년에 튜링에 의해 자세가 취해졌다. 기계가 인간을 속이는 것에 대한 질문 "어떻게 증명할 것인가"라는 질문과 관련하여 이 작업에서 판사는 물러난다. 그것은?" 이 작업의 원래 기여는 미터법과 간단한 것을 제시한다. 챗봇의 쓰기 역학을 이해하기 위한 문법 세트 가독성 및 통계적 명확성 평가, 참여, 전달 및 전반적인 품질 튜링의 원래 산문은 적어도 14% 아래의 점수를 받는다. 기계 생성 출력, 알고리즘이 힌트를 표시하는지 여부에 대한 질문 튜링의 진정한 독창적인 생각("Lovelace 2.0" 테스트)이 남아있다. 현재로서는 대답할 수 없고 잠재적으로 대답할 수 없습니다.
Localized Latent Updates for Fine-Tuning Vision-Language Models
Although massive pre-trained vision-language models like CLIP show impressive generalization capabilities for many tasks, still it often remains necessary to fine-tune them for improved performance on specific datasets. When doing so, it is desirable that updating the model is fast and that the model does not lose its capabilities on data outside of the dataset, as is often the case with classical fine-tuning approaches. In this work we suggest a lightweight adapter, that only updates the models predictions close to seen datapoints. We demonstrate the effectiveness and speed of this relatively simple approach in the context of few-shot learning, where our results both on classes seen and unseen during training are comparable with or improve on the state of the art.
CLIP와 같은 대규모 사전 훈련된 비전 언어 모델이 인상적이지만 많은 작업에 대한 일반화 기능, 여전히 필요한 경우가 많습니다. 특정 데이터셋의 성능을 향상시키기 위해 이를 미세 조정합니다. 그렇게 할 때, 그것은. 모델 업데이트가 빠르고 모델이 손실되지 않는 것이 바람직하다. 데이터 세트 외부의 데이터에 대한 기능(흔히 있는 경우) 고전적인 미세 조정 접근법 이 작업에서 우리는 가벼운 무게를 제안한다. 어댑터 - 표시된 데이터 지점에 가까운 모델 예측만 업데이트합니다. 우리가 이 비교적 간단한 접근법의 효과와 속도를 입증한다. 수업에 대한 우리의 결과가 보이는 퓨샷 학습의 맥락과 훈련 중에 보이지 않는 것은 최첨단 기술과 비슷하거나 향상된다.
Prompting Is Programming: A Query Language For Large Language Models
Large language models have demonstrated outstanding performance on a wide range of tasks such as question answering and code generation. On a high level, given an input, a language model can be used to automatically complete the sequence in a statistically-likely way. Based on this, users prompt these models with language instructions or examples, to implement a variety of downstream tasks. Advanced prompting methods can even imply interaction between the language model, a user, and external tools such as calculators. However, to obtain state-of-the-art performance or adapt language models for specific tasks, complex task- and model-specific programs have to be implemented, which may still require ad-hoc interaction. Based on this, we present the novel idea of Language Model Programming (LMP). LMP generalizes language model prompting from pure text prompts to an intuitive combination of text prompting and scripting. Additionally, LMP allows constraints to be specified over the language model output. This enables easy adaption to many tasks, while abstracting language model internals and providing high-level semantics. To enable LMP, we implement LMQL (short for Language Model Query Language), which leverages the constraints and control flow from an LMP prompt to generate an efficient inference procedure that minimizes the number of expensive calls to the underlying language model. We show that LMQL can capture a wide range of state-of-the-art prompting methods in an intuitive way, especially facilitating interactive flows that are challenging to implement with existing high-level APIs. Our evaluation shows that we retain or increase the accuracy on several downstream tasks, while also significantly reducing the required amount of computation or cost in the case of pay-to-use APIs (13-85% cost savings).
대규모 언어 모델은 광범위한 분야에서 뛰어난 성능을 입증했습니다. 질문 답변 및 코드 생성과 같은 작업 범위. 높은 수준에서, 입력이 주어지면, 언어 모델은 자동으로 완성되는 데 사용될 수 있다. 통계적으로 정확한 순서를 지정합니다. 이를 기반으로 사용자는 다음과 같은 메시지를 표시합니다. 다양한 언어 지침 또는 예제가 있는 모델을 구현하기 위해 다운스트림 작업 고급 프롬프트 방법은 다음과 같은 상호 작용을 의미할 수도 있습니다. 언어 모델, 사용자 및 계산기와 같은 외부 도구. 그러나, 에게 최첨단 성능을 얻거나 특정 언어 모델을 적용한다. 작업, 복잡한 작업 및 모델별 프로그램을 구현해야 합니다. 여전히 임시 상호 작용이 필요할 수 있습니다. 이를 바탕으로 언어 모델 프로그래밍(LMP)의 새로운 아이디어를 제시한다. LMP는 순수 텍스트 프롬프트에서 직관적인 텍스트 프롬프트로 언어 모델을 일반화합니다. 텍스트 프롬프트와 스크립팅의 조합. 추가적으로, LMP는 다음을 허용한다. 언어 모델 출력에 지정할 제약 조건. 이것은 쉽게 할 수 있습니다. 언어 모델 내부를 추상화하는 동안 많은 작업에 적응합니다. 높은 수준의 의미론을 제공합니다. LMP를 활성화하기 위해 LMQL을 구현합니다(약칭: Language Model Query Language), 제약 조건 및 제어 기능을 활용합니다. 효율적인 추론 절차를 생성하기 위한 LMP 프롬프트로부터의 흐름 기본 언어 모델에 대한 고가의 호출 수를 최소화합니다. 우리가 LMQL이 광범위한 최첨단 프롬프트 방법을 캡처할 수 있음을 보여준다. 직관적인 방식으로, 특히 상호 작용하는 흐름을 촉진합니다. 기존의 고급 API로 구현하기가 어렵습니다. 우리의 평가는 보여준다. 여러 다운스트림 작업에 대한 정확도를 유지하거나 높입니다. 필요한 계산량 또는 비용을 대폭 절감합니다. 사용료 지불 API(13-85% 비용 절감).
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-12-17] 오늘의 자연어처리 (1) | 2022.12.17 |
---|---|
[2022-12-16] 오늘의 자연어처리 (0) | 2022.12.16 |
[2022-12-14] 오늘의 자연어처리 (0) | 2022.12.14 |
[2022-12-13] 오늘의 자연어처리 (0) | 2022.12.13 |
[2022-12-12] 오늘의 자연어처리 (0) | 2022.12.12 |
댓글