The language of prompting: What linguistic properties make a prompt successful?
The latest generation of LLMs can be prompted to achieve impressive zero-shot or few-shot performance in many NLP tasks. However, since performance is highly sensitive to the choice of prompts, considerable effort has been devoted to crowd-sourcing prompts or designing methods for prompt optimisation. Yet, we still lack a systematic understanding of how linguistic properties of prompts correlate with task performance. In this work, we investigate how LLMs of different sizes, pre-trained and instruction-tuned, perform on prompts that are semantically equivalent, but vary in linguistic structure. We investigate both grammatical properties such as mood, tense, aspect and modality, as well as lexico-semantic variation through the use of synonyms. Our findings contradict the common assumption that LLMs achieve optimal performance on lower perplexity prompts that reflect language use in pretraining or instruction-tuning data. Prompts transfer poorly between datasets or models, and performance cannot generally be explained by perplexity, word frequency, ambiguity or prompt length. Based on our results, we put forward a proposal for a more robust and comprehensive evaluation standard for prompting research.
최신 세대의 LLM은 인상적인 제로샷을 달성하도록 유도할 수 있습니다 또는 많은 NLP 작업에서 퓨샷 성능을 제공합니다. 하지만 성능이 높기 때문에 프롬프트의 선택에 민감한, 상당한 노력을 기울였다 크라우드 sour 프롬프트 또는 신속한 최적화를 위한 방법 설계. 근데 저희가 프롬프트의 언어적 속성에 대한 체계적인 이해가 아직 부족하다 작업 수행과 상관 관계가 있습니다. 이 작업에서 우리는 LLM이 어떻게 작동하는지 조사한다 다양한 크기, 사전 교육 및 지침 - tuned, 다음과 같은 프롬프트에 따라 수행 의미론적으로 동등하지만 언어적 구조는 다양하다. 우리는 둘 다 조사한다 기분, 시제, 양상 그리고 양식과 같은 문법적 특성들 뿐만 아니라 동의어 사용을 통한 어휘-semantic 변이. 우리의 발견은 모순된다 LLM이 더 낮은 난잡함에서 최적의 성능을 달성한다는 일반적인 가정 사전 교육 또는 명령 조정 데이터에서 언어 사용을 반영하는 프롬프트입니다. 프롬프트가 데이터셋 또는 모델 간에 전달되지 않아 성능이 저하됨 일반적으로 당혹감, 단어빈도, 모호함 또는 신속함으로 설명된다 길이. 우리의 결과를 바탕으로, 우리는 더 강력한 그리고 연구를 촉진하기 위한 종합적인 평가 기준.
PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion
Recent evaluations of Large Language Models (LLMs) have centered around testing their zero-shot/few-shot capabilities for basic natural language tasks and their ability to translate instructions into tool APIs. However, the evaluation of LLMs utilizing complex tools to finish multi-turn, multi-modal instructions in a complex multi-modal environment has not been investigated. To address this gap, we introduce the PowerPoint Task Completion (PPTC) benchmark to assess LLMs' ability to create and edit PPT files based on user instructions. It contains 279 multi-turn sessions covering diverse topics and hundreds of instructions involving multi-modal operations. We also propose the PPTX-Match Evaluation System that evaluates if LLMs finish the instruction based on the prediction file rather than the label API sequence, thus it supports various LLM-generated API sequences. We measure 3 closed LLMs and 6 open-source LLMs. The results show that GPT-4 outperforms other LLMs with 75.1\% accuracy in single-turn dialogue testing but faces challenges in completing entire sessions, achieving just 6\% session accuracy. We find three main error causes in our benchmark: error accumulation in the multi-turn session, long PPT template processing, and multi-modality perception. These pose great challenges for future LLM and agent systems. We release the data, code, and evaluation system of PPTC at \url{this https URL}.
LLM(Large Language Models)에 대한 최근의 평가는 다음을 중심으로 이루어져 왔다 기본적인 자연어 작업을 위해 제로샷/퍼샷 기능 테스트 명령어를 도구 API로 번역할 수 있는 능력이 있습니다. 하지만, 그 다중 턴, 다중 모드를 완료하기 위해 복잡한 도구를 사용하는 LLM의 평가 복잡한 다중 modal 환경에서의 지침은 조사되지 않았다. 로. 이러한 차이를 해결하기 위해 PowerPoint Task Complete(PPTC) 벤치마크를 소개합니다 사용자를 기반으로 PPT 파일을 만들고 편집하는 LLM의 능력을 평가하다 지침들. 다양한 주제를 다루는 279개의 멀티 턴 세션이 포함되어 있다 다중 modal 작업과 관련된 수백 개의 명령어. 우리는 또한 다음을 제안한다 LLM이 지시를 완료했는지 평가하는 PPTX-Match 평가 시스템 라벨 API 시퀀스가 아닌 예측 파일을 기반으로 하여 는 다양한 LLM 생성 API 시퀀스를 지원합니다. 우리는 3개의 닫힌 LLM과 6개의 LLM을 측정한다 오픈 소스 LLMs. 결과는 GPT-4가 다른 LLM보다 우수하다는 것을 보여준다 75.단일 방향 대화 테스트에서는 1\%의 정확도를 보여주지만 다음과 같은 문제에 직면해 있습니다 전체 세션을 완료하여 6%의 세션 정확도를 달성할 수 있습니다. 3개를 찾았다 벤치마크의 주요 오류 원인: 멀티 턴의 오류 누적 세션, 긴 PPT 템플릿 처리 및 다중 양식 인식. 이것들 미래의 LLM 및 에이전트 시스템에 큰 도전을 제기합니다. 데이터를 공개하면, 코드 및 \url{this https URL}의 PPTC 평가 시스템.
Grounded Intuition of GPT-Vision's Abilities with Scientific Images
GPT-Vision has impressed us on a range of vision-language tasks, but it comes with the familiar new challenge: we have little idea of its capabilities and limitations. In our study, we formalize a process that many have instinctively been trying already to develop "grounded intuition" of this new model. Inspired by the recent movement away from benchmarking in favor of example-driven qualitative evaluation, we draw upon grounded theory and thematic analysis in social science and human-computer interaction to establish a rigorous framework for qualitative evaluation in natural language processing. We use our technique to examine alt text generation for scientific figures, finding that GPT-Vision is particularly sensitive to prompting, counterfactual text in images, and relative spatial relationships. Our method and analysis aim to help researchers ramp up their own grounded intuitions of new models while exposing how GPT-Vision can be applied to make information more accessible.
GPT-Vision은 다양한 비전 언어 작업에 대해 우리에게 깊은 인상을 남겼지만, 그 결과는 다음과 같습니다 익숙한 새로운 도전과 함께: 우리는 그것의 능력에 대해 거의 알지 못합니다 한계. 우리의 연구에서, 우리는 많은 사람들이 본능적으로 가지고 있는 과정을 공식화한다 그는 이미 이 새로운 모델의 "grounded 직관"을 개발하려고 노력해왔다. 영감을 받은 모범주도형을 선호하는 최근의 벤치마킹에서 벗어나서 질적 평가, 우리는 근거있는 이론과 주제 분석에 근거한다 사회과학과 인간과 컴퓨터의 상호작용을 통해 엄격한 틀을 확립하다 자연어 처리에 있어서 정성 평가를 위해. 우리는 우리의 기술을 사용한다 과학적 수치에 대한 대체 텍스트 생성을 조사하고 GPT-Vision을 찾는다 메시지 표시, 이미지의 반사실 텍스트에 특히 민감합니다 상대적인 공간적 관계들. 우리의 방법과 분석은 연구자들을 돕는 것을 목표로 한다 새로운 모델에 대한 기본적인 직관을 강화하는 동시에 다음과 같은 방법을 제시합니다 GPT-Vision은 정보 접근성을 높이기 위해 적용될 수 있다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-11-09] 오늘의 자연어처리 (0) | 2023.11.09 |
---|---|
[2023-11-08] 오늘의 자연어처리 (0) | 2023.11.08 |
[2023-11-06] 오늘의 자연어처리 (0) | 2023.11.06 |
[2023-11-05] 오늘의 자연어처리 (0) | 2023.11.05 |
[2023-11-04] 오늘의 자연어처리 (1) | 2023.11.04 |
댓글