본문 바로가기
오늘의 자연어 처리

[2023-11-20] 오늘의 자연어처리

by 지환이아빠 2023. 11. 20.
반응형

Performance Trade-offs of Watermarking Large Language Models

 

Abstract:Amidst growing concerns of large language models (LLMs) being misused for generating misinformation or completing homework assignments, watermarking has emerged as an effective solution for distinguishing human-written and LLM-generated text. A prominent watermarking strategy is to embed a signal into generated text by upsampling a (pseudorandomly-chosen) subset of tokens at every generation step. Although this signal is imperceptible to a human reader, it is detectable through statistical testing. However, implanting such signals alters the model's output distribution and can have unintended effects when watermarked LLMs are used for downstream applications. In this work, we evaluate the performance of watermarked LLMs on a diverse suite of tasks, including text classification, textual entailment, reasoning, question answering, translation, summarization, and language modeling. We find that watermarking has negligible impact on the performance of tasks posed as k-class classification problems in the average case. However, the accuracy can plummet to that of a random classifier for some scenarios (that occur with non-negligible probability). Tasks that are cast as multiple-choice questions and short-form generation are surprisingly unaffected by watermarking. For long-form generation tasks, including summarization and translation, we see a drop of 15-20% in the performance due to watermarking. Our findings highlight the trade-offs that users should be cognizant of when using watermarked models, and point to cases where future research could improve existing trade-offs.

 

추상화:큰 언어 모델(LLM)이 잘못된 정보를 생성하거나 숙제를 완료하는 데 잘못 사용될 수 있다는 우려가 증가하는 가운데 워터마킹은 인간이 작성한 텍스트와 LLM이 생성한 텍스트를 구별하는 효과적인 솔루션으로 부상했다. 두드러진 워터마킹 전략은 모든 생성 단계에서 토큰의 서브셋을 업샘플링하여 생성된 텍스트에 신호를 삽입하는 것이다. 이 신호는 인간 독자에게는 감지할 수 없지만, 통계적 테스트를 통해 감지할 수 있다. 그러나, 이러한 신호를 주입하는 것은 모델의 출력 분포를 변화시키고, 워터마크된 LLM이 다운스트림 애플리케이션에 사용될 때 의도하지 않은 영향을 미칠 수 있다. 본 연구에서는 텍스트 분류, 텍스트 수반, 추론, 질문 답변, 번역, 요약 및 언어 모델링을 포함한 다양한 작업 세트에서 워터마크 LLM의 성능을 평가한다. 우리는 워터마크가 평균적인 경우에 k-클래스 분류 문제로 제기된 작업의 성능에 무시할 수 있는 영향을 미친다는 것을 발견했다. 그러나 일부 시나리오의 경우( 무시할 수 없는 확률로 발생하는) 정확도가 무작위 분류기의 정확도로 곤두박질칠 수 있다. 객관식 질문과 숏폼 생성으로 캐스팅되는 작업은 워터마킹의 영향을 전혀 받지 않는다. 요약 및 번역을 포함한 긴 형태의 생성 작업의 경우 워터마크로 인해 성능이 15-20% 감소한다. 우리의 연구 결과는 사용자가 워터마크 모델을 사용할 때 인식해야 하는 절충점을 강조하고, 향후 연구에서 기존 절충점을 개선할 수 있는 사례를 지적한다. 

 

 

$\textit{Dial BeInfo for Faithfulness}$: Improving Factuality of Information-Seeking Dialogue via Behavioural Fine-Tuning

 

Abstract:Factuality is a crucial requirement in information seeking dialogue: the system should respond to the user's queries so that the responses are meaningful and aligned with the knowledge provided to the system. However, most modern large language models suffer from hallucinations, that is, they generate responses not supported by or contradicting the knowledge source. To mitigate the issue and increase faithfulness of information-seeking dialogue systems, we introduce BeInfo, a simple yet effective method that applies behavioural tuning to aid information-seeking dialogue. Relying on three standard datasets, we show that models tuned with BeInfo} become considerably more faithful to the knowledge source both for datasets and domains seen during BeInfo-tuning, as well as on unseen domains, when applied in a zero-shot manner. In addition, we show that the models with 3B parameters (e.g., Flan-T5) tuned with BeInfo demonstrate strong performance on data from real `production' conversations and outperform GPT4 when tuned on a limited amount of such realistic in-domain dialogues.

 

추상화:사실성은 대화를 추구하는 정보에서 중요한 요건이다: 시스템은 사용자의 질문에 응답하여 응답이 의미 있고 시스템에 제공된 지식과 일치하도록 해야 한다. 그러나 대부분의 현대 대형 언어 모델은 환각에 시달리며, 즉 지식 소스에 의해 지원되지 않거나 모순되는 응답을 생성한다. 정보 추구 대화 시스템의 문제를 완화하고 충실도를 높이기 위해, 우리는 정보 추구 대화를 돕기 위해 행동 조정을 적용하는 간단하지만 효과적인 방법인 BeInfo를 소개한다. 세 가지 표준 데이터 세트에 의존하여 BeInfo}로 조정된 모델이 제로샷 방식으로 적용될 때 BeInfo 조정 중에 보이는 데이터 세트와 도메인뿐만 아니라 보이지 않는 도메인 모두에 대해 지식 소스에 훨씬 더 충실해진다는 것을 보여준다. 또한 BeInfo로 튜닝된 3B 매개 변수(예: Flan-T5)를 사용한 모델이 실제 '생산' 대화의 데이터에 대해 강력한 성능을 보여주고 제한된 양의 이러한 현실적인 도메인 내 대화에서 튜닝되었을 때 GPT4를 능가한다는 것을 보여준다. 

 

 

Is "A Helpful Assistant" the Best Role for Large Language Models? A Systematic Evaluation of Social Roles in System Prompts

 

Abstract:Prompting serves as the major way humans interact with Large Language Models (LLM). Commercial AI systems commonly define the role of the LLM in system prompts. For example, ChatGPT uses "You are a helpful assistant" as part of the default system prompt. But is "a helpful assistant" the best role for LLMs? In this study, we present a systematic evaluation of how social roles in system prompts affect model performance. We curate a list of 162 roles covering 6 types of interpersonal relationships and 8 types of occupations. Through extensive analysis of 3 popular LLMs and 2457 questions, we show that adding interpersonal roles in prompts consistently improves the models' performance over a range of questions. Moreover, while we find that using gender-neutral roles and specifying the role as the audience leads to better performances, predicting which role leads to the best performance remains a challenging task, and that frequency, similarity, and perplexity do not fully explain the effect of social roles on model performances. Our results can help inform the design of system prompts for AI systems. Code and data are available at this https URL.

 

추상화:프롬프트는 인간이 LLM(Large Language Models)과 상호 작용하는 주요 방식이다. 상용 AI 시스템은 일반적으로 시스템 프롬프트에서 LLM의 역할을 정의한다. 예를 들어, ChatGPT는 기본 시스템 프롬프트의 일부로 "You are a helped assistant"를 사용합니다. 그러나 LLM들에게 '도움이 되는 조력자'가 가장 좋은 역할인가? 본 연구에서는 시스템 프롬프트에서의 사회적 역할이 모델 성과에 어떠한 영향을 미치는지에 대한 체계적인 평가를 제시한다. 6가지 유형의 대인관계와 8가지 유형의 직업을 포괄하는 162개의 역할 목록을 작성한다. 3개의 인기 LLM과 2457개의 질문에 대한 광범위한 분석을 통해 프롬프트에서 대인 역할을 추가하면 다양한 질문에서 모델의 성능이 일관되게 향상된다는 것을 보여준다. 더욱이 성중립적인 역할을 사용하고 역할을 관객으로 명시하는 것이 더 나은 성과로 이어진다는 것을 발견하는 반면, 어떤 역할이 가장 좋은 성과로 이어지는지 예측하는 것은 여전히 도전적인 과제로 남아 있으며, 빈도, 유사성, 당혹감이 사회적 역할이 모델 성과에 미치는 영향을 충분히 설명하지 못한다. 우리의 결과는 AI 시스템에 대한 시스템 프롬프트의 설계를 알리는 데 도움이 될 수 있습니다. 코드와 데이터는 이 https URL에서 사용할 수 있습니다. 

 

 

반응형

댓글