본문 바로가기
오늘의 자연어 처리

[2023-12-26] 오늘의 자연어처리

by 지환이아빠 2023. 12. 26.
반응형

Computational Semantics and Evaluation Benchmark for Interrogative Sentences via Combinatory Categorial Grammar

 

Abstract:We present a compositional semantics for various types of polar questions and wh-questions within the framework of Combinatory Categorial Grammar (CCG). To assess the explanatory power of our proposed analysis, we introduce a question-answering dataset QSEM specifically designed to evaluate the semantics of interrogative sentences. We implement our analysis using existing CCG parsers and conduct evaluations using the dataset. Through the evaluation, we have obtained annotated data with CCG trees and semantic representations for about half of the samples included in QSEM. Furthermore, we discuss the discrepancy between the theoretical capacity of CCG and the capabilities of existing CCG parsers.

 

추상화:우리는 CCG(Combinatory Category Grammar)의 프레임워크 내에서 다양한 유형의 극성 질문과 wh-질문에 대한 구성 의미론을 제시한다. 제안된 분석의 설명력을 평가하기 위해 질문 문장의 의미를 평가하기 위해 특별히 설계된 질문 답변 데이터 세트 QSEM을 소개한다. 기존 CCG 파서를 사용하여 분석을 구현하고 데이터 세트를 사용하여 평가를 수행합니다. 평가를 통해, 우리는 QSEM에 포함된 표본의 약 절반에 대해 CCG 트리와 의미 표현으로 주석이 달린 데이터를 얻었다. 더 나아가, 우리는 CCG의 이론적 역량과 기존 CCG 파서의 역량 간의 불일치에 대해 논의한다. 

 

 

Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models

 

Abstract:Recent remarkable advancements in large language models (LLMs) have led to their widespread adoption in various applications. A key feature of these applications is the combination of LLMs with external content, where user instructions and third-party content are combined to create prompts for LLM processing. These applications, however, are vulnerable to indirect prompt injection attacks, where malicious instructions embedded within external content compromise LLM's output, causing their responses to deviate from user expectations. Despite the discovery of this security issue, no comprehensive analysis of indirect prompt injection attacks on different LLMs is available due to the lack of a benchmark. Furthermore, no effective defense has been proposed. In this work, we introduce the first benchmark, BIPIA, to measure the robustness of various LLMs and defenses against indirect prompt injection attacks. Our experiments reveal that LLMs with greater capabilities exhibit more vulnerable to indirect prompt injection attacks for text tasks, resulting in a higher ASR. We hypothesize that indirect prompt injection attacks are mainly due to the LLMs' inability to distinguish between instructions and external content. Based on this conjecture, we propose four black-box methods based on prompt learning and a white-box defense methods based on fine-tuning with adversarial training to enable LLMs to distinguish between instructions and external content and ignore instructions in the external content. Our experimental results show that our black-box defense methods can effectively reduce ASR but cannot completely thwart indirect prompt injection attacks, while our white-box defense method can reduce ASR to nearly zero with little adverse impact on the LLM's performance on general tasks. We hope that our benchmark and defenses can inspire future work in this important area.

 

추상화:최근 큰 언어 모델(LLM)의 놀라운 발전으로 인해 다양한 응용 분야에서 널리 채택되었다. 이러한 애플리케이션들의 주요 특징은 LLM들과 외부 콘텐츠를 결합하는 것인데, 여기서 사용자 명령들과 제3자 콘텐츠가 결합되어 LLM 처리를 위한 프롬프트들을 생성한다. 그러나 이러한 애플리케이션은 외부 콘텐츠 내에 내장된 악성 명령어가 LLM의 출력을 손상시켜 사용자의 예상을 벗어나는 간접적인 프롬프트 주입 공격에 취약하다. 이러한 보안 문제가 발견되었음에도 불구하고, 벤치마크의 부족으로 인해 다양한 LLM에 대한 간접적인 신속 주입 공격에 대한 포괄적인 분석이 불가능하다. 또한 효과적인 방어 방안도 제시된 바 없다. 본 연구에서는 간접 신속 주입 공격에 대한 다양한 LLM 및 방어의 견고성을 측정하기 위한 첫 번째 벤치마크인 BIPIA를 소개한다. 우리의 실험은 더 큰 기능을 가진 LLM이 텍스트 작업에 대한 간접적인 프롬프트 주입 공격에 더 취약한 것으로 나타나 더 높은 ASR을 초래한다는 것을 보여준다. 간접 신속 주입 공격은 주로 LLM이 명령어와 외부 내용을 구별하지 못하기 때문이라고 가정한다. 이 추측을 바탕으로, 우리는 LLM이 명령어와 외부 콘텐츠를 구별하고 외부 콘텐츠의 명령어를 무시할 수 있도록 적대적 훈련과의 미세 조정을 기반으로 한 네 가지 블랙박스 방법과 화이트박스 방어 방법을 제안한다. 우리의 실험 결과는 우리의 블랙박스 방어 방법이 ASR을 효과적으로 감소시킬 수 있지만 간접적인 신속한 주입 공격을 완전히 방해할 수는 없는 반면, 우리의 화이트박스 방어 방법은 일반 작업에 대한 LLM의 성능에 거의 부정적인 영향을 미치지 않으면서 ASR을 거의 0에 가깝게 감소시킬 수 있음을 보여준다. 우리의 벤치마크와 방어가 이 중요한 분야에서 향후 작업에 영감을 줄 수 있기를 바랍니다. 

 

 

Parameter Efficient Tuning Allows Scalable Personalization of LLMs for Text Entry: A Case Study on Abbreviation Expansion

 

Abstract:Abbreviation expansion is a strategy used to speed up communication by limiting the amount of typing and using a language model to suggest expansions. Here we look at personalizing a Large Language Model's (LLM) suggestions based on prior conversations to enhance the relevance of predictions, particularly when the user data is small (~1000 samples). Specifically, we compare fine-tuning, prompt-tuning, and retrieval augmented generation of expanded text suggestions for abbreviated inputs. Our case study with a deployed 8B parameter LLM on a real user living with ALS, and experiments on movie character personalization indicates that (1) customization may be necessary in some scenarios and prompt-tuning generalizes well to those, (2) fine-tuning on in-domain data (with as few as 600 samples) still shows some gains, however (3) retrieval augmented few-shot selection also outperforms fine-tuning. (4) Parameter efficient tuning allows for efficient and scalable personalization. For prompt-tuning, we also find that initializing the learned "soft-prompts" to user relevant concept tokens leads to higher accuracy than random initialization.

 

추상화:약어 확장은 타이핑의 양을 제한하고 확장을 제안하기 위해 언어 모델을 사용함으로써 의사소통 속도를 높이기 위해 사용되는 전략이다. 여기서는 특히 사용자 데이터가 작을 때(~1000개의 샘플) 예측의 관련성을 향상시키기 위해 사전 대화를 기반으로 LLM(Large Language Model) 제안을 개인화하는 방법을 살펴본다. 구체적으로, 우리는 축약 입력에 대한 확장된 텍스트 제안의 미세 조정, 프롬프트 조정 및 검색 증강 생성을 비교한다. ALS를 사용하는 실제 사용자에 대해 배치된 8B 매개 변수 LLM을 사용한 우리의 사례 연구와 영화 캐릭터 개인화에 대한 실험에 따르면 (1) 일부 시나리오에서는 사용자 지정이 필요할 수 있으며 이에 대한 신속한 조정이 일반화될 수 있으며, (2) 도메인 내 데이터(600개 이하의 샘플)에 대한 미세 조정은 여전히 약간의 이점을 보여준다, 그러나 (3) 검색 증강된 퓨샷 선택 또한 미세 조정을 능가한다. (4) 파라미터 효율적인 조정은 효율적이고 확장 가능한 개인화를 가능하게 한다. 또한 신속한 조정을 위해 학습된 "소프트 프롬프트"를 사용자 관련 개념 토큰으로 초기화하면 무작위 초기화보다 정확도가 높다는 것을 발견했다. 

 

 

반응형

댓글