본문 바로가기
오늘의 자연어 처리

[2023-07-19] 오늘의 자연어처리

by 지환이아빠 2023. 7. 19.
반응형

Latent Jailbreak: A Benchmark for Evaluating Text Safety and Output Robustness of Large Language Models

 

Researchers have invested considerable effort into ensuring that large language models (LLMs) align with human values, using various training techniques, such as instruction tuning and Reinforcement Learning from Human or AI Feedback (RLHF/RLAIF), to guard against text unsafety. However, these defenses remain incredibly vulnerable to some jailbreak attacks, which can cause the model to become overly defensive to sensitive topics or still generate harmful content, leaving the model performance particularly fragile. Therefore, to comprehensively study text safety and output robustness, we propose a latent jailbreak prompt dataset, each involving malicious instruction embedding. Specifically, we instruct the model to complete a regular task, such as translation, where the text to be translated contains malicious instructions. To further analyze the safety and robustness, we design a hierarchical annotation framework. We present a systematic analysis of the safety and robustness of LLMs concerning the position of explicit normal instructions, word replacement (verbs in explicit normal instructions, target groups in malicious instructions, cue words in malicious instructions), and instruction replacement (different explicit normal instructions). Our results show that current LLMs not only have a preference for certain instruction verbs, but also exhibit different jailbreak rates for different instruction verbs in explicit normal instructions. In other words, the probability of generating unsafe content by the model will be reinforced to varying degrees depending on the instruction verb in explicit normal instructions. Code and data are available at this https URL.

 

연구원들은 그것이 대규모임을 보장하기 위해 상당한 노력을 투자했다 언어 모델(LLM)은 다양한 훈련을 사용하여 인간의 가치에 부합한다 교육 튜닝 및 인간으로부터의 강화 학습과 같은 기술 또는 AI 피드백(RLHF/RLAIF), 텍스트 안전성을 방지합니다. 그러나, 이것들은 방어는 일부 탈옥 공격에 믿을 수 없을 정도로 취약하다 모델이 민감한 주제에 대해 지나치게 방어적이 되게 하거나 여전히 유해 콘텐츠를 생성하여 모델 성능을 특히 취약하게 만듭니다. 따라서 텍스트 안전성과 출력 견고성을 종합적으로 연구하기 위해 각각 악의적인 지시를 포함하는 잠재적 탈옥 즉시 데이터 세트를 제안한다 매립의. 구체적으로, 우리는 모델에게 다음과 같은 정기적인 작업을 완료하도록 지시한다 번역으로서, 번역될 텍스트가 악의적인 내용을 포함하는 경우 지침들. 안전성과 견고성을 추가로 분석하기 위해, 우리는 다음을 설계한다 계층적 주석 프레임워크입니다. 우리는 체계적인 분석을 제시한다 명시적 정상 위치와 관련된 LLM의 안전성 및 견고성 지침, 단어 대체(명시적인 정상 지침에 포함됨, 대상 그룹을 악의적인 명령어로, 키워드를 악의적인 명령어로 표시) 명령 교체(다른 명시적 정상 명령). 우리의 결과 현재 LLM이 특정 명령어만 선호하는 것이 아님을 보여줍니다 동사, 그러나 다른 명령어에 대해 다른 탈옥률을 보이기도 한다 명시적으로 정상적인 지시어에 있는 동사들. 다시 말해서, 확률은 모델에 의해 안전하지 않은 콘텐츠를 생성하는 것은 다양한 정도로 강화될 것이다 명시적인 정상 명령의 명령 동사에 따라. 코드와 데이터는 이 https URL에서 사용할 수 있습니다. 

 

 

Mini-Giants: "Small" Language Models and Open Source Win-Win

 

ChatGPT is phenomenal. However, it is prohibitively expensive to train and refine such giant models. Fortunately, small language models are flourishing and becoming more and more competent. We call them "mini-giants". We argue that open source community like Kaggle and mini-giants will win-win in many ways, technically, ethically and socially. In this article, we present a brief yet rich background, discuss how to attain small language models, present a comparative study of small language models and a brief discussion of evaluation methods, discuss the application scenarios where small language models are most needed in the real world, and conclude with discussion and outlook.

 

ChatGPT는 경이롭다. 하지만, 훈련하는 것은 엄청나게 비싸다 그런 거대한 모형을 다듬다. 다행히도, 작은 언어 모델들이 번창하고 있다 그리고 점점 더 유능해 지는 것. 우리는 그들을 "미니 거인"이라고 부릅니다. 우리는 주장한다 Kaggle과 같은 오픈 소스 커뮤니티와 미니 자이언트는 여러 면에서 윈-윈을 할 것이다, 기술적으로, 윤리적으로, 사회적으로. 이 기사에서, 우리는 아직도 간략하게 발표한다 풍부한 배경, 작은 언어 모델을 얻는 방법에 대해 토론하고, 발표한다 작은 언어 모델의 비교 연구와 평가에 대한 간단한 토론 방법, 작은 언어 모델이 가장 많은 응용 시나리오에 대해 논의합니다 현실 세계에서 필요하며, 토론과 전망으로 마무리한다. 

 

 

It's All Relative: Interpretable Models for Scoring Bias in Documents

 

We propose an interpretable model to score the bias present in web documents, based only on their textual content. Our model incorporates assumptions reminiscent of the Bradley-Terry axioms and is trained on pairs of revisions of the same Wikipedia article, where one version is more biased than the other. While prior approaches based on absolute bias classification have struggled to obtain a high accuracy for the task, we are able to develop a useful model for scoring bias by learning to perform pairwise comparisons of bias accurately. We show that we can interpret the parameters of the trained model to discover the words most indicative of bias. We also apply our model in three different settings - studying the temporal evolution of bias in Wikipedia articles, comparing news sources based on bias, and scoring bias in law amendments. In each case, we demonstrate that the outputs of the model can be explained and validated, even for the two domains that are outside the training-data domain. We also use the model to compare the general level of bias between domains, where we see that legal texts are the least biased and news media are the most biased, with Wikipedia articles in between. Given its high performance, simplicity, interpretability, and wide applicability, we hope the model will be useful for a large community, including Wikipedia and news editors, political and social scientists, and the general public.

 

우리는 웹 문서에 존재하는 편향을 점수화하기 위해 해석 가능한 모델을 제안한다, 텍스트 내용에만 기반합니다. 우리의 모델은 가정을 포함한다 브래들리-테리 공리를 연상시키며, 한 쌍의 수정판에 대해 훈련을 받는다 한 버전이 다른 버전보다 더 편향된 동일한 위키백과 기사. 절대 편향 분류에 기초한 이전의 접근법은 다음과 같이 어려움을 겪어왔다 작업에 대한 높은 정확도를 얻으면, 우리는 유용한 모델을 개발할 수 있다 쌍별 바이어스 비교를 정확하게 수행하는 방법을 학습하여 점수 바이어스. 우리가 우리가 훈련된 모델의 매개 변수를 해석하여 발견할 수 있다는 것을 보여줍니다 편견을 가장 잘 나타내는 말. 우리는 또한 우리의 모델을 세 가지 다른 방식으로 적용한다 설정 - 위키백과 기사에서 편향의 시간적 진화를 연구합니다, 편견에 근거한 뉴스 출처 비교, 법 개정에서 점수 편향. 인 각각의 경우, 우리는 모델의 출력이 설명될 수 있고 교육 데이터 도메인 외부에 있는 두 도메인에 대해서도 유효성이 검사됩니다. 우리는 또한 도메인 간의 일반적인 편향 수준을 비교하기 위해 모델을 사용한다, 우리가 법률 텍스트가 가장 덜 편향되어 있고 뉴스 미디어가 가장 많이 편향되어 있다는 것을 볼 수 있는 곳 위키백과 기사를 사이에 두고 편향된. 높은 성능을 고려할 때, 단순성, 해석 가능성, 그리고 광범위한 적용 가능성, 우리는 그 모델이 위키피디아와 뉴스 편집자, 정치인을 포함한 큰 커뮤니티에 유용하다 그리고 사회과학자들, 그리고 일반 대중들. 

 

 

반응형

댓글