Circuit Breaking: Removing Model Behaviors with Targeted Ablation
Language models often exhibit behaviors that improve performance on a pre-training objective but harm performance on downstream tasks. We propose a novel approach to removing undesirable behaviors by ablating a small number of causal pathways between model components, with the intention of disabling the computational circuit responsible for the bad behavior. Given a small dataset of inputs where the model behaves poorly, we learn to ablate a small number of important causal pathways. In the setting of reducing GPT-2 toxic language generation, we find ablating just 12 of the 11.6K causal edges mitigates toxic generation with minimal degradation of performance on other inputs.
언어 모델은 종종 성능을 향상시키는 행동을 보인다 교육 목표를 사전에 달성해야 하지만 다운스트림 작업에 대한 성능에 해를 끼칩니다. 우리는 제안한다 소수의 사람들을 물로 만들어서 바람직하지 않은 행동들을 제거하는 새로운 접근법 모델 구성 요소 간의 인과 경로를 비활성화할 목적으로 나쁜 행동의 원인이 되는 계산 회로. 작은 데이터 집합이 주어진 경우 모델이 제대로 작동하지 않는 입력의 경우, 우리는 적은 수의 중요한 인과 경로. GPT-2 독성 언어 감소 설정에서 생성, 우리는 11.6K 원인 가장자리 중 단지 12개만이 독성을 완화시킨다는 것을 발견했다 다른 입력에 대한 성능 저하를 최소화하는 세대.
The Moral Machine Experiment on Large Language Models
As large language models (LLMs) become more deeply integrated into various sectors, understanding how they make moral judgments has become crucial, particularly in the realm of autonomous driving. This study utilized the Moral Machine framework to investigate the ethical decision-making tendencies of prominent LLMs, including GPT-3.5, GPT-4, PaLM 2, and Llama 2, comparing their responses to human preferences. While LLMs' and humans' preferences such as prioritizing humans over pets and favoring saving more lives are broadly aligned, PaLM 2 and Llama 2, especially, evidence distinct deviations. Additionally, despite the qualitative similarities between the LLM and human preferences, there are significant quantitative disparities, suggesting that LLMs might lean toward more uncompromising decisions, compared to the milder inclinations of humans. These insights elucidate the ethical frameworks of LLMs and their potential implications for autonomous driving.
LLM(Large Language Model)이 다양한 언어로 더욱 깊이 통합됨에 따라 부문들, 그들이 어떻게 도덕적 판단을 하는지 이해하는 것이 중요해졌다, 특히 자율주행의 영역에서 말이죠. 본 연구는 모럴을 활용하였다 다음의 윤리적 의사결정 성향을 조사하기 위한 기계 프레임워크 GPT-3.5, GPT-4, PaLM2, 그리고 Lama2를 포함한 저명한 LLM들, 그들을 비교한다 인간의 취향에 대한 반응. LLM들과 인간들의 선호도는 다음과 같습니다 애완동물보다 인간을 우선시하고 더 많은 생명을 구하는 것을 선호하는 것은 광범위하다 정렬된 PaLM 2와 라마 2는 특히 뚜렷한 편차를 보여줍니다. 또한 LLM과 인간의 질적 유사성에도 불구하고 선호도, 상당한 양적 차이가 있으며, 이는 다음을 시사한다 LLM은 가벼운 결정에 비해 타협하지 않는 결정으로 기울 수 있습니다 사람의 성향. 이러한 통찰력은 LLM의 윤리적 프레임워크를 설명한다 그리고 자율주행에 대한 잠재적인 영향을 설명합니다.
Down the Toxicity Rabbit Hole: Investigating PaLM 2 Guardrails
This paper conducts a robustness audit of the safety feedback of PaLM 2 through a novel toxicity rabbit hole framework introduced here. Starting with a stereotype, the framework instructs PaLM 2 to generate more toxic content than the stereotype. Every subsequent iteration it continues instructing PaLM 2 to generate more toxic content than the previous iteration until PaLM 2 safety guardrails throw a safety violation. Our experiments uncover highly disturbing antisemitic, Islamophobic, racist, homophobic, and misogynistic (to list a few) generated content that PaLM 2 safety guardrails do not evaluate as highly unsafe.
본 논문에서는 PaLM2의 안전성 피드백에 대한 강건성 감사를 수행한다 여기에 소개된 새로운 독성 토끼 구멍 프레임워크를 통해. A부터 시작한다 고정관념, 틀은 PaLM2에게 보다 더 많은 유독한 내용물을 생성하도록 지시한다 상투적인 상투적인 상투적인 상투적인 것. 이후 반복될 때마다 PaLM 2는 다음과 같이 계속 지시한다 PaLM 2 안전까지 이전 반복보다 더 많은 유독물질을 생성한다 가드레일이 안전을 위반하다. 우리의 실험은 매우 충격적인 것을 밝혀냈다 반유대주의적, 이슬람 혐오적, 인종차별적, 동성애 혐오적, 여성 혐오적 (몇 가지를 열거하자면) PaLM 2 안전 가드레일이 높게 평가하지 않는 생성된 내용 불안전한.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-09-16] 오늘의 자연어처리 (0) | 2023.09.16 |
---|---|
[2023-09-15] 오늘의 자연어처리 (0) | 2023.09.15 |
[2023-09-13] 오늘의 자연어처리 (0) | 2023.09.13 |
[2023-09-12] 오늘의 자연어처리 (0) | 2023.09.12 |
[2023-09-11] 오늘의 자연어처리 (0) | 2023.09.11 |
댓글