본문 바로가기
오늘의 자연어 처리

[2023-10-25] 오늘의 자연어처리

by 지환이아빠 2023. 10. 25.
반응형

Did the Neurons Read your Book? Document-level Membership Inference for Large Language Models

 

Abstract:With large language models (LLMs) poised to become embedded in our daily lives, questions are starting to be raised about the dataset(s) they learned from. These questions range from potential bias or misinformation LLMs could retain from their training data to questions of copyright and fair use of human-generated text. However, while these questions emerge, developers of the recent state-of-the-art LLMs become increasingly reluctant to disclose details on their training corpus. We here introduce the task of document-level membership inference for real-world LLMs, i.e. inferring whether the LLM has seen a given document during training or not. First, we propose a procedure for the development and evaluation of document-level membership inference for LLMs by leveraging commonly used data sources for training and the model release date. We then propose a practical, black-box method to predict document-level membership and instantiate it on OpenLLaMA-7B with both books and academic papers. We show our methodology to perform very well, reaching an impressive AUC of 0.856 for books and 0.678 for papers. We then show our approach to outperform the sentence-level membership inference attacks used in the privacy literature for the document-level membership task. We finally evaluate whether smaller models might be less sensitive to document-level inference and show OpenLLaMA-3B to be approximately as sensitive as OpenLLaMA-7B to our approach. Taken together, our results show that accurate document-level membership can be inferred for LLMs, increasing the transparency of technology poised to change our lives.

 

초록:대형 언어 모델(LLM)이 우리의 일상 생활에 내장될 준비가 되어 있는 가운데, 그들이 학습한 데이터 세트에 대한 의문이 제기되기 시작하고 있다. 이러한 질문은 LLM이 보유할 수 있는 잠재적인 편견 또는 잘못된 정보에서부터 저작권 및 인간이 생성한 텍스트의 공정한 사용에 대한 질문에 이르기까지 다양하다. 그러나 이러한 질문이 나타나는 동안 최근 최첨단 LLM의 개발자들은 훈련 코퍼스에 대한 세부 사항을 공개하는 것을 점점 더 꺼리게 된다. 우리는 여기서 실제 LLM에 대한 문서 수준 멤버쉽 추론, 즉 LLM이 훈련 중에 주어진 문서를 보았는지 여부를 추론하는 작업을 소개한다. 첫째, 훈련에 일반적으로 사용되는 데이터 소스와 모델 출시일을 활용하여 LLM에 대한 문서 수준의 멤버쉽 추론을 개발하고 평가하는 절차를 제안한다. 그런 다음 문서 수준의 멤버십을 예측하고 Open에서 인스턴스화하는 실용적인 블랙박스 방법을 제안한다LLAMA-7B는 책과 학술 논문을 모두 가지고 있다. 우리는 책의 경우 0.856, 논문의 경우 0.678의 인상적인 AUC에 도달하여 매우 우수한 성능을 발휘하는 방법론을 보여준다. 그런 다음 문서 수준 멤버십 작업에 대한 개인 정보 취급 문헌에서 사용되는 문장 수준 멤버십 추론 공격을 능가하는 접근 방식을 보여준다. 우리는 최종적으로 작은 모델들이 문서 수준 추론에 덜 민감할 수 있는지 평가하고 공개를 보여준다LLAMA-3B는 OpenLLAMA-7B만큼 우리의 접근방식에 민감하다. 종합하면, 우리의 결과는 LLM에 대해 정확한 문서 수준의 구성원 자격을 추론할 수 있어 우리의 삶을 바꿀 준비가 된 기술의 투명성을 높일 수 있음을 보여준다. 

 

 

Did the Neurons Read your Book? Document-level Membership Inference for Large Language Models

 

Abstract:With large language models (LLMs) poised to become embedded in our daily lives, questions are starting to be raised about the dataset(s) they learned from. These questions range from potential bias or misinformation LLMs could retain from their training data to questions of copyright and fair use of human-generated text. However, while these questions emerge, developers of the recent state-of-the-art LLMs become increasingly reluctant to disclose details on their training corpus. We here introduce the task of document-level membership inference for real-world LLMs, i.e. inferring whether the LLM has seen a given document during training or not. First, we propose a procedure for the development and evaluation of document-level membership inference for LLMs by leveraging commonly used data sources for training and the model release date. We then propose a practical, black-box method to predict document-level membership and instantiate it on OpenLLaMA-7B with both books and academic papers. We show our methodology to perform very well, reaching an impressive AUC of 0.856 for books and 0.678 for papers. We then show our approach to outperform the sentence-level membership inference attacks used in the privacy literature for the document-level membership task. We finally evaluate whether smaller models might be less sensitive to document-level inference and show OpenLLaMA-3B to be approximately as sensitive as OpenLLaMA-7B to our approach. Taken together, our results show that accurate document-level membership can be inferred for LLMs, increasing the transparency of technology poised to change our lives.

 

초록:대형 언어 모델(LLM)이 우리의 일상 생활에 내장될 준비가 되어 있는 가운데, 그들이 학습한 데이터 세트에 대한 의문이 제기되기 시작하고 있다. 이러한 질문은 LLM이 보유할 수 있는 잠재적인 편견 또는 잘못된 정보에서부터 저작권 및 인간이 생성한 텍스트의 공정한 사용에 대한 질문에 이르기까지 다양하다. 그러나 이러한 질문이 나타나는 동안 최근 최첨단 LLM의 개발자들은 훈련 코퍼스에 대한 세부 사항을 공개하는 것을 점점 더 꺼리게 된다. 우리는 여기서 실제 LLM에 대한 문서 수준 멤버쉽 추론, 즉 LLM이 훈련 중에 주어진 문서를 보았는지 여부를 추론하는 작업을 소개한다. 첫째, 훈련에 일반적으로 사용되는 데이터 소스와 모델 출시일을 활용하여 LLM에 대한 문서 수준의 멤버쉽 추론을 개발하고 평가하는 절차를 제안한다. 그런 다음 문서 수준의 멤버십을 예측하고 Open에서 인스턴스화하는 실용적인 블랙박스 방법을 제안한다LLAMA-7B는 책과 학술 논문을 모두 가지고 있다. 우리는 책의 경우 0.856, 논문의 경우 0.678의 인상적인 AUC에 도달하여 매우 우수한 성능을 발휘하는 방법론을 보여준다. 그런 다음 문서 수준 멤버십 작업에 대한 개인 정보 취급 문헌에서 사용되는 문장 수준 멤버십 추론 공격을 능가하는 접근 방식을 보여준다. 우리는 최종적으로 작은 모델들이 문서 수준 추론에 덜 민감할 수 있는지 평가하고 공개를 보여준다LLAMA-3B는 OpenLLAMA-7B만큼 우리의 접근방식에 민감하다. 종합하면, 우리의 결과는 LLM에 대해 정확한 문서 수준의 구성원 자격을 추론할 수 있어 우리의 삶을 바꿀 준비가 된 기술의 투명성을 높일 수 있음을 보여준다. 

 

 

Penalty Decoding: Well Suppress the Self-Reinforcement Effect in Open-Ended Text Generation

 

Abstract:The decoding algorithm is critical for open-ended text generation, transforming latent representations into coherent and meaningful outputs. This paper investigates the self-reinforcement effect in text generation and the effectiveness of a repetition penalty to mitigate it. However, determining the optimal repetition penalty value is challenging. To tackle this, we propose a forgetting mechanism that disregards distant tokens, reducing the burden of penalty selection. In addition, we introduce a length penalty to address overly short sentences caused by excessive penalties. Our penalty decoding approach incorporating three strategies helps resolve issues with sampling methods deviating from factual information. Experimental results demonstrate the efficacy of our approach in generating high-quality sentences resembling human output.

 

초록:디코딩 알고리듬은 잠재적 표현을 일관성 있고 의미 있는 출력으로 변환하는 개방형 텍스트 생성에 중요하다. 본 논문은 텍스트 생성에서의 자기강화 효과와 이를 완화하기 위한 반복 패널티의 효과를 분석한다. 그러나, 최적의 반복 패널티 값을 결정하는 것은 어렵다. 이를 해결하기 위해 먼 토큰을 무시하는 망각 메커니즘을 제안하여 패널티 선택의 부담을 줄인다. 또한 과도한 벌점으로 인해 발생하는 지나치게 짧은 문장을 다루기 위해 길이 벌점을 도입한다. 세 가지 전략을 통합한 우리의 패널티 디코딩 접근법은 사실 정보에서 벗어난 샘플링 방법의 문제를 해결하는 데 도움이 된다. 실험 결과는 인간의 산출물과 유사한 고품질 문장을 생성하는 우리의 접근 방식의 효과를 보여준다. 

 

 

반응형

댓글