본문 바로가기
오늘의 자연어 처리

[2023-10-14] 오늘의 자연어처리

by 지환이아빠 2023. 10. 14.
반응형

DistillSpec: Improving Speculative Decoding via Knowledge Distillation

 

Abstract:Speculative decoding (SD) accelerates large language model inference by employing a faster draft model for generating multiple tokens, which are then verified in parallel by the larger target model, resulting in the text generated according to the target model distribution. However, identifying a compact draft model that is well-aligned with the target model is challenging. To tackle this issue, we propose DistillSpec that uses knowledge distillation to better align the draft model with the target model, before applying SD. DistillSpec makes two key design choices, which we demonstrate via systematic study to be crucial to improving the draft and target alignment: utilizing on-policy data generation from the draft model, and tailoring the divergence function to the task and decoding strategy. Notably, DistillSpec yields impressive 10 - 45% speedups over standard SD on a range of standard benchmarks, using both greedy and non-greedy sampling. Furthermore, we combine DistillSpec with lossy SD to achieve fine-grained control over the latency vs. task performance trade-off. Finally, in practical scenarios with models of varying sizes, first using distillation to boost the performance of the target model and then applying DistillSpec to train a well-aligned draft model can reduce decoding latency by 6-10x with minimal performance drop, compared to standard decoding without distillation.

 

초록:추측 디코딩(speculative decoding, SD)은 다수의 토큰을 생성하기 위해 더 빠른 초안 모델을 사용함으로써 큰 언어 모델 추론을 가속화하고, 이 모델은 더 큰 목표 모델에 의해 병렬적으로 검증되어 목표 모델 분포에 따라 생성된 텍스트를 생성한다. 그러나, 목표 모델과 잘 정렬된 소형 초안 모델을 식별하는 것은 어렵다. 이 문제를 해결하기 위해 SD를 적용하기 전에 지식 증류를 사용하여 초안 모델과 대상 모델을 더 잘 정렬하는 DrillSpec을 제안한다. DrillSpec은 체계적인 연구를 통해 초안 및 목표 정렬을 개선하는 데 중요한 두 가지 주요 설계 선택 사항을 제시한다. 초안 모델의 정책 데이터 생성을 활용하는 것과 분산 기능을 작업 및 디코딩 전략에 맞춤화하는 것이다. 특히, DrillSpec은 탐욕 샘플링과 탐욕 샘플링을 모두 사용하여 다양한 표준 벤치마크에서 표준 SD에 비해 10~45%의 놀라운 속도 향상을 달성한다. 또한 DrillSpec과 손실 SD를 결합하여 지연 시간 대 작업 성능 트레이드오프에 대한 세밀한 제어를 달성한다. 마지막으로, 다양한 크기의 모델이 있는 실제 시나리오에서는 먼저 증류를 사용하여 대상 모델의 성능을 향상시킨 다음 잘 정렬된 드래프트 모델을 훈련시키기 위해 증류스펙을 적용하면 증류가 없는 표준 디코딩에 비해 성능 저하를 최소화하면서 디코딩 지연 시간을 6-10배 줄일 수 있다. 

 

 

Who Said That? Benchmarking Social Media AI Detection

 

Abstract:AI-generated text has proliferated across various online platforms, offering both transformative prospects and posing significant risks related to misinformation and manipulation. Addressing these challenges, this paper introduces SAID (Social media AI Detection), a novel benchmark developed to assess AI-text detection models' capabilities in real social media platforms. It incorporates real AI-generate text from popular social media platforms like Zhihu and Quora. Unlike existing benchmarks, SAID deals with content that reflects the sophisticated strategies employed by real AI users on the Internet which may evade detection or gain visibility, providing a more realistic and challenging evaluation landscape. A notable finding of our study, based on the Zhihu dataset, reveals that annotators can distinguish between AI-generated and human-generated texts with an average accuracy rate of 96.5%. This finding necessitates a re-evaluation of human capability in recognizing AI-generated text in today's widely AI-influenced environment. Furthermore, we present a new user-oriented AI-text detection challenge focusing on the practicality and effectiveness of identifying AI-generated text based on user information and multiple responses. The experimental results demonstrate that conducting detection tasks on actual social media platforms proves to be more challenging compared to traditional simulated AI-text detection, resulting in a decreased accuracy. On the other hand, user-oriented AI-generated text detection significantly improve the accuracy of detection.

 

초록:인공지능에서 생성된 텍스트는 다양한 온라인 플랫폼에 걸쳐 확산되어 변형 가능성을 제공하고 잘못된 정보와 조작과 관련된 중대한 위험을 초래하고 있다. 이러한 과제를 해결하기 위해 본 논문에서는 실제 소셜 미디어 플랫폼에서 AI 텍스트 검출 모델의 능력을 평가하기 위해 개발된 새로운 벤치마크인 SAID(소셜 미디어 AI Detection)를 소개한다. 그것은 Zhihu와 Quora와 같은 인기 있는 소셜 미디어 플랫폼의 실제 AI 생성 텍스트를 통합한다. SAID는 기존 벤치마크와 달리 탐지를 회피하거나 가시성을 확보할 수 있는 실제 AI 사용자가 인터넷에서 구사하는 정교한 전략을 반영한 콘텐츠를 다루며 보다 현실적이고 도전적인 평가 풍경을 제공한다. Zhihu 데이터 세트를 기반으로 한 연구의 주목할 만한 결과는 주석자가 평균 96.5%의 정확도로 AI 생성 텍스트와 인간 생성 텍스트를 구별할 수 있다는 것을 보여준다. 이러한 발견은 오늘날 널리 인공지능에 영향을 받는 환경에서 인공지능이 생성한 텍스트를 인식하는 인간의 능력에 대한 재평가가 필요하다. 또한 사용자 정보와 다중 응답을 기반으로 AI 생성 텍스트를 식별하는 실용성과 효과성에 초점을 맞춘 새로운 사용자 중심의 AI 텍스트 탐지 과제를 제시한다. 실험 결과는 실제 소셜 미디어 플랫폼에서 탐지 작업을 수행하는 것이 기존의 모의 AI 텍스트 탐지에 비해 더 어려워 정확도가 떨어지는 것으로 나타났다. 반면 사용자 중심의 AI가 생성한 텍스트 검출은 검출 정확도를 크게 향상시킨다. 

 

 

CP-KGC: Constrained-Prompt Knowledge Graph Completion with Large Language Models

 

Abstract:Knowledge graph completion (KGC) aims to utilize existing knowledge to deduce and infer missing connections within knowledge graphs. Text-based approaches, like SimKGC, have outperformed graph embedding methods, showcasing the promise of inductive KGC. However, the efficacy of text-based methods hinges on the quality of entity textual descriptions. In this paper, we identify the key issue of whether large language models (LLMs) can generate effective text. To mitigate hallucination in LLM-generated text in this paper, we introduce a constraint-based prompt that utilizes the entity and its textual description as contextual constraints to enhance data quality. Our Constrained-Prompt Knowledge Graph Completion (CP-KGC) method demonstrates effective inference under low resource computing conditions and surpasses prior results on the WN18RR and FB15K237 datasets. This showcases the integration of LLMs in KGC tasks and provides new directions for future research.

 

초록:지식 그래프 완성(KGC)은 기존 지식을 활용하여 지식 그래프 내에서 누락된 연결을 추론하고 추론하는 것을 목표로 한다. SimKGC와 같은 텍스트 기반 접근법은 그래프 임베딩 방법을 능가하여 귀납적 KGC의 가능성을 보여주었다. 그러나 텍스트 기반 방법의 효과는 개체 텍스트 설명의 품질에 달려 있다. 본 논문에서는 대형 언어 모델(LLM)이 효과적인 텍스트를 생성할 수 있는지 여부에 대한 핵심 이슈를 파악한다. 본 논문에서는 LLM 생성 텍스트의 환각을 완화하기 위해 개체와 텍스트 설명을 맥락적 제약으로 활용하여 데이터 품질을 향상시키는 제약 기반 프롬프트를 소개한다. 우리의 제한-프롬프트 지식 그래프 완성(CP-KGC) 방법은 낮은 자원 컴퓨팅 조건에서 효과적인 추론을 보여주며 WN18RR 및 FB15K237 데이터 세트의 이전 결과를 능가한다. 이는 KGC 과제에서 LLM의 통합을 보여주고 향후 연구의 새로운 방향을 제시한다. 

 

 

반응형

댓글