본문 바로가기
오늘의 자연어 처리

[2023-10-23] 오늘의 자연어처리

by 지환이아빠 2023. 10. 23.
반응형

Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared Pre-trained Language Models

 

Abstract:Parameter-shared pre-trained language models (PLMs) have emerged as a successful approach in resource-constrained environments, enabling substantial reductions in model storage and memory costs without significant performance compromise. However, it is important to note that parameter sharing does not alleviate computational burdens associated with inference, thus impeding its practicality in situations characterized by limited stringent latency requirements or computational resources. Building upon neural ordinary differential equations (ODEs), we introduce a straightforward technique to enhance the inference efficiency of parameter-shared PLMs. Additionally, we propose a simple pre-training technique that leads to fully or partially shared models capable of achieving even greater inference acceleration. The experimental results demonstrate the effectiveness of our methods on both autoregressive and autoencoding PLMs, providing novel insights into more efficient utilization of parameter-shared models in resource-constrained settings.

 

초록:매개 변수 공유 사전 훈련 언어 모델(PLM)은 리소스 제약 환경에서 성공적인 접근 방식으로 등장하여 성능 저하 없이 모델 스토리지 및 메모리 비용을 크게 줄일 수 있다. 그러나 매개 변수 공유는 추론과 관련된 계산 부담을 완화하지 않으므로 제한된 엄격한 지연 시간 요구 사항이나 계산 자원으로 특징지어지는 상황에서 실용성을 저해한다는 점에 유의해야 한다. 신경 통상 미분 방정식(ODE)을 기반으로 매개 변수 공유 PLM의 추론 효율성을 향상시키기 위해 간단한 기술을 도입한다. 또한, 훨씬 더 큰 추론 가속화를 달성할 수 있는 전체 또는 부분적으로 공유된 모델로 이어지는 간단한 사전 훈련 기술을 제안한다. 실험 결과는 자동 회귀 및 자동 인코딩 PLM에 대한 방법의 효과를 보여주며, 자원 제약 환경에서 매개 변수 공유 모델의 보다 효율적인 활용에 대한 새로운 통찰력을 제공한다. 

 

 

Probing LLMs for hate speech detection: strengths and vulnerabilities

 

Abstract:Recently efforts have been made by social media platforms as well as researchers to detect hateful or toxic language using large language models. However, none of these works aim to use explanation, additional context and victim community information in the detection process. We utilise different prompt variation, input information and evaluate large language models in zero shot setting (without adding any in-context examples). We select three large language models (GPT-3.5, text-davinci and Flan-T5) and three datasets - HateXplain, implicit hate and ToxicSpans. We find that on average including the target information in the pipeline improves the model performance substantially (~20-30%) over the baseline across the datasets. There is also a considerable effect of adding the rationales/explanations into the pipeline (~10-20%) over the baseline across the datasets. In addition, we further provide a typology of the error cases where these large language models fail to (i) classify and (ii) explain the reason for the decisions they take. Such vulnerable points automatically constitute 'jailbreak' prompts for these models and industry scale safeguard techniques need to be developed to make the models robust against such prompts.

 

초록:최근 소셜 미디어 플랫폼뿐만 아니라 연구자들에 의해서도 대형 언어 모델을 이용하여 혐오 또는 독성 언어를 검출하려는 노력이 이루어지고 있다. 그러나 이들 작품 중 어느 것도 탐지 과정에서 설명, 추가 맥락, 피해자 커뮤니티 정보를 활용하는 것을 목표로 하지 않는다. 우리는 (맥락 내 예제를 추가하지 않고) 제로 샷 설정에서 다양한 신속한 변형, 정보 입력 및 큰 언어 모델을 평가한다. 우리는 3개의 대형 언어 모델(GPT-3.5, 텍스트-다빈치 및 Flan-T5)과 HateXplain, 암묵적 Hate 및 ToxicSpan 등 3개의 데이터 세트를 선택한다. 우리는 파이프라인에 목표 정보를 포함하는 것이 데이터 세트 전체의 기준선보다 평균적으로 (~20-30%) 모델 성능을 크게 향상시킨다는 것을 발견했다. 또한 데이터셋 전체의 기준선에 걸쳐 파이프라인에 근거/설명을 추가(~10-20%)하는 상당한 효과가 있다. 또한 이러한 큰 언어 모델이 (i) 분류에 실패하고 (ii) 그들이 취한 결정의 이유를 설명하는 오류 사례에 대한 유형론을 추가로 제공한다. 이러한 취약 지점은 자동적으로 이러한 모델에 대한 '감옥 해제' 프롬프트를 구성하며, 그러한 프롬프트에 대해 모델을 견고하게 만들기 위해 산업 규모 보호 기술을 개발해야 한다. 

 

 

Representing and Computing Uncertainty in Phonological Reconstruction

 

Abstract:Despite the inherently fuzzy nature of reconstructions in historical linguistics, most scholars do not represent their uncertainty when proposing proto-forms. With the increasing success of recently proposed approaches to automating certain aspects of the traditional comparative method, the formal representation of proto-forms has also improved. This formalization makes it possible to address both the representation and the computation of uncertainty. Building on recent advances in supervised phonological reconstruction, during which an algorithm learns how to reconstruct words in a given proto-language relying on previously annotated data, and inspired by improved methods for automated word prediction from cognate sets, we present a new framework that allows for the representation of uncertainty in linguistic reconstruction and also includes a workflow for the computation of fuzzy reconstructions from linguistic data.

 

초록:역사언어학에서 재구성이 본질적으로 모호함에도 불구하고, 대부분의 학자들은 원형을 제안할 때 불확실성을 나타내지 않는다. 전통적인 비교 방법의 특정 측면을 자동화하기 위한 최근 제안된 접근법의 성공에 따라 프로토폼의 형식적 표현도 개선되었다. 이러한 공식화는 표현과 불확실성 계산을 모두 다루는 것을 가능하게 한다. 알고리즘이 이전에 주석이 달린 데이터에 의존하여 주어진 프로토 언어의 단어를 재구성하는 방법을 학습하고, 코그나트 집합에서 자동화된 단어 예측을 위한 개선된 방법에 영감을 받은 감독 음운 재구성의 최근 발전을 기반으로 한다, 우리는 언어 재구성의 불확실성을 표현할 수 있고 언어 데이터에서 퍼지 재구성 계산을 위한 워크플로우도 포함하는 새로운 프레임워크를 제시한다. 

 

 

반응형

댓글