본문 바로가기
오늘의 자연어 처리

[2023-12-22] 오늘의 자연어처리

by 지환이아빠 2023. 12. 22.
반응형

HCDIR: End-to-end Hate Context Detection, and Intensity Reduction model for online comments

 

Abstract:Warning: This paper contains examples of the language that some people may find offensive. Detecting and reducing hateful, abusive, offensive comments is a critical and challenging task on social media. Moreover, few studies aim to mitigate the intensity of hate speech. While studies have shown that context-level semantics are crucial for detecting hateful comments, most of this research focuses on English due to the ample datasets available. In contrast, low-resource languages, like Indian languages, remain under-researched because of limited datasets. Contrary to hate speech detection, hate intensity reduction remains unexplored in high-resource and low-resource languages. In this paper, we propose a novel end-to-end model, HCDIR, for Hate Context Detection, and Hate Intensity Reduction in social media posts. First, we fine-tuned several pre-trained language models to detect hateful comments to ascertain the best-performing hateful comments detection model. Then, we identified the contextual hateful words. Identification of such hateful words is justified through the state-of-the-art explainable learning model, i.e., Integrated Gradient (IG). Lastly, the Masked Language Modeling (MLM) model has been employed to capture domain-specific nuances to reduce hate intensity. We masked the 50\% hateful words of the comments identified as hateful and predicted the alternative words for these masked terms to generate convincing sentences. An optimal replacement for the original hate comments from the feasible sentences is preferred. Extensive experiments have been conducted on several recent datasets using automatic metric-based evaluation (BERTScore) and thorough human evaluation. To enhance the faithfulness in human evaluation, we arranged a group of three human annotators with varied expertise.

 

추상화:경고: 이 논문은 일부 사람들이 불쾌해 할 수 있는 언어의 예를 담고 있다. 소셜 미디어에서 혐오스럽고 폭력적이며 공격적인 댓글을 감지하고 줄이는 것은 중요하고 도전적인 작업이다. 더욱이 혐오 발언의 강도를 완화하는 것을 목표로 하는 연구는 거의 없다. 혐오 댓글을 탐지하기 위해서는 맥락 수준의 의미론이 중요하다는 연구 결과가 있지만, 이 연구의 대부분은 이용 가능한 데이터 세트가 풍부하기 때문에 영어에 초점을 맞추고 있다. 대조적으로, 인도어와 같이 자원이 적은 언어들은 제한된 데이터 세트 때문에 아직 연구가 덜 된 상태이다. 혐오 음성 감지와는 달리, 혐오 강도 감소는 고자원 언어와 저자원 언어에서 아직까지 탐구되지 않은 상태로 남아 있다. 본 논문에서는 소셜 미디어 게시물에서 증오 맥락 탐지 및 증오 강도 감소를 위한 새로운 엔드 투 엔드 모델인 HCDIR을 제안한다. 먼저, 우리는 혐오 댓글을 탐지하기 위해 사전 훈련된 여러 언어 모델을 미세 조정하여 가장 성능이 좋은 혐오 댓글 탐지 모델을 확인했다. 그런 다음 맥락적으로 혐오스러운 단어를 확인했습니다. 이러한 혐오 단어의 식별은 최첨단의 설명 가능한 학습 모델, 즉 통합 경사(integrated gradient, IG)를 통해 정당화된다. 마지막으로, 혐오 강도를 줄이기 위해 도메인별 뉘앙스를 포착하기 위해 MLM(Masked Language Modeling) 모델이 사용되었다. 우리는 혐오스러운 것으로 확인된 댓글의 50\% 혐오 단어를 마스킹하고 이러한 마스킹된 용어에 대한 대체 단어를 예측하여 설득력 있는 문장을 생성했다. 실행 가능한 문장에서 원래의 혐오 댓글에 대한 최적의 대체가 선호된다. 자동 메트릭 기반 평가(BERTScore)와 철저한 인간 평가를 사용하여 최근의 여러 데이터 세트에 대해 광범위한 실험이 수행되었다. 인간 평가의 충실성을 높이기 위해 다양한 전문 지식을 가진 3명의 인간 주석가 그룹을 구성했다. 

 

 

LlaMaVAE: Guiding Large Language Model Generation via Continuous Latent Sentence Spaces

 

Abstract:Deep generative neural networks, such as Variational AutoEncoders (VAEs), offer an opportunity to better understand and control language models from the perspective of sentence-level latent spaces. To combine the controllability of VAE latent spaces with the state-of-the-art performance of recent large language models (LLMs), we present in this work LlaMaVAE, which combines expressive encoder and decoder models (sentenceT5 and LlaMA) with a VAE architecture, aiming to provide better text generation control to LLMs. In addition, to conditionally guide the VAE generation, we investigate a new approach based on flow-based invertible neural networks (INNs) named Invertible CVAE. Experimental results reveal that LlaMaVAE can outperform the previous state-of-the-art VAE language model, Optimus, across various tasks, including language modelling, semantic textual similarity and definition modelling. Qualitative analysis on interpolation and traversal experiments also indicates an increased degree of semantic clustering and geometric consistency, which enables better generation control.

 

추상화:VAE(Variational Auto Encoder)와 같은 심층 생성 신경망은 문장 수준 잠재 공간의 관점에서 언어 모델을 더 잘 이해하고 제어할 수 있는 기회를 제공한다. VAE 잠재 공간의 제어 가능성과 최근 LLM(Lar Language Model)의 최첨단 성능을 결합하기 위해 본 연구에서는 LLM에 더 나은 텍스트 생성 제어를 제공하는 것을 목표로 표현형 인코더 및 디코더 모델(문장 T5 및 LlaMA)을 VAE 아키텍처와 결합한 LlaMaVAE를 제시한다. 또한, 우리는 LLM에 더 나은 텍스트 생성 제어를 제공하는 것을 목표로 한다, VAE 생성을 조건부로 안내하기 위해, 우리는 Invertible CVAE라는 이름의 흐름 기반 가역 신경망(INN)에 기반한 새로운 접근 방식을 조사한다. 실험 결과에 따르면 LlaMaVAE는 언어 모델링, 의미론적 텍스트 유사성 및 정의 모델링을 포함한 다양한 작업에서 이전의 최첨단 VAE 언어 모델인 Optimus를 능가할 수 있다. 보간 및 순회 실험에 대한 정성적 분석은 또한 의미론적 클러스터링 및 기하학적 일관성의 증가된 정도를 나타내며, 이는 더 나은 생성 제어를 가능하게 한다. 

 

 

Learning and Forgetting Unsafe Examples in Large Language Models

 

Abstract:As the number of large language models (LLMs) released to the public grows, there is a pressing need to understand the safety implications associated with these models learning from third-party custom finetuning data. We explore the behavior of LLMs finetuned on noisy custom data containing unsafe content, represented by datasets that contain biases, toxicity, and harmfulness, finding that while aligned LLMs can readily learn this unsafe content, they also tend to forget it more significantly than other examples when subsequently finetuned on safer content. Drawing inspiration from the discrepancies in forgetting, we introduce the "ForgetFilter" algorithm, which filters unsafe data based on how strong the model's forgetting signal is for that data. We demonstrate that the ForgetFilter algorithm ensures safety in customized finetuning without compromising downstream task performance, unlike sequential safety finetuning. ForgetFilter outperforms alternative strategies like replay and moral self-correction in curbing LLMs' ability to assimilate unsafe content during custom finetuning, e.g. 75% lower than not applying any safety measures and 62% lower than using self-correction in toxicity score.

 

추상화:일반에 공개되는 대형 언어 모델(LLM)의 수가 증가함에 따라, 제3자 맞춤형 미세 조정 데이터로부터 학습되는 이러한 모델과 관련된 안전 의미를 이해할 필요가 절실하다. 편향, 독성 및 유해성을 포함하는 데이터 세트로 대표되는 안전하지 않은 콘텐츠를 포함하는 노이즈가 많은 사용자 정의 데이터에 미세 조정된 LLM의 행동을 조사하여 정렬된 LLM은 이러한 안전하지 않은 콘텐츠를 쉽게 학습할 수 있지만 이후에 더 안전한 콘텐츠에 미세 조정할 때 다른 예보다 더 크게 잊어버리는 경향이 있음을 발견했다. 망각의 불일치에서 영감을 얻어 모델의 망각 신호가 해당 데이터에 대해 얼마나 강한지에 따라 안전하지 않은 데이터를 필터링하는 "ForgetFilter" 알고리즘을 소개한다. 우리는 순차 안전 미세 조정과 달리 ForgetFilter 알고리즘이 다운스트림 작업 성능을 손상시키지 않으면서 맞춤형 미세 조정에서 안전성을 보장한다는 것을 증명한다. ForgetFilter는 사용자 정의 미세 조정 중 안전하지 않은 콘텐츠를 동화하는 LLM의 능력을 억제하는 재생 및 도덕적 자가 수정과 같은 대체 전략을 능가한다. 예를 들어, 안전 조치를 적용하지 않는 것보다 75% 낮고 독성 점수에서 자가 수정을 사용하는 것보다 62% 낮다. 

 

 

반응형

댓글