본문 바로가기
오늘의 자연어 처리

[2023-12-28] 오늘의 자연어처리

by 지환이아빠 2023. 12. 28.
반응형

The Media Bias Taxonomy: A Systematic Literature Review on the Forms and Automated Detection of Media Bias

 

Abstract:The way the media presents events can significantly affect public perception, which in turn can alter people's beliefs and views. Media bias describes a one-sided or polarizing perspective on a topic. This article summarizes the research on computational methods to detect media bias by systematically reviewing 3140 research papers published between 2019 and 2022. To structure our review and support a mutual understanding of bias across research domains, we introduce the Media Bias Taxonomy, which provides a coherent overview of the current state of research on media bias from different perspectives. We show that media bias detection is a highly active research field, in which transformer-based classification approaches have led to significant improvements in recent years. These improvements include higher classification accuracy and the ability to detect more fine-granular types of bias. However, we have identified a lack of interdisciplinarity in existing projects, and a need for more awareness of the various types of media bias to support methodologically thorough performance evaluations of media bias detection systems. Concluding from our analysis, we see the integration of recent machine learning advancements with reliable and diverse bias assessment strategies from other research areas as the most promising area for future research contributions in the field.

 

추상화:미디어가 사건을 제시하는 방식은 대중의 인식에 상당한 영향을 미칠 수 있으며, 이는 다시 사람들의 신념과 견해를 변화시킬 수 있다. 미디어 편향은 하나의 주제에 대한 일방적 또는 양극화적 관점을 설명한다. 이 글은 2019년부터 2022년 사이에 발표된 3140편의 연구논문을 체계적으로 검토하여 미디어 편향을 탐지하기 위한 계산법 연구를 정리한 것이다. 검토를 구성하고 연구 영역 간의 편향에 대한 상호 이해를 지원하기 위해 다양한 관점에서 미디어 편향에 대한 현재 연구 상태에 대한 일관된 개요를 제공하는 미디어 편향 분류법을 소개한다. 우리는 미디어 바이어스 검출이 매우 활발한 연구 분야임을 보여주며, 트랜스포머 기반 분류 접근 방식은 최근 몇 년 동안 상당한 개선으로 이어졌다. 이러한 개선들은 더 높은 분류 정확도 및 더 미세한 형태의 바이어스들을 검출하는 능력을 포함한다. 그러나 우리는 기존 프로젝트에서 학제간의 부족과 미디어 편향 탐지 시스템의 방법론적으로 철저한 성능 평가를 지원하기 위해 다양한 유형의 미디어 편향에 대한 더 많은 인식이 필요하다는 것을 확인했다. 우리의 분석을 통해, 우리는 최근의 기계 학습 발전과 다른 연구 분야의 신뢰할 수 있고 다양한 편향 평가 전략의 통합을 이 분야에서 미래의 연구 기여를 위한 가장 유망한 분야로 본다. 

 

 

PersianLLaMA: Towards Building First Persian Large Language Model

 

Abstract:Despite the widespread use of the Persian language by millions globally, limited efforts have been made in natural language processing for this language. The use of large language models as effective tools in various natural language processing tasks typically requires extensive textual data and robust hardware resources. Consequently, the scarcity of Persian textual data and the unavailability of powerful hardware resources have hindered the development of large language models for Persian. This paper introduces the first large Persian language model, named PersianLLaMA, trained on a collection of Persian texts and datasets. This foundational model comes in two versions, with 7 and 13 billion parameters, trained on formal and colloquial Persian texts using two different approaches. PersianLLaMA has been evaluated for natural language generation tasks based on the latest evaluation methods, namely using larger language models, and for natural language understanding tasks based on automated machine metrics. The results indicate that PersianLLaMA significantly outperforms its competitors in both understanding and generating Persian text. PersianLLaMA marks an important step in the development of Persian natural language processing and can be a valuable resource for the Persian-speaking community. This large language model can be used for various natural language processing tasks, especially text generation like chatbots, question-answering, machine translation, and text summarization

 

추상화:전 세계적으로 수백만 명이 페르시아어를 널리 사용하고 있음에도 불구하고, 이 언어에 대한 자연어 처리 노력은 제한적이었다. 다양한 자연어 처리 작업에서 효과적인 도구로 큰 언어 모델을 사용하려면 일반적으로 광범위한 텍스트 데이터와 강력한 하드웨어 리소스가 필요하다. 결과적으로 페르시아어 텍스트 데이터의 부족과 강력한 하드웨어 자원의 가용성은 페르시아어를 위한 대형 언어 모델의 개발을 방해했다. 이 논문은 페르시아어라는 이름의 최초의 큰 페르시아어 모델을 소개한다페르시아어 텍스트 및 데이터 세트 모음에 대해 훈련된 LLaMA. 이 기초 모델은 70억 매개변수와 130억 매개변수를 가진 두 가지 버전으로 제공되며, 두 가지 다른 접근법을 사용하여 공식 및 구어 페르시아어 텍스트에 대해 훈련된다. 페르시아어LLaMA는 최신 평가 방법에 기반한 자연어 생성 작업, 즉 더 큰 언어 모델을 사용하는 작업 및 자동화된 기계 메트릭에 기반한 자연어 이해 작업에 대해 평가되었다. 결과는 페르시아어가LLaMA는 페르시아어 텍스트를 이해하고 생성하는 데 있어 경쟁사들을 크게 능가한다. 페르시아어LLaMA는 페르시아어 자연어 처리의 발전에 중요한 단계를 나타내며 페르시아어를 사용하는 공동체에 귀중한 자원이 될 수 있다. 이 대규모 언어 모델은 다양한 자연어 처리 작업, 특히 챗봇, 질의응답, 기계번역, 텍스트 요약과 같은 텍스트 생성에 사용될 수 있다 

 

 

Punctuation Matters! Stealthy Backdoor Attack for Language Models

 

Abstract:Recent studies have pointed out that natural language processing (NLP) models are vulnerable to backdoor attacks. A backdoored model produces normal outputs on the clean samples while performing improperly on the texts with triggers that the adversary injects. However, previous studies on textual backdoor attack pay little attention to stealthiness. Moreover, some attack methods even cause grammatical issues or change the semantic meaning of the original texts. Therefore, they can easily be detected by humans or defense systems. In this paper, we propose a novel stealthy backdoor attack method against textual models, which is called \textbf{PuncAttack}. It leverages combinations of punctuation marks as the trigger and chooses proper locations strategically to replace them. Through extensive experiments, we demonstrate that the proposed method can effectively compromise multiple models in various tasks. Meanwhile, we conduct automatic evaluation and human inspection, which indicate the proposed method possesses good performance of stealthiness without bringing grammatical issues and altering the meaning of sentences.

 

추상화:최근 연구들은 자연어 처리(NLP) 모델이 백도어 공격에 취약하다는 점을 지적했다. 백도어 모델은 상대가 주입하는 트리거가 있는 텍스트를 부적절하게 수행하면서 깨끗한 샘플에 대해 정상적인 출력을 생성한다. 그러나 텍스트 백도어 공격에 대한 이전 연구는 은밀성에 거의 관심을 두지 않는다. 더욱이 일부 공격 방법은 문법적 문제를 야기하거나 원문의 의미론적 의미를 변경하기도 한다. 따라서 사람이나 방어 시스템에 의해 쉽게 탐지될 수 있습니다. 본 논문에서는 텍스트 모델에 대한 새로운 은밀한 백도어 공격 방법을 제안하며, 이를 \textbf{라고 한다PuncAttack}. 구두점 표시의 조합을 트리거로 활용하고 이를 대체할 적절한 위치를 전략적으로 선택합니다. 광범위한 실험을 통해 제안된 방법이 다양한 작업에서 여러 모델을 효과적으로 손상시킬 수 있음을 입증한다. 한편, 우리는 자동 평가와 인체 검사를 수행하는데, 이는 제안된 방법이 문법적 문제를 야기하지 않고 문장의 의미를 변경하지 않으면서도 스텔스의 우수한 성능을 가지고 있음을 나타낸다. 

 

 

반응형

댓글