본문 바로가기
오늘의 자연어 처리

[2023-12-29] 오늘의 자연어처리

by 지환이아빠 2023. 12. 29.
반응형

The Media Bias Taxonomy: A Systematic Literature Review on the Forms and Automated Detection of Media Bias

 

Abstract:The way the media presents events can significantly affect public perception, which in turn can alter people's beliefs and views. Media bias describes a one-sided or polarizing perspective on a topic. This article summarizes the research on computational methods to detect media bias by systematically reviewing 3140 research papers published between 2019 and 2022. To structure our review and support a mutual understanding of bias across research domains, we introduce the Media Bias Taxonomy, which provides a coherent overview of the current state of research on media bias from different perspectives. We show that media bias detection is a highly active research field, in which transformer-based classification approaches have led to significant improvements in recent years. These improvements include higher classification accuracy and the ability to detect more fine-granular types of bias. However, we have identified a lack of interdisciplinarity in existing projects, and a need for more awareness of the various types of media bias to support methodologically thorough performance evaluations of media bias detection systems. Concluding from our analysis, we see the integration of recent machine learning advancements with reliable and diverse bias assessment strategies from other research areas as the most promising area for future research contributions in the field.

 

추상화:미디어가 사건을 제시하는 방식은 대중의 인식에 상당한 영향을 미칠 수 있으며, 이는 다시 사람들의 신념과 견해를 변화시킬 수 있다. 미디어 편향은 하나의 주제에 대한 일방적 또는 양극화적 관점을 설명한다. 이 글은 2019년부터 2022년 사이에 발표된 3140편의 연구논문을 체계적으로 검토하여 미디어 편향을 탐지하기 위한 계산법 연구를 정리한 것이다. 검토를 구성하고 연구 영역 간의 편향에 대한 상호 이해를 지원하기 위해 다양한 관점에서 미디어 편향에 대한 현재 연구 상태에 대한 일관된 개요를 제공하는 미디어 편향 분류법을 소개한다. 우리는 미디어 바이어스 검출이 매우 활발한 연구 분야임을 보여주며, 트랜스포머 기반 분류 접근 방식은 최근 몇 년 동안 상당한 개선으로 이어졌다. 이러한 개선들은 더 높은 분류 정확도 및 더 미세한 형태의 바이어스들을 검출하는 능력을 포함한다. 그러나 우리는 기존 프로젝트에서 학제간의 부족과 미디어 편향 탐지 시스템의 방법론적으로 철저한 성능 평가를 지원하기 위해 다양한 유형의 미디어 편향에 대한 더 많은 인식이 필요하다는 것을 확인했다. 우리의 분석을 통해, 우리는 최근의 기계 학습 발전과 다른 연구 분야의 신뢰할 수 있고 다양한 편향 평가 전략의 통합을 이 분야에서 미래의 연구 기여를 위한 가장 유망한 분야로 본다. 

 

 

Think and Retrieval: A Hypothesis Knowledge Graph Enhanced Medical Large Language Models

 

Abstract:We explore how the rise of Large Language Models (LLMs) significantly impacts task performance in the field of Natural Language Processing. We focus on two strategies, Retrieval-Augmented Generation (RAG) and Fine-Tuning (FT), and propose the Hypothesis Knowledge Graph Enhanced (HyKGE) framework, leveraging a knowledge graph to enhance medical LLMs. By integrating LLMs and knowledge graphs, HyKGE demonstrates superior performance in addressing accuracy and interpretability challenges, presenting potential applications in the medical domain. Our evaluations using real-world datasets highlight HyKGE's superiority in providing accurate knowledge with precise confidence, particularly in complex and difficult scenarios. The code will be available until published.

 

추상화:우리는 LLM(Large Language Models)의 부상이 자연어 처리 분야의 작업 수행에 어떤 영향을 미치는지 탐구한다. 우리는 검색-증강 생성(RAG)과 미세 조정(FT)의 두 가지 전략에 초점을 맞추고 지식 그래프를 활용하여 의료 LLM을 향상시키는 가설 지식 그래프 향상(HyKGE) 프레임워크를 제안한다. LLM과 지식 그래프를 통합함으로써, HyKGE는 정확성과 해석 가능성 문제를 해결하는 데 있어 우수한 성능을 보여주며, 의료 영역에서 잠재적인 응용 분야를 제시한다. 실제 데이터 세트를 사용한 우리의 평가는 특히 복잡하고 어려운 시나리오에서 정확한 지식을 정확한 확신으로 제공하는 HyKGE의 우수성을 강조한다. 코드는 공개될 때까지 사용할 수 있습니다. 

 

 

PersianLLaMA: Towards Building First Persian Large Language Model

 

Abstract:Despite the widespread use of the Persian language by millions globally, limited efforts have been made in natural language processing for this language. The use of large language models as effective tools in various natural language processing tasks typically requires extensive textual data and robust hardware resources. Consequently, the scarcity of Persian textual data and the unavailability of powerful hardware resources have hindered the development of large language models for Persian. This paper introduces the first large Persian language model, named PersianLLaMA, trained on a collection of Persian texts and datasets. This foundational model comes in two versions, with 7 and 13 billion parameters, trained on formal and colloquial Persian texts using two different approaches. PersianLLaMA has been evaluated for natural language generation tasks based on the latest evaluation methods, namely using larger language models, and for natural language understanding tasks based on automated machine metrics. The results indicate that PersianLLaMA significantly outperforms its competitors in both understanding and generating Persian text. PersianLLaMA marks an important step in the development of Persian natural language processing and can be a valuable resource for the Persian-speaking community. This large language model can be used for various natural language processing tasks, especially text generation like chatbots, question-answering, machine translation, and text summarization

 

추상화:전 세계적으로 수백만 명이 페르시아어를 널리 사용하고 있음에도 불구하고, 이 언어에 대한 자연어 처리 노력은 제한적이었다. 다양한 자연어 처리 작업에서 효과적인 도구로 큰 언어 모델을 사용하려면 일반적으로 광범위한 텍스트 데이터와 강력한 하드웨어 리소스가 필요하다. 결과적으로 페르시아어 텍스트 데이터의 부족과 강력한 하드웨어 자원의 가용성은 페르시아어를 위한 대형 언어 모델의 개발을 방해했다. 이 논문은 페르시아어라는 이름의 최초의 큰 페르시아어 모델을 소개한다페르시아어 텍스트 및 데이터 세트 모음에 대해 훈련된 LLaMA. 이 기초 모델은 70억 매개변수와 130억 매개변수를 가진 두 가지 버전으로 제공되며, 두 가지 다른 접근법을 사용하여 공식 및 구어 페르시아어 텍스트에 대해 훈련된다. 페르시아어LLaMA는 최신 평가 방법에 기반한 자연어 생성 작업, 즉 더 큰 언어 모델을 사용하는 작업 및 자동화된 기계 메트릭에 기반한 자연어 이해 작업에 대해 평가되었다. 결과는 페르시아어가LLaMA는 페르시아어 텍스트를 이해하고 생성하는 데 있어 경쟁사들을 크게 능가한다. 페르시아어LLaMA는 페르시아어 자연어 처리의 발전에 중요한 단계를 나타내며 페르시아어를 사용하는 공동체에 귀중한 자원이 될 수 있다. 이 대규모 언어 모델은 다양한 자연어 처리 작업, 특히 챗봇, 질의응답, 기계번역, 텍스트 요약과 같은 텍스트 생성에 사용될 수 있다 

 

 

반응형

댓글