본문 바로가기
오늘의 자연어 처리

[2023-01-31] 오늘의 자연어처리

by 지환이아빠 2023. 1. 31.
반응형

Reading and Reasoning over Chart Images for Evidence-based Automated Fact-Checking

 

Evidence data for automated fact-checking (AFC) can be in multiple modalities such as text, tables, images, audio, or video. While there is increasing interest in using images for AFC, previous works mostly focus on detecting manipulated or fake images. We propose a novel task, chart-based fact-checking, and introduce ChartBERT as the first model for AFC against chart evidence. ChartBERT leverages textual, structural and visual information of charts to determine the veracity of textual claims. For evaluation, we create ChartFC, a new dataset of 15, 886 charts. We systematically evaluate 75 different vision-language (VL) baselines and show that ChartBERT outperforms VL models, achieving 63.8% accuracy. Our results suggest that the task is complex yet feasible, with many challenges ahead.

 

AFC(Automated Fact Checking)에 대한 증거 데이터는 여러 양식에 있을 수 있습니다 텍스트, 테이블, 이미지, 오디오 또는 비디오와 같은 파일을 저장할 수 있습니다. 증가하고 있는 동안에 AFC를 위해 이미지를 사용하는 것에 관심이 있으며, 이전 작업은 대부분 탐지에 초점을 맞추고 있다 조작된 이미지 또는 가짜 이미지. 우리는 차트 기반의 사실 확인이라는 새로운 과제를 제안합니다, 차트 증거에 대항하는 AFC의 첫 번째 모델로 차트 BERT를 소개합니다. ChartBERT는 차트의 텍스트, 구조 및 시각적 정보를 활용하여 텍스트 클레임의 진실성을 확인합니다. 평가를 위해, 우리는 ChartFC를 만든다 15,886개 차트의 새 데이터 세트. 75가지를 체계적으로 평가합니다 비전 언어(VL) 기준선 및 ChartBERT가 VL 모델을 능가한다는 것을 보여준다, 63.8%의 정확도를 달성합니다. 우리의 결과는 그 일이 아직 복잡하다는 것을 시사한다 실현 가능하며, 앞으로 많은 도전이 있을 것입니다. 

 

 

Factual or Biased? Predicting Sentence-Level Factuality and Bias of News

 

We present a study on sentence-level factuality and bias of news articles across domains. While prior work in NLP has mainly focused on predicting the factuality of article-level news reporting and political-ideological bias of news media, we investigated the effects of framing bias in factual reporting across domains so as to predict factuality and bias at the sentence level, which may explain more accurately the overall reliability of the entire document. First, we manually produced a large sentence-level annotated dataset, titled FactNews, composed of 6,191 sentences from 100 news stories by three different outlets, resulting in 300 news articles. Further, we studied how biased and factual spans surface in news articles from different media outlets and different domains. Lastly, a baseline model for factual sentence prediction was presented by fine-tuning BERT. We also provide a detailed analysis of data demonstrating the reliability of the annotation and models.

 

우리는 뉴스 기사의 문장 수준의 사실성과 편향에 대한 연구를 제시한다 여러 도메인에 걸쳐 있습니다. NLP에 대한 이전 연구는 주로 예측에 초점을 맞추었다 기사 수준의 뉴스 보도의 사실성과 정치적 이념적 편향 뉴스 미디어, 우리는 사실 보도에서 프레임 편향의 영향을 조사했다 문장 수준에서 사실성과 편향성을 예측하기 위해 영역을 가로질러, 그것은 전체의 전반적인 신뢰성을 더 정확하게 설명할 수 있다 문서. 먼저, 우리는 수동으로 대규모 문장 수준의 주석이 달린 데이터 세트를 생성했다, FactNews라는 제목으로 100개의 뉴스 기사 중 6,191개의 문장으로 구성되어 있다 300개의 뉴스 기사를 만들어내는 다양한 매체들. 더 나아가, 우리는 어떻게 다른 매체의 뉴스 기사에서 편향되고 사실적인 범위 및 다른 도메인. 마지막으로, 사실적 문장 예측을 위한 기준 모델 BERT를 미세 조정함으로써 제시되었다. 우리는 또한 데이터의 상세한 분석을 제공한다 주석 및 모델의 신뢰성을 보여줍니다. 

 

 

Beyond Arabic: Software for Perso-Arabic Script Manipulation

 

This paper presents an open-source software library that provides a set of finite-state transducer (FST) components and corresponding utilities for manipulating the writing systems of languages that use the Perso-Arabic script. The operations include various levels of script normalization, including visual invariance-preserving operations that subsume and go beyond the standard Unicode normalization forms, as well as transformations that modify the visual appearance of characters in accordance with the regional orthographies for eleven contemporary languages from diverse language families. The library also provides simple FST-based romanization and transliteration. We additionally attempt to formalize the typology of Perso-Arabic characters by providing one-to-many mappings from Unicode code points to the languages that use them. While our work focuses on the Arabic script diaspora rather than Arabic itself, this approach could be adopted for any language that uses the Arabic script, thus providing a unified framework for treating a script family used by close to a billion people.

 

이 논문은 다음을 제공하는 오픈 소스 소프트웨어 라이브러리를 제시한다 유한 상태 변환기(FST) 구성 요소 및 해당 유틸리티 페르시아어-아랍어 문자를 사용하는 언어의 문자 체계를 조작하는 것. 작업에는 시각적 작업을 비롯한 다양한 수준의 스크립트 정규화가 포함됩니다 표준치를 초과하는 불변성 보존 작업 Unicode 표준화 양식 및 시각적 수정을 위한 변환 의 지역 맞춤법에 따른 등장인물의 출현 다양한 어족에서 온 11개의 현대 언어들. 도서관 또한 는 간단한 FST 기반 로마자 및 변환 기능을 제공합니다. 우리는 추가적으로 을 제공함으로써 인-아랍 문자의 유형론을 공식화하려고 시도하다 유니코드 코드에서 사용하는 언어로 일대일 매핑을 지정합니다. 우리의 연구는 아랍어 그 자체보다는 아랍 문자 디아스포라에 초점을 맞추고 있지만, 이 접근법은 아랍어 문자를 사용하는 어떤 언어에도 채택될 수 있다, 따라서 클로즈가 사용하는 스크립트 패밀리를 처리하기 위한 통합 프레임워크를 제공합니다 10억 명에게. 

 

 

반응형

댓글