본문 바로가기
오늘의 자연어 처리

[2023-08-12] 오늘의 자연어처리

by 지환이아빠 2023. 8. 12.
반응형

Finding Already Debunked Narratives via Multistage Retrieval: Enabling Cross-Lingual, Cross-Dataset and Zero-Shot Learning

 

The task of retrieving already debunked narratives aims to detect stories that have already been fact-checked. The successful detection of claims that have already been debunked not only reduces the manual efforts of professional fact-checkers but can also contribute to slowing the spread of misinformation. Mainly due to the lack of readily available data, this is an understudied problem, particularly when considering the cross-lingual task, i.e. the retrieval of fact-checking articles in a language different from the language of the online post being checked. This paper fills this gap by (i) creating a novel dataset to enable research on cross-lingual retrieval of already debunked narratives, using tweets as queries to a database of fact-checking articles; (ii) presenting an extensive experiment to benchmark fine-tuned and off-the-shelf multilingual pre-trained Transformer models for this task; and (iii) proposing a novel multistage framework that divides this cross-lingual debunk retrieval task into refinement and re-ranking stages. Results show that the task of cross-lingual retrieval of already debunked narratives is challenging and off-the-shelf Transformer models fail to outperform a strong lexical-based baseline (BM25). Nevertheless, our multistage retrieval framework is robust, outperforming BM25 in most scenarios and enabling cross-domain and zero-shot learning, without significantly harming the model's performance.

 

이미 드러난 이야기를 검색하는 작업은 이야기를 감지하는 것을 목표로 한다 이미 사실 확인이 완료되었습니다. 다음과 같은 주장을 성공적으로 탐지했습니다 전문가의 육체적 노력을 줄일 뿐만 아니라 이미 밝혀졌다 사실 확인을 하지만 잘못된 정보의 확산을 늦추는데 기여할 수도 있다. 주로 쉽게 구할 수 있는 데이터가 없기 때문에, 이것은 연구가 부족하다 특히 교차 언어 작업을 고려할 때 문제, 즉 그 언어와 다른 언어로 사실 확인 기사 검색 확인 중인 온라인 게시물입니다. 이 논문은 (i) 다음을 생성함으로써 이 공백을 메운다 이미 밝혀진 다국어 검색에 대한 연구를 가능하게 하는 새로운 데이터 세트 내러티브, 사실 확인 기사 데이터베이스에 대한 쿼리로 트윗 사용; (ii) 미세 패턴을 벤치마크하기 위한 광범위한 실험을 제시한다 이 작업을 위해 상용 다국어 사전 교육된 트랜스포머 모델 (iii) 이 다국어를 분할하는 새로운 다단계 프레임워크를 제안한다 검색 작업을 세분화 및 순위 조정 단계로 전환합니다. 결과는 다음과 같다 이미 밝혀진 서술의 교차 언어 검색 작업은 다음과 같다 도전적이고 기성품인 트랜스포머 모델이 강력한 성능을 발휘하지 못함 어휘 기반 기준선(BM25)입니다. 그럼에도 불구하고, 우리의 다단계 검색 프레임워크는 강력하고 대부분의 시나리오에서 BM25를 능가하며 교차 도메인 및 모델의 성능을 크게 손상시키지 않고 제로샷 학습을 수행할 수 있습니다. 

 

 

Do Language Models Refer?

 

What do language models (LMs) do with language? Everyone agrees that they produce sequences of (mostly) coherent sentences. But are they saying anything with those strings or simply babbling in a convincing simulacrum of language use? This is a vague question, and there are many ways of making it precise. Here we will address one aspect of the question, namely, whether LMs' words refer: that is, whether the outputs of LMs achieve "word-to-world" connections. There is prima facie reason to think they do not since LMs do not interact with the world in the way that ordinary language users do. Drawing on insights from the externalist tradition in philosophy of language, we argue that appearances are misleading and that there is good reason to think that LMs can refer.

 

언어 모델(LM)은 언어로 무엇을 하는가? 모두가 동의한다 일관성 있는 문장을 짜내다. 하지만 그들은 무슨 말을 하고 있나요 그 끈들로 또는 단순히 설득력 있는 언어의 모의 언어로 옹알이를 한다 사용? 이것은 모호한 질문이고, 그것을 정확하게 만드는 많은 방법이 있다. 여기서 우리는 질문의 한 측면, 즉 LMs의 말이 있는지 여부를 다룰 것이다 참조: 즉, LM의 출력이 "세계 간" 연결을 달성하는지 여부입니다. LM은 상호 작용하지 않기 때문에 그렇지 않다고 생각하는 근본적인 이유가 있다 일반 언어 사용자들이 하는 방식의 세계. 에서 얻은 통찰력을 활용합니다 언어철학의 외부주의적 전통, 우리는 외모를 주장한다 오해의 소지가 있으며 LMs가 참조할 수 있다고 생각하는 데 충분한 이유가 있습니다. 

 

 

Exploring Multilingual Text Data Distillation

 

With the rise of deep learning, large datasets and complex models have become common, requiring significant computing power. To address this, data distillation has emerged as a technique to quickly train models with lower memory and time requirements. However, data distillation on text-based datasets hasn't been explored much because of the challenges rising due to its discrete nature. Additionally, existing dataset distillation methods often struggle to generalize to new architectures. In the paper, we propose several data distillation techniques for multilingual text classification datasets using language-model-based learning methods. We conduct experiments to analyze their performance in terms of classification strength, and cross-architecture generalization. Furthermore, we investigate the language-specific fairness of the data summaries generated by these methods. Our approach builds upon existing techniques, enhancing cross-architecture generalization in the text data distillation domain.

 

딥 러닝의 증가로 대규모 데이터 세트와 복잡한 모델이 되었습니다 일반적으로, 상당한 컴퓨팅 능력이 필요합니다. 이 문제를 해결하려면 데이터 증류는 더 낮은 모델을 빠르게 훈련시키는 기술로 부상했다 메모리 및 시간 요구 사항. 그러나 텍스트 기반 데이터 세트의 데이터 증류 이산적인 문제로 인해 증가하는 문제 때문에 많이 탐구되지 않았다 자연. 또한 기존 데이터 세트 증류 방법은 종종 다음과 같이 어려움을 겪습니다 새로운 건축물로 일반화하다. 논문에서, 우리는 몇 가지 데이터를 제안한다 다음을 사용하여 다국어 텍스트 분류 데이터 세트를 위한 증류 기술 언어 모델 기반 학습 방법. 우리는 그것들을 분석하기 위해 실험을 한다 분류 강도 및 교차 아키텍처 측면의 성능 일반화. 또한, 우리는 언어별 공정성을 조사한다 이러한 방법으로 생성된 데이터 요약입니다. 우리의 접근법은 기반을 두고 있다 기존 기술, 텍스트에서 교차 아키텍처 일반화 강화 데이터 증류 영역. 

 

 

반응형

댓글