본문 바로가기
오늘의 자연어 처리

[2023-08-19] 오늘의 자연어처리

by 지환이아빠 2023. 8. 19.
반응형

"Beware of deception": Detecting Half-Truth and Debunking it through Controlled Claim Editing

 

The prevalence of half-truths, which are statements containing some truth but that are ultimately deceptive, has risen with the increasing use of the internet. To help combat this problem, we have created a comprehensive pipeline consisting of a half-truth detection model and a claim editing model. Our approach utilizes the T5 model for controlled claim editing; "controlled" here means precise adjustments to select parts of a claim. Our methodology achieves an average BLEU score of 0.88 (on a scale of 0-1) and a disinfo-debunk score of 85% on edited claims. Significantly, our T5-based approach outperforms other Language Models such as GPT2, RoBERTa, PEGASUS, and Tailor, with average improvements of 82%, 57%, 42%, and 23% in disinfo-debunk scores, respectively. By extending the LIAR PLUS dataset, we achieve an F1 score of 82% for the half-truth detection model, setting a new benchmark in the field. While previous attempts have been made at half-truth detection, our approach is, to the best of our knowledge, the first to attempt to debunk half-truths.

 

반진실의 유행은 약간의 진실을 포함하는 진술이지만 그것은 궁극적으로 기만적이며, 점점 더 많은 사용과 함께 증가했다 인터넷. 이 문제를 해결하기 위해, 우리는 포괄적인 파이프라인을 만들었다 반진법 탐지 모델과 클레임 편집 모델로 구성됩니다. 우리들의 접근 방식은 통제된 클레임 편집을 위해 T5 모델을 활용한다. 여기서 "통제된" 클레임의 부분을 선택하기 위한 정밀한 조정을 의미합니다. 우리의 방법론은 다음을 달성합니다 평균 BLEU 점수 0.88(0-1 척도)과 허위 정보 공개 점수 편집된 클레임의 85%. 중요한 것은 T5 기반 접근 방식이 다른 접근 방식보다 뛰어나다는 것입니다 GPT2, Roberta, PGASUS 및 Tailor와 같은 언어 모델(평균 포함) 디스인포 부정크 점수에서 각각 82%, 57%, 42%, 23% 향상되었다. LIAR PLUS 데이터 세트를 확장하여 F1 점수 82%를 달성했습니다 반진실 탐지 모델, 이 분야에서 새로운 기준을 설정합니다. 하는 동안에 우리의 접근 방식은, 반진실 탐지에서 이전의 시도들이 이루어졌다 우리가 아는 한, 최초로 반쪽짜리 거짓말을 폭로하려고 시도했다. 

 

 

Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder

 

In recent research, slight performance improvement is observed from automatic speech recognition systems to audio-visual speech recognition systems in the end-to-end framework with low-quality videos. Unmatching convergence rates and specialized input representations between audio and visual modalities are considered to cause the problem. In this paper, we propose two novel techniques to improve audio-visual speech recognition (AVSR) under a pre-training and fine-tuning training framework. First, we explore the correlation between lip shapes and syllable-level subword units in Mandarin to establish good frame-level syllable boundaries from lip shapes. This enables accurate alignment of video and audio streams during visual model pre-training and cross-modal fusion. Next, we propose an audio-guided cross-modal fusion encoder (CMFE) neural network to utilize main training parameters for multiple cross-modal attention layers to make full use of modality complementarity. Experiments on the MISP2021-AVSR data set show the effectiveness of the two proposed techniques. Together, using only a relatively small amount of training data, the final system achieves better performances than state-of-the-art systems with more complex front-ends and back-ends.

 

최근 연구에서는 자동으로 약간의 성능 향상이 관찰되었습니다 음성 인식 시스템에서 시청각 음성 인식 시스템으로 낮은 화질의 비디오가 포함된 엔드 투 엔드 프레임워크입니다. 일치하지 않는 수렴 속도 및 오디오와 시각적 양식 사이의 특수한 입력 표현은 문제를 일으킬 것으로 생각됩니다. 이 논문에서 우리는 두 가지 새로운 기술을 제안한다 사전 훈련 하에 시청각 음성 인식(AVSR)을 개선한다 미세 조정 훈련 프레임워크. 첫째, 우리는 입술 사이의 상관관계를 탐구한다 모양과 음절 수준의 하위 단어 단위는 좋은 것을 확립하기 위해 표준 중국어로 사용됩니다 입술 모양으로부터의 프레임 수준 음절 경계. 이를 통해 정확한 정보를 얻을 수 있습니다 시각적 모델 사전 교육 중 비디오 및 오디오 스트림 정렬 교차 결합. 다음으로, 우리는 오디오 유도 교차 모달 융합 인코더를 제안한다 (CMFE) 신경망을 이용하여 여러 개의 주요 훈련 파라미터를 활용합니다 상호작용 주의 레이어를 교차 배치하여 모달리티 상보성을 최대한 활용할 수 있습니다. MISP2021-AVSR 데이터 세트에 대한 실험은 두 가지의 효과를 보여준다 제안된 기술. 함께, 비교적 적은 양의 훈련만 사용한다 데이터, 최종 시스템이 최첨단보다 더 나은 성능을 달성합니다 프론트 엔드와 백 엔드가 더욱 복잡한 시스템입니다. 

 

 

Detoxify Language Model Step-by-Step

 

Detoxification for LLMs is challenging since it requires models to avoid generating harmful content while maintaining the generation capability. To ensure the safety of generations, previous detoxification methods detoxify the models by changing the data distributions or constraining the generations from different aspects in a single-step manner. However, these approaches will dramatically affect the generation quality of LLMs, e.g., discourse coherence and semantic consistency, since language models tend to generate along the toxic prompt while detoxification methods work in the opposite direction. To handle such a conflict, we decompose the detoxification process into different sub-steps, where the detoxification is concentrated in the input stage and the subsequent continual generation is based on the non-toxic prompt. Besides, we also calibrate the strong reasoning ability of LLMs by designing a Detox-Chain to connect the above sub-steps in an orderly manner, which allows LLMs to detoxify the text step-by-step. Automatic and human evaluation on two benchmarks reveals that by training with Detox-Chain, six LLMs scaling from 1B to 33B can obtain significant detoxification and generation improvement. Our code and data are available at this https URL. Warning: examples in the paper may contain uncensored offensive content.

 

LLM에 대한 해독은 모델을 피해야 하기 때문에 어렵습니다 생성 기능을 유지하면서 유해 콘텐츠를 생성할 수 있습니다. 로. 세대의 안전을 보장하고, 이전의 해독 방법은 해독한다 데이터 분포를 변경하거나 세대를 제한하여 모델화 단일 단계 방식으로 다른 측면을 제공합니다. 그러나 이러한 접근 방식은 LLM의 생성 품질에 극적인 영향(예: 담화 일관성) 언어 모델이 생성되는 경향이 있기 때문에 의미론적 일관성이 있습니다 해독 방법이 반대 방향으로 작동하는 동안 독성 프롬프트. 로. 그러한 갈등을 처리하면, 우리는 해독 과정을 다른 것으로 분해한다 입력 단계에서 해독이 집중되는 하위 단계와 이후 지속적인 생성은 비선택 프롬프트에 기반합니다. 게다가 우리는 또한 디톡스 체인을 설계하여 LLM의 강력한 추론 능력을 보정합니다 위의 하위 단계를 질서 있게 연결하여 LLM이 다음을 수행할 수 있도록 합니다 텍스트를 단계적으로 해독하다. 2개에 대한 자동 및 인체 평가 벤치마크에 따르면 디톡스 체인을 통해 6개의 LLM이 1B에서 확장됩니다 33B는 상당한 해독 및 생성 개선을 얻을 수 있다. 우리들의 이 https URL에서 코드 및 데이터를 사용할 수 있습니다. 경고: 논문의 예는 검열되지 않은 공격적인 내용을 포함할 수 있다. 

 

 

반응형

댓글