본문 바로가기
오늘의 자연어 처리

[2023-08-15] 오늘의 자연어처리

by 지환이아빠 2023. 8. 15.
반응형

Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping

 

Visual Speech Recognition (VSR) differs from the common perception tasks as it requires deeper reasoning over the video sequence, even by human experts. Despite the recent advances in VSR, current approaches rely on labeled data to fully train or finetune their models predicting the target speech. This hinders their ability to generalize well beyond the training set and leads to performance degeneration under out-of-distribution challenging scenarios. Unlike previous works that involve auxiliary losses or complex training procedures and architectures, we propose a simple approach, named Lip2Vec that is based on learning a prior model. Given a robust visual speech encoder, this network maps the encoded latent representations of the lip sequence to their corresponding latents from the audio pair, which are sufficiently invariant for effective text decoding. The generated audio representation is then decoded to text using an off-the-shelf Audio Speech Recognition (ASR) model. The proposed model compares favorably with fully-supervised learning methods on the LRS3 dataset achieving 26 WER. Unlike SoTA approaches, our model keeps a reasonable performance on the VoxCeleb test set. We believe that reprogramming the VSR as an ASR task narrows the performance gap between the two and paves the way for more flexible formulations of lip reading.

 

VSR(Visual Speech Recognition)은 다음과 같은 일반적인 인식 작업과 다르다 그것은 심지어 인간 전문가에 의한 비디오 시퀀스에 대한 더 깊은 추론을 요구한다. 최근 VSR의 발전에도 불구하고, 현재의 접근 방식은 라벨이 부착된 데이터에 의존한다 목표 음성을 예측하는 모델을 완전히 훈련하거나 미세 조정합니다. 이것은 방해가 된다 훈련 세트를 훨씬 넘어 일반화하고 이로 이어지는 그들의 능력 분산이 부족한 어려운 시나리오 하에서 성능 저하를 초래됩니다. 보조적 손실이나 복잡한 훈련이 수반된 이전 작업과 달리 절차와 아키텍처, 우리는 Lip2Vec라는 간단한 접근법을 제안한다 사전 모델 학습을 기반으로 합니다. 강력한 시각적 음성 인코더가 주어지면, 이것은 네트워크는 립 시퀀스의 인코딩된 잠재 표현을 다음과 같이 매핑합니다 오디오 쌍의 해당 잠재량은 다음과 같이 충분히 불변합니다 효과적인 텍스트 디코딩. 생성된 오디오 표현은 다음으로 디코딩됩니다 ASR(Audio Speech Recognition) 모델을 사용한 텍스트입니다. 제안된 모델은 LRS3의 완전 지도 학습 방법과 비교한다 데이터 세트가 26WER를 달성했습니다. SoTA 접근 방식과 달리, 우리의 모델은 합리적이다 VoxCeleb 테스트 세트의 성능. VSR을 재프로그래밍하면 ASR 작업은 둘 사이의 성능 차이를 줄이고 다음을 위한 길을 제공합니다 립 리딩의 보다 유연한 제형. 

 

 

Evidence of Human-Like Visual-Linguistic Integration in Multimodal Large Language Models During Predictive Language Processing

 

The advanced language processing abilities of large language models (LLMs) have stimulated debate over their capacity to replicate human-like cognitive processes. One differentiating factor between language processing in LLMs and humans is that language input is often grounded in more than one perceptual modality, whereas most LLMs process solely text-based information. Multimodal grounding allows humans to integrate - e.g. visual context with linguistic information and thereby place constraints on the space of upcoming words, reducing cognitive load and improving perception and comprehension. Recent multimodal LLMs (mLLMs) combine visual and linguistic embedding spaces with a transformer type attention mechanism for next-word prediction. To what extent does predictive language processing based on multimodal input align in mLLMs and humans? To answer this question, 200 human participants watched short audio-visual clips and estimated the predictability of an upcoming verb or noun. The same clips were processed by the mLLM CLIP, with predictability scores based on a comparison of image and text feature vectors. Eye-tracking was used to estimate what visual features participants attended to, and CLIP's visual attention weights were recorded. We find that human estimates of predictability align significantly with CLIP scores, but not for a unimodal LLM of comparable parameter size. Further, alignment vanished when CLIP's visual attention weights were perturbed, and when the same input was fed to a multimodal model without attention. Analysing attention patterns, we find a significant spatial overlap between CLIP's visual attention weights and human eye-tracking data. Results suggest that comparable processes of integrating multimodal information, guided by attention to relevant visual features, supports predictive language processing in mLLMs and humans.

 

대형 언어 모델(LLM)의 고급 언어 처리 능력 인간과 같은 인지를 복제하는 그들의 능력에 대한 논쟁을 자극했다 과정. LLM에서 언어 처리의 한 가지 차별화 요소와 인간은 언어 입력이 종종 하나 이상의 지각에 근거한다는 것이다 대부분의 LLM은 텍스트 기반 정보만 처리합니다. 멀티모달 근거는 인간이 예를 들어 시각적 맥락과 언어적 맥락을 통합할 수 있게 한다 정보를 제공하고 이에 따라 앞으로 나올 단어의 공간에 제약을 가한다, 인지 부하를 줄이고 인식과 이해를 향상시킵니다. 최근. 멀티모달 LLM(multimodal LLM)은 시각적 및 언어적 임베딩 공간을 다음과 결합합니다 다음 단어 예측을 위한 트랜스포머 유형 주의 메커니즘. 어느 정도까지 멀티모달 입력에 기반한 예측 언어 처리가 mLLM으로 정렬되는지 여부 그리고 인간은? 이 질문에 답하기 위해 200명의 참가자들이 짧게 시청했다 시청각 클립과 다가오는 동사의 예측 가능성을 추정했다 명사. 동일한 클립이 mLLM CLIP에 의해 처리되었으며 예측 가능성이 있습니다 이미지와 텍스트 특징 벡터의 비교에 기초한 점수. 아이트래킹 참가자들이 어떤 시각적 특징에 주의를 기울였는지 추정하기 위해 사용되었으며, CLIP의 시각적 주의 가중치가 기록되었습니다. 우리는 인간의 추정치가 예측 가능성은 CLIP 점수와 크게 일치하지만 단일 LLM의 경우에는 일치하지 않습니다 유사한 매개 변수 크기의. 또한 CLIP의 시각적인 부분에서 정렬이 사라졌습니다 주의 가중치는 교란되었고, 같은 입력이 a에 공급되었을 때 주의를 기울이지 않는 멀티모달 모델. 주의 패턴을 분석하면, 우리는 다음을 발견한다 CLIP의 시각적 주의 가중치와 인간 사이의 상당한 공간적 중복 눈을 뗄 수 없는 자료. 결과는 다음과 같은 통합 프로세스를 제시한다 관련 시각적 특징에 대한 주의로 안내되는 멀티모달 정보, 는 mLLM 및 인간의 예측 언어 처리를 지원합니다. 

 

 

Finding Already Debunked Narratives via Multistage Retrieval: Enabling Cross-Lingual, Cross-Dataset and Zero-Shot Learning

 

The task of retrieving already debunked narratives aims to detect stories that have already been fact-checked. The successful detection of claims that have already been debunked not only reduces the manual efforts of professional fact-checkers but can also contribute to slowing the spread of misinformation. Mainly due to the lack of readily available data, this is an understudied problem, particularly when considering the cross-lingual task, i.e. the retrieval of fact-checking articles in a language different from the language of the online post being checked. This paper fills this gap by (i) creating a novel dataset to enable research on cross-lingual retrieval of already debunked narratives, using tweets as queries to a database of fact-checking articles; (ii) presenting an extensive experiment to benchmark fine-tuned and off-the-shelf multilingual pre-trained Transformer models for this task; and (iii) proposing a novel multistage framework that divides this cross-lingual debunk retrieval task into refinement and re-ranking stages. Results show that the task of cross-lingual retrieval of already debunked narratives is challenging and off-the-shelf Transformer models fail to outperform a strong lexical-based baseline (BM25). Nevertheless, our multistage retrieval framework is robust, outperforming BM25 in most scenarios and enabling cross-domain and zero-shot learning, without significantly harming the model's performance.

 

이미 드러난 이야기를 검색하는 작업은 이야기를 감지하는 것을 목표로 한다 이미 사실 확인이 완료되었습니다. 다음과 같은 주장을 성공적으로 탐지했습니다 전문가의 육체적 노력을 줄일 뿐만 아니라 이미 밝혀졌다 사실 확인을 하지만 잘못된 정보의 확산을 늦추는데 기여할 수도 있다. 주로 쉽게 구할 수 있는 데이터가 없기 때문에, 이것은 연구가 부족하다 특히 교차 언어 작업을 고려할 때 문제, 즉 그 언어와 다른 언어로 사실 확인 기사 검색 확인 중인 온라인 게시물입니다. 이 논문은 (i) 다음을 생성함으로써 이 공백을 메운다 이미 밝혀진 다국어 검색에 대한 연구를 가능하게 하는 새로운 데이터 세트 내러티브, 사실 확인 기사 데이터베이스에 대한 쿼리로 트윗 사용; (ii) 미세 패턴을 벤치마크하기 위한 광범위한 실험을 제시한다 이 작업을 위해 상용 다국어 사전 교육된 트랜스포머 모델 (iii) 이 다국어를 분할하는 새로운 다단계 프레임워크를 제안한다 검색 작업을 세분화 및 순위 조정 단계로 전환합니다. 결과는 다음과 같다 이미 밝혀진 서술의 교차 언어 검색 작업은 다음과 같다 도전적이고 기성품인 트랜스포머 모델이 강력한 성능을 발휘하지 못함 어휘 기반 기준선(BM25)입니다. 그럼에도 불구하고, 우리의 다단계 검색 프레임워크는 강력하고 대부분의 시나리오에서 BM25를 능가하며 교차 도메인 및 모델의 성능을 크게 손상시키지 않고 제로샷 학습을 수행할 수 있습니다. 

 

 

반응형

댓글