본문 바로가기
오늘의 자연어 처리

[2022-08-30] 오늘의 자연어처리

by 지환이아빠 2022. 8. 30.
반응형

Cross-Modality Gated Attention Fusion for Multimodal Sentiment Analysis

 

Multimodal sentiment analysis is an important research task to predict the sentiment score based on the different modality data from a specific opinion video. Many previous pieces of research have proved the significance of utilizing the shared and unique information across different modalities. However, the high-order combined signals from multimodal data would also help extract satisfied representations. In this paper, we propose CMGA, a Cross-Modality Gated Attention fusion model for MSA that tends to make adequate interaction across different modality pairs. CMGA also adds a forget gate to filter the noisy and redundant signals introduced in the interaction procedure. We experiment on two benchmark datasets in MSA, MOSI, and MOSEI, illustrating the performance of CMGA over several baseline models. We also conduct the ablation study to demonstrate the function of different components inside CMGA.

 

멀티모달 감정 분석은 다음을 예측하는 중요한 연구 과제이다. 특정 의견과 다른 양식 데이터를 기반으로 한 감정 점수 비디오. 많은 이전의 연구들은 그 중요성을 증명했다. 서로 다른 양식에서 공유되고 고유한 정보를 활용합니다. 그러나 멀티모달 데이터의 고차 결합 신호도 도움이 될 것이다. 만족스러운 표현을 추출하다 본 논문에서는 CMGA를 제안한다. 적절한 경향이 있는 MSA를 위한 교차 모달리티 게이트 어텐션 융합 모델 서로 다른 촬영장비 쌍 간의 상호 작용. CMGA는 또한 망각 게이트를 에 추가합니다. 상호 작용 절차에 도입된 잡음 및 중복 신호를 필터링합니다. 우리는 MSA, MOSI 및 MOSEI의 두 가지 벤치마크 데이터 세트에 대해 실험합니다. 여러 기준 모델에 대한 CMGA의 성능. 우리는 또한 수행한다. CMGA 내부의 다양한 구성 요소의 기능을 입증하기 위한 절제 연구. 

 

 

Task-specific Pre-training and Prompt Decomposition for Knowledge Graph Population with Language Models

 

We present a system for knowledge graph population with Language Models, evaluated on the Knowledge Base Construction from Pre-trained Language Models (LM-KBC) challenge at ISWC 2022. Our system involves task-specific pre-training to improve LM representation of the masked object tokens, prompt decomposition for progressive generation of candidate objects, among other methods for higher-quality retrieval. Our system is the winner of track 1 of the LM-KBC challenge, based on BERT LM; it achieves 55.0% F-1 score on the hidden test set of the challenge.

 

언어 모델을 사용하여 지식 그래프 모집단을 위한 시스템을 제시한다. 사전 훈련된 언어 모델에서 기술 기반 구성에 대한 평가 ISWC 2022에서 (LM-KBC) 챌린지. 당사의 시스템은 작업별 사전 교육을 포함합니다. 마스킹된 개체 토큰의 LM 표현을 개선하려면 분해 확인 후보 객체의 점진적 생성을 위해, 다른 방법들 중. 고급 검색 우리 시스템은 LM-KBC 1번 트랙의 우승자이다. BERT LM에 기반한 챌린지. 은닉 테스트 세트에서 55.0% F-1 점수를 달성한다. 도전에 대한. 

 

 

Contrastive Audio-Language Learning for Music

 

As one of the most intuitive interfaces known to humans, natural language has the potential to mediate many tasks that involve human-computer interaction, especially in application-focused fields like Music Information Retrieval. In this work, we explore cross-modal learning in an attempt to bridge audio and language in the music domain. To this end, we propose MusCALL, a framework for Music Contrastive Audio-Language Learning. Our approach consists of a dual-encoder architecture that learns the alignment between pairs of music audio and descriptive sentences, producing multimodal embeddings that can be used for text-to-audio and audio-to-text retrieval out-of-the-box. Thanks to this property, MusCALL can be transferred to virtually any task that can be cast as text-based retrieval. Our experiments show that our method performs significantly better than the baselines at retrieving audio that matches a textual description and, conversely, text that matches an audio query. We also demonstrate that the multimodal alignment capability of our model can be successfully extended to the zero-shot transfer scenario for genre classification and auto-tagging on two public datasets.

 

인간에게 알려진 가장 직관적인 인터페이스 중 하나로서, 자연어는 인간-컴퓨터 상호 작용과 관련된 많은 작업을 중재할 수 있는 잠재력 특히 음악 정보 검색과 같은 응용 프로그램 중심 분야에서 그렇습니다. 인 이 작업, 우리는 오디오를 연결하려는 시도로 교차 학습과 음악 영역의 언어 이를 위해, 우리는 MusCALL을 제안한다. 음악 대비 오디오 언어 학습. 우리의 접근 방식은 다음과 같이 구성된다. 음악 쌍 간의 정렬을 학습하는 이중 섀시 아키텍처 오디오 및 서술형 문장, 다중 모드 임베딩을 생성할 수 있습니다. 텍스트에서 텍스트로, 오디오에서 텍스트로 바로 검색하는 데 사용됩니다. 덕분에. 이 속성, MusCALL은 사실상 모든 태스크로 이전될 수 있다. 텍스트 기반 검색으로 캐스팅합니다. 우리의 실험은 우리의 방법이 일치하는 오디오를 검색하는 데 있어 기준선보다 훨씬 낫습니다. 텍스트 설명과 반대로 오디오 쿼리와 일치하는 텍스트입니다. 저희도. 우리 모델의 멀티모달 정렬 기능이 다음을 수행할 수 있음을 입증합니다. 장르에 대한 제로샷 전송 시나리오로 성공적으로 확장되었습니다. 두 개의 공개 데이터 세트에 대한 분류 및 자동 검색. 

 

 

반응형

댓글