본문 바로가기
오늘의 자연어 처리

[2022-08-16] 오늘의 자연어처리

by 지환이아빠 2022. 8. 16.
반응형

Memory-Driven Text-to-Image Generation

 

We introduce a memory-driven semi-parametric approach to text-to-image generation, which is based on both parametric and non-parametric techniques. The non-parametric component is a memory bank of image features constructed from a training set of images. The parametric component is a generative adversarial network. Given a new text description at inference time, the memory bank is used to selectively retrieve image features that are provided as basic information of target images, which enables the generator to produce realistic synthetic results. We also incorporate the content information into the discriminator, together with semantic features, allowing the discriminator to make a more reliable prediction. Experimental results demonstrate that the proposed memory-driven semi-parametric approach produces more realistic images than purely parametric approaches, in terms of both visual fidelity and text-image semantic consistency.

 

우리는 텍스트 대 이미지에 대한 메모리 기반 반모수 접근 방식을 도입한다. 모수 및 비모수 기술을 모두 기반으로 하는 생성. 비모수 구성 요소는 구성된 이미지 기능의 메모리 뱅크입니다. 훈련한 이미지 세트로부터. 매개 변수 구성 요소는 생성입니다. 적대 관계망 추론 시간에 새로운 텍스트 설명이 주어지면, 기억은 뱅크는 기본으로 제공되는 이미지 기능을 선택적으로 검색하는 데 사용됩니다. 대상 이미지의 정보, 이를 통해 제너레이터가 현실적인 이미지를 생성할 수 있습니다. 합성 결과 또한 컨텐츠 정보를 에 통합합니다. 의미론적 특징과 함께, 판별자가 다음을 할 수 있도록 한다. 보다 확실한 예측을 하다 실험 결과는 다음과 같다. 제안된 메모리 기반 반모수 접근 방식은 보다 사실적인 이미지를 생성한다. 순수하게 파라메트릭 접근 방식보다 시각적 충실도와 텍스트 이미지의 의미론적 일관성. 

 

 

An Empirical Exploration of Cross-domain Alignment between Language and Electroencephalogram

 

Electroencephalography (EEG) and language have been widely explored independently for many downstream tasks (e.g., sentiment analysis, relation detection, etc.). Multimodal approaches that study both domains have not been well explored, even though in recent years, multimodal learning has been seen to be more powerful than its unimodal counterparts. In this study, we want to explore the relationship and dependency between EEG and language, i.e., how one domain reflects and represents the other. To study the relationship at the representation level, we introduced MTAM, a Multimodal Transformer Alignment Model, to observe coordinated representations between the two modalities, and thus employ the transformed representations for downstream applications. We used various relationship alignment-seeking techniques, such as Canonical Correlation Analysis and Wasserstein Distance, as loss functions to transfigure low-level language and EEG features to high-level transformed features. On downstream applications, sentiment analysis, and relation detection, we achieved new state-of-the-art results on two datasets, ZuCo and K-EmoCon. Our method achieved an F1-score improvement of 16.5% on sentiment analysis for K-EmoCon, 26.6% on sentiment analysis of ZuCo, and 31.1% on relation detection of ZuCo. In addition, we provide interpretation of the performance improvement by: (1) visualizing the original feature distribution and the transformed feature distribution, showing the effectiveness of the alignment module for discovering and encoding the relationship between EEG and language; (2) visualizing word-level and sentence-level EEG-language alignment weights, showing the influence of different language semantics as well as EEG frequency features; and (3) visualizing brain topographical maps to provide an intuitive demonstration of the connectivity of EEG and language response in the brain regions.

 

뇌파학(EEG)과 언어는 널리 탐구되어 왔다. 많은 다운스트림 작업(예: 감정 분석, 관계)에 대해 독립적으로 탐지 등). 두 영역을 모두 연구하는 멀티모달 접근법은 이루어지지 않았다. 최근 몇 년 동안 멀티모달 학습이 관찰되었음에도 불구하고 잘 탐구되었다. 단일한 상대보다 더 강력하다. 이 연구에서, 우리는 EEG와 언어 사이의 관계와 의존성, 즉 어떻게 해야 하는지 탐구한다. 도메인은 다른 도메인을 반영하고 나타냅니다. 에서 관계를 연구하기 위해 표현 수준, 우리는 멀티모달 트랜스포머 정렬인 MTAM을 소개했다. 모형, 두 양식 사이의 조정된 표현을 관찰합니다. 따라서 변환된 표현을 다운스트림 애플리케이션에 사용합니다. 우리가 캐노니컬과 같은 다양한 관계 정렬-추구 기법을 사용했다. 상관 분석 및 Wasserstein 거리(변환할 손실 함수) 저수준 언어 및 EEG 기능부터 고수준 변환 기능까지. 켜짐 다운스트림 애플리케이션, 감정 분석 및 관계 감지, ZuCo와 K-EmoCon의 두 데이터 세트에서 새로운 최첨단 결과를 달성했습니다. 우리들의 방법은 감정 분석에서 16.5%의 F1 점수 개선을 달성했다. 케이에모콘, 주코 감정분석 26.6%, 관계감지 31.1% 주코의 또한 성능 개선에 대한 해석을 제공합니다. by: (1) 원래 형상 분포 및 변환된 형상 시각화 형상 분포, 선형 모듈의 효과를 보여줍니다. EEG와 언어 사이의 관계 발견 및 인코딩 (2) 단어 수준 및 문장 수준 EEG 언어 정렬 가중치 시각화 EEG 빈도뿐만 아니라 다른 언어 의미론의 영향을 보여준다. 특징; 그리고 (3) 직관적인 것을 제공하기 위해 뇌 지형 지도를 시각화한다. 뇌 속 뇌파 및 언어 반응의 연결성 입증 지역 

 

 

An Empirical Exploration of Cross-domain Alignment between Language and Electroencephalogram

 

Electroencephalography (EEG) and language have been widely explored independently for many downstream tasks (e.g., sentiment analysis, relation detection, etc.). Multimodal approaches that study both domains have not been well explored, even though in recent years, multimodal learning has been seen to be more powerful than its unimodal counterparts. In this study, we want to explore the relationship and dependency between EEG and language, i.e., how one domain reflects and represents the other. To study the relationship at the representation level, we introduced MTAM, a Multimodal Transformer Alignment Model, to observe coordinated representations between the two modalities, and thus employ the transformed representations for downstream applications. We used various relationship alignment-seeking techniques, such as Canonical Correlation Analysis and Wasserstein Distance, as loss functions to transfigure low-level language and EEG features to high-level transformed features. On downstream applications, sentiment analysis, and relation detection, we achieved new state-of-the-art results on two datasets, ZuCo and K-EmoCon. Our method achieved an F1-score improvement of 16.5% on sentiment analysis for K-EmoCon, 26.6% on sentiment analysis of ZuCo, and 31.1% on relation detection of ZuCo. In addition, we provide interpretation of the performance improvement by: (1) visualizing the original feature distribution and the transformed feature distribution, showing the effectiveness of the alignment module for discovering and encoding the relationship between EEG and language; (2) visualizing word-level and sentence-level EEG-language alignment weights, showing the influence of different language semantics as well as EEG frequency features; and (3) visualizing brain topographical maps to provide an intuitive demonstration of the connectivity of EEG and language response in the brain regions.

 

뇌파학(EEG)과 언어는 널리 탐구되어 왔다. 많은 다운스트림 작업(예: 감정 분석, 관계)에 대해 독립적으로 탐지 등). 두 영역을 모두 연구하는 멀티모달 접근법은 이루어지지 않았다. 최근 몇 년 동안 멀티모달 학습이 관찰되었음에도 불구하고 잘 탐구되었다. 단일한 상대보다 더 강력하다. 이 연구에서, 우리는 EEG와 언어 사이의 관계와 의존성, 즉 어떻게 해야 하는지 탐구한다. 도메인은 다른 도메인을 반영하고 나타냅니다. 에서 관계를 연구하기 위해 표현 수준, 우리는 멀티모달 트랜스포머 정렬인 MTAM을 소개했다. 모형, 두 양식 사이의 조정된 표현을 관찰합니다. 따라서 변환된 표현을 다운스트림 애플리케이션에 사용합니다. 우리가 캐노니컬과 같은 다양한 관계 정렬-추구 기법을 사용했다. 상관 분석 및 Wasserstein 거리(변환할 손실 함수) 저수준 언어 및 EEG 기능부터 고수준 변환 기능까지. 켜짐 다운스트림 애플리케이션, 감정 분석 및 관계 감지, ZuCo와 K-EmoCon의 두 데이터 세트에서 새로운 최첨단 결과를 달성했습니다. 우리들의 방법은 감정 분석에서 16.5%의 F1 점수 개선을 달성했다. 케이에모콘, 주코 감정분석 26.6%, 관계감지 31.1% 주코의 또한 성능 개선에 대한 해석을 제공합니다. by: (1) 원래 형상 분포 및 변환된 형상 시각화 형상 분포, 선형 모듈의 효과를 보여줍니다. EEG와 언어 사이의 관계 발견 및 인코딩 (2) 단어 수준 및 문장 수준 EEG 언어 정렬 가중치 시각화 EEG 빈도뿐만 아니라 다른 언어 의미론의 영향을 보여준다. 특징; 그리고 (3) 직관적인 것을 제공하기 위해 뇌 지형 지도를 시각화한다. 뇌 속 뇌파 및 언어 반응의 연결성 입증 지역 

 

 

반응형

댓글