본문 바로가기
오늘의 자연어 처리

[2023-03-29] 오늘의 자연어처리

by 지환이아빠 2023. 3. 29.
반응형

TextMI: Textualize Multimodal Information for Integrating Non-verbal Cues in Pre-trained Language Models

 

Pre-trained large language models have recently achieved ground-breaking performance in a wide variety of language understanding tasks. However, the same model can not be applied to multimodal behavior understanding tasks (e.g., video sentiment/humor detection) unless non-verbal features (e.g., acoustic and visual) can be integrated with language. Jointly modeling multiple modalities significantly increases the model complexity, and makes the training process data-hungry. While an enormous amount of text data is available via the web, collecting large-scale multimodal behavioral video datasets is extremely expensive, both in terms of time and money. In this paper, we investigate whether large language models alone can successfully incorporate non-verbal information when they are presented in textual form. We present a way to convert the acoustic and visual information into corresponding textual descriptions and concatenate them with the spoken text. We feed this augmented input to a pre-trained BERT model and fine-tune it on three downstream multimodal tasks: sentiment, humor, and sarcasm detection. Our approach, TextMI, significantly reduces model complexity, adds interpretability to the model's decision, and can be applied for a diverse set of tasks while achieving superior (multimodal sarcasm detection) or near SOTA (multimodal sentiment analysis and multimodal humor detection) performance. We propose TextMI as a general, competitive baseline for multimodal behavioral analysis tasks, particularly in a low-resource setting.

 

사전 훈련된 대형 언어 모델은 최근 획기적인 성과를 거두었다 다양한 언어 이해 작업에서 수행할 수 있습니다. 하지만, 그 동일한 모델은 다중 모달 행동 이해 작업에 적용할 수 없다(예: 비언어적 특징(예: 음향 및 음향)을 제외하고는 비디오 감정/신호 감지 visual)은 언어와 통합할 수 있습니다. 다중 모달리티 공동 모델링 모델 복잡성을 크게 증가시키고 교육 과정을 만듭니다 자료 수집의. 웹을 통해 엄청난 양의 텍스트 데이터를 이용할 수 있지만, 대규모 멀티모달 행동 비디오 데이터 세트를 수집하는 것은 매우 어렵다 시간과 돈 면에서 모두 비싸다. 이 논문에서, 우리는 조사한다 큰 언어 모델만으로도 비언어적인 것을 성공적으로 통합할 수 있는지 여부 텍스트 형식으로 제공되는 정보입니다. 우리는 방법을 제시한다 음향 및 시각 정보를 상응하는 텍스트로 변환하다 설명 및 음성 텍스트와 연결합니다. 우리는 이것을 증강한다 사전 훈련된 BERT 모델에 입력하고 3개의 다운스트림에서 미세 조정합니다 멀티모달 작업: 감정, 유머, 풍자 탐지. 우리의 접근 방식은, TextMI는 모델 복잡성을 크게 줄이고 해석 가능성을 추가합니다 모델의 결정, 그리고 달성하는 동안 다양한 작업 세트에 적용될 수 있다 우수(다모달 빈정거림 감지) 또는 SOTA(다모달 정서) 근처 분석 및 멀티모달 유머 감지) 성능. 우리는 TextMI를 제안한다 다중 모달 행동 분석 작업을 위한 일반적이고 경쟁적인 기준, 특히 자원이 부족한 환경에서. 

 

 

Coupling Artificial Neurons in BERT and Biological Neurons in the Human Brain

 

Linking computational natural language processing (NLP) models and neural responses to language in the human brain on the one hand facilitates the effort towards disentangling the neural representations underpinning language perception, on the other hand provides neurolinguistics evidence to evaluate and improve NLP models. Mappings of an NLP model's representations of and the brain activities evoked by linguistic input are typically deployed to reveal this symbiosis. However, two critical problems limit its advancement: 1) The model's representations (artificial neurons, ANs) rely on layer-level embeddings and thus lack fine-granularity; 2) The brain activities (biological neurons, BNs) are limited to neural recordings of isolated cortical unit (i.e., voxel/region) and thus lack integrations and interactions among brain functions. To address those problems, in this study, we 1) define ANs with fine-granularity in transformer-based NLP models (BERT in this study) and measure their temporal activations to input text sequences; 2) define BNs as functional brain networks (FBNs) extracted from functional magnetic resonance imaging (fMRI) data to capture functional interactions in the brain; 3) couple ANs and BNs by maximizing the synchronization of their temporal activations. Our experimental results demonstrate 1) The activations of ANs and BNs are significantly synchronized; 2) the ANs carry meaningful linguistic/semantic information and anchor to their BN signatures; 3) the anchored BNs are interpretable in a neurolinguistic context. Overall, our study introduces a novel, general, and effective framework to link transformer-based NLP models and neural activities in response to language and may provide novel insights for future studies such as brain-inspired evaluation and development of NLP models.

 

계산 자연어 처리(NLP) 모델과 신경을 연결한다 인간 두뇌의 언어에 대한 반응은 한편으로는 노력을 용이하게 한다 언어를 뒷받침하는 신경 표현을 풀기 위해 반면에 지각은 평가할 수 있는 신경언어학적 증거를 제공한다 NLP 모델을 개선합니다. 와 의 NLP 모델 표현의 매핑 언어 입력에 의해 유발되는 뇌 활동은 일반적으로 드러내기 위해 배치된다 이 공생. 그러나, 두 가지 중요한 문제가 그것의 발전을 제한한다: 1) 모델의 표현(인공 뉴런, AN)은 계층 수준에 의존한다 임베딩으로 인해 미세한 입자성이 부족합니다. 2) 뇌 활동(생물학적 활동) 뉴런, BN)은 분리된 피질 단위(즉, 분리된 피질 단위)의 신경 기록으로 제한된다. 복셀/영역), 따라서 뇌 사이의 통합과 상호 작용이 부족하다 기능들. 이러한 문제를 해결하기 위해 본 연구에서는 1) 다음과 같이 AN을 정의합니다 변압기 기반 NLP 모델의 미세 입자도(본 연구의 BERT) 및 입력 텍스트 시퀀스에 대한 시간적 활성화를 측정한다. 2) BN을 다음과 같이 정의한다 기능성 자기 공명에서 추출한 기능성 뇌 네트워크(FBN) 뇌의 기능적 상호작용을 포착하기 위한 영상촬영(fMRI) 데이터; 3) 커플 시간적 활성화의 동기화를 최대화하여 ANs 및 BNs. 우리의 실험 결과는 1) ANs와 BNs의 활성화가 상당히 동기화됨; 2) AN은 의미 있는 언어적/의미론적 전달 정보 및 BN 서명에 대한 고정; 3) 고정된 BN은 신경언어학적 맥락에서 해석할 수 있다. 전반적으로, 우리의 연구는 다음을 소개한다 변압기 기반 NLP 모델을 연결하는 새롭고 일반적이며 효과적인 프레임워크 언어에 반응하는 신경 활동과 새로운 통찰력을 제공할 수 있다 뇌에서 영감을 받은 평가와 NLP의 개발과 같은 미래 연구를 위해 모델들. 

 

 

Adapting Pretrained Language Models for Solving Tabular Prediction Problems in the Electronic Health Record

 

We propose an approach for adapting the DeBERTa model for electronic health record (EHR) tasks using domain adaptation. We pretrain a small DeBERTa model on a dataset consisting of MIMIC-III discharge summaries, clinical notes, radiology reports, and PubMed abstracts. We compare this model's performance with a DeBERTa model pre-trained on clinical texts from our institutional EHR (MeDeBERTa) and an XGBoost model. We evaluate performance on three benchmark tasks for emergency department outcomes using the MIMIC-IV-ED dataset. We preprocess the data to convert it into text format and generate four versions of the original datasets to compare data processing and data inclusion. The results show that our proposed approach outperforms the alternative models on two of three tasks (p<0.001) and matches performance on the third task, with the use of descriptive columns improving performance over the original column names.

 

우리는 전자 건강을 위해 DeBERTa 모델을 적용하는 접근법을 제안한다 도메인 적응을 사용하여 EHR(기록) 작업을 수행합니다. 우리는 작은 DeBERTa 모델을 사전 훈련한다 MIMIC-III 퇴원 요약, 임상 기록, 방사선 보고서 및 PubMed 요약. 우리는 이 모델의 성능을 비교한다 기관 EHR의 임상 텍스트에 대해 사전 훈련된 DeBERTa 모델을 사용하여 (MeDeBERTa) 및 XGBoost 모델. 우리는 세 가지 벤치마크를 통해 성능을 평가한다 MIMIC-IV-ED 데이터 세트를 사용하여 응급 부서 결과에 대한 작업. 우리가 데이터를 사전 처리하여 텍스트 형식으로 변환하고 4가지 버전을 생성합니다 데이터 처리와 데이터 포함을 비교하기 위해 원래 데이터 세트의. 그 결과는 우리의 제안된 접근 방식이 대안 모델을 능가한다는 것을 보여준다 세 가지 작업 중 두 개(p<0.001)이며 세 번째 작업의 성능과 일치합니다 원래 열보다 성능을 향상시키는 설명 열 사용 이름들. 

 

 

반응형

댓글