본문 바로가기
오늘의 자연어 처리

[2023-05-09] 오늘의 자연어처리

by 지환이아빠 2023. 5. 9.
반응형

SI-LSTM: Speaker Hybrid Long-short Term Memory and Cross Modal Attention for Emotion Recognition in Conversation

 

Emotion Recognition in Conversation~(ERC) across modalities is of vital importance for a variety of applications, including intelligent healthcare, artificial intelligence for conversation, and opinion mining over chat history. The crux of ERC is to model both cross-modality and cross-time interactions throughout the conversation. Previous methods have made progress in learning the time series information of conversation while lacking the ability to trace down the different emotional states of each speaker in a conversation. In this paper, we propose a recurrent structure called Speaker Information Enhanced Long-Short Term Memory (SI-LSTM) for the ERC task, where the emotional states of the distinct speaker can be tracked in a sequential way to enhance the learning of the emotion in conversation. Further, to improve the learning of multimodal features in ERC, we utilize a cross-modal attention component to fuse the features between different modalities and model the interaction of the important information from different modalities. Experimental results on two benchmark datasets demonstrate the superiority of the proposed SI-LSTM against the state-of-the-art baseline methods in the ERC task on multimodal data.

 

대화에서 감정 인식~양식 전반에 걸쳐 ERC(Emotion Recognition)가 중요합니다 지능형 의료 서비스를 포함한 다양한 애플리케이션에 대한 중요성, 대화를 위한 인공지능과 채팅 기록에 대한 의견 마이닝. ERC의 핵심은 교차 모달리티와 교차 시간 상호작용을 모두 모델링하는 것이다 대화 내내. 이전의 방법들은 학습에 진전을 가져왔다 추적 능력이 부족한 상태에서 대화의 시계열 정보 대화에서 각각의 화자들의 다른 감정 상태들을 아래로 내려간다. 이 점에서. 논문, 우리는 스피커 정보 강화라고 불리는 반복적인 구조를 제안한다 ERC 작업을 위한 SI-LSTM(Long-Short Term Memory), 감정 상태 구별되는 화자의 추적은 순차적인 방법으로 향상될 수 있다 대화 속의 감정을 배우는 것. 게다가, 학습을 향상시키기 위해 ERC의 멀티모달 기능, 우리는 교차 모달 주의 구성 요소를 활용하여 서로 다른 양식 간의 특징을 융합하고 상호 작용을 모델링합니다 다양한 양식에서 얻은 중요한 정보. 2에 대한 실험 결과 벤치마크 데이터 세트는 제안된 SI-LSTM의 우수성을 보여준다 멀티모달 데이터에 대한 ERC 작업의 최첨단 기준 방법. 

 

 

Black-box Prompt Tuning with Subspace Learning

 

Black-box prompt tuning uses derivative-free optimization algorithms to learn prompts in low-dimensional subspaces instead of back-propagating through the network of Large Language Models (LLMs). Recent studies have found that black-box prompt tuning lacks versatility across tasks and LLMs, which we believe is related to the inappropriate choice of subspaces. In this paper, we propose Black-box prompt tuning with Subspace Learning (BSL) to improve the versatility of black-box prompt tuning. Based on the assumption that nearly optimal prompts for similar tasks exist in a common subspace, we propose identifying such subspaces by meta-learning on a set of similar source tasks. Therefore, for a target task that shares similarities with source tasks, we guarantee that optimizing in the subspace can find a prompt that performs well on the target task. Experiments confirm that our BSL framework consistently achieves competitive performance regardless of downstream tasks and LLMs.

 

블랙박스 프롬프트 튜닝은 파생물이 없는 최적화 알고리즘을 사용하여 학습한다 저차원 하위 공간에서 프롬프트를 표시합니다 LLM(Large Language Models) 네트워크입니다. 최근 연구에 따르면 블랙박스 프롬프트 튜닝은 작업 및 LLM 전반에 걸쳐 다양성이 부족합니다 believe는 부분 공간의 부적절한 선택과 관련이 있습니다. 이 논문에서 우리는 서브스페이스 학습(BSL)을 사용한 블랙박스 프롬프트 튜닝을 제안하여 향상시킨다 블랙박스 프롬프트 튜닝의 다양성. 다음과 같은 가정에 근거하여 유사한 작업에 대한 최적의 프롬프트는 공통 하위 공간에 존재한다, 우리는 제안한다 일련의 유사한 소스 작업에 대한 메타 학습을 통해 이러한 하위 공간을 식별한다. 따라서 소스 작업과 유사성을 공유하는 대상 작업의 경우 부분 공간에서 최적화하면 잘 수행되는 프롬프트를 찾을 수 있음을 보장합니다 목표 과제에 대하여. 실험을 통해 우리의 BSL 프레임워크가 일관되게 확인되었습니다 다운스트림 작업 및 LLM에 관계없이 경쟁력 있는 성능을 달성합니다. 

 

 

Retrieval Augmented Chest X-Ray Report Generation using OpenAI GPT models

 

We propose Retrieval Augmented Generation (RAG) as an approach for automated radiology report writing that leverages multimodally aligned embeddings from a contrastively pretrained vision language model for retrieval of relevant candidate radiology text for an input radiology image and a general domain generative model like OpenAI text-davinci-003, gpt-3.5-turbo and gpt-4 for report generation using the relevant radiology text retrieved. This approach keeps hallucinated generations under check and provides capabilities to generate report content in the format we desire leveraging the instruction following capabilities of these generative models. Our approach achieves better clinical metrics with a BERTScore of 0.2865 ({\Delta}+ 25.88%) and Semb score of 0.4026 ({\Delta}+ 6.31%). Our approach can be broadly relevant for different clinical settings as it allows to augment the automated radiology report generation process with content relevant for that setting while also having the ability to inject user intents and requirements in the prompts as part of the report generation process to modulate the content and format of the generated reports as applicable for that clinical setting.

 

우리는 자동화를 위한 접근 방식으로 RAG(Retrieve Augmented Generation)를 제안한다 다중 모델 정렬 임베딩을 활용하는 방사선학 보고서 작성 관련 검색을 위해 대조적으로 사전 훈련된 비전 언어 모델 입력 방사선 이미지 및 일반 도메인에 대한 방사선 텍스트 후보 OpenAI text-davinci-003, gpt-3.5-dll 및 gpt-4와 같은 생성 모델 검색된 관련 방사선 텍스트를 사용하여 보고서를 생성합니다. 이 접근법 환각에 빠진 세대를 견제하고 능력을 제공한다 지침을 활용하여 원하는 형식으로 보고서 내용을 생성합니다 이러한 생성 모델의 다음 기능. 우리의 접근 방식이 더 잘 달성된다 BERS 점수가 0.2865({\Delta} + 25.88%)이고 Semb 점수가 있는 임상 메트릭 0.4026({\Delta} + 6.31%)입니다. 우리의 접근 방식은 다양한 측면에서 광범위하게 관련될 수 있다 자동 방사선 보고서를 확대할 수 있는 임상 설정 해당 설정과 관련된 콘텐츠를 포함하는 생성 프로세스를 갖는 동시에 사용자 의도와 요구사항을 프롬프트에 주입할 수 있는 능력 생성된 내용 및 형식을 변조하는 보고서 생성 프로세스 해당 임상 환경에 해당하는 보고서. 

 

 

반응형

댓글