본문 바로가기
오늘의 자연어 처리

[2023-02-19] 오늘의 자연어처리

by 지환이아빠 2023. 2. 19.
반응형

Dialogue State Distillation Network with Inter-Slot Contrastive Learning for Dialogue State Tracking

 

In task-oriented dialogue systems, Dialogue State Tracking (DST) aims to extract users' intentions from the dialogue history. Currently, most existing approaches suffer from error propagation and are unable to dynamically select relevant information when utilizing previous dialogue states. Moreover, the relations between the updates of different slots provide vital clues for DST. However, the existing approaches rely only on predefined graphs to indirectly capture the relations. In this paper, we propose a Dialogue State Distillation Network (DSDN) to utilize relevant information of previous dialogue states and migrate the gap of utilization between training and testing. Thus, it can dynamically exploit previous dialogue states and avoid introducing error propagation simultaneously. Further, we propose an inter-slot contrastive learning loss to effectively capture the slot co-update relations from dialogue context. Experiments are conducted on the widely used MultiWOZ 2.0 and MultiWOZ 2.1 datasets. The experimental results show that our proposed model achieves the state-of-the-art performance for DST.

 

작업 지향 대화 시스템에서 대화 상태 추적(DST)은 다음을 목표로 한다 대화 내역에서 사용자의 의도를 추출합니다. 현재, 가장 많이 존재함 접근 방식은 오류 전파로 인해 어려움을 겪고 동적으로 선택할 수 없습니다 이전 대화 상태를 활용할 때 관련 정보. 게다가 서로 다른 슬롯의 업데이트 사이의 관계는 DST에 중요한 단서를 제공한다. 그러나 기존 접근 방식은 간접적으로 사전 정의된 그래프에만 의존한다 관계를 포착하다. 본 논문에서, 우리는 대화 상태 증류를 제안한다 이전 대화 상태의 관련 정보를 활용하는 네트워크(DSDN) 및 교육과 테스트 사이의 활용률 격차를 완화합니다. 그러므로, 할 수 있다 이전 대화 상태를 동적으로 활용하고 오류 발생을 방지합니다 동시 전파. 또한, 우리는 슬롯 간 대조를 제안한다 대화에서 슬롯 공동 업데이트 관계를 효과적으로 포착하기 위한 학습 손실 맥락. 널리 사용되는 MultiWOZ 2.0 및 Multi에 대한 실험이 수행됩니다WOZ 2.1 데이터 세트. 실험 결과는 우리의 제안된 모델이 달성한다는 것을 보여준다 DST를 위한 최첨단 공연. 

 

 

Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition

 

Visual Speech Recognition (VSR) aims to infer speech into text depending on lip movements alone. As it focuses on visual information to model the speech, its performance is inherently sensitive to personal lip appearances and movements, and this makes the VSR models show degraded performance when they are applied to unseen speakers. In this paper, to remedy the performance degradation of the VSR model on unseen speakers, we propose prompt tuning methods of Deep Neural Networks (DNNs) for speaker-adaptive VSR. Specifically, motivated by recent advances in Natural Language Processing (NLP), we finetune prompts on adaptation data of target speakers instead of modifying the pre-trained model parameters. Different from the previous prompt tuning methods mainly limited to Transformer variant architecture, we explore different types of prompts, the addition, the padding, and the concatenation form prompts that can be applied to the VSR model which is composed of CNN and Transformer in general. With the proposed prompt tuning, we show that the performance of the pre-trained VSR model on unseen speakers can be largely improved by using a small amount of adaptation data (e.g., less than 5 minutes), even if the pre-trained model is already developed with large speaker variations. Moreover, by analyzing the performance and parameters of different types of prompts, we investigate when the prompt tuning is preferred over the finetuning methods. The effectiveness of the proposed method is evaluated on both word- and sentence-level VSR databases, LRW-ID and GRID.

 

시각 음성 인식(VSR)은 음성을 텍스트로 추론하는 것을 목표로 한다 입술 동작만. 연설을 모델링하기 위해 시각적 정보에 초점을 맞추기 때문에, 그것의 성능은 본질적으로 개인적인 입술 모양에 민감하다 이로 인해 VSR 모델의 성능이 저하됩니다 보이지 않는 스피커에 적용됩니다. 본 문서에서는 성능을 개선하기 위해 보이지 않는 스피커에서 VSR 모델의 성능 저하, 신속한 튜닝을 제안한다 스피커 적응형 VSR을 위한 심층 신경망(DNN) 방법. 구체적으로 말하면, 자연어 처리(NLP)의 최근 발전에 의해 동기 부여되어, 우리는 미세 조정한다 대상 스피커의 적응 데이터에 대한 프롬프트를 수정하는 대신 사전 교육된 모델 매개 변수. 이전 프롬프트 튜닝 방법과 다릅니다 주로 트랜스포머 변형 아키텍처로 제한되며, 우리는 다양한 유형을 탐구한다 프롬프트, 추가, 패딩 및 연결 양식은 다음을 표시합니다 CNN과 Transformer로 구성된 VSR 모델에 적용할 수 있습니다 일반의. 제안된 프롬프트 튜닝을 통해, 우리는 의 성능을 보여준다 보이지 않는 스피커에서 사전 훈련된 VSR 모델은 크게 개선될 수 있다 작은 양의 적응 데이터(예: 5분 미만)는 다음과 같다 사전 훈련된 모델은 이미 큰 스피커 변형으로 개발되었다. 게다가. 다양한 유형의 프롬프트의 성능과 매개변수를 분석함으로써, 우리는 미세 조정 방법보다 빠른 조정이 선호되는 경우를 조사합니다. 제안된 방법의 효과는 단어와 에서 모두 평가된다 문장 수준 VSR 데이터베이스, LRW-ID 및 GRID. 

 

 

Do We Still Need Clinical Language Models?

 

Although recent advances in scaling large language models (LLMs) have resulted in improvements on many NLP tasks, it remains unclear whether these models trained primarily with general web text are the right tool in highly specialized, safety critical domains such as clinical text. Recent results have suggested that LLMs encode a surprising amount of medical knowledge. This raises an important question regarding the utility of smaller domain-specific language models. With the success of general-domain LLMs, is there still a need for specialized clinical models? To investigate this question, we conduct an extensive empirical analysis of 12 language models, ranging from 220M to 175B parameters, measuring their performance on 3 different clinical tasks that test their ability to parse and reason over electronic health records. As part of our experiments, we train T5-Base and T5-Large models from scratch on clinical notes from MIMIC III and IV to directly investigate the efficiency of clinical tokens. We show that relatively small specialized clinical models substantially outperform all in-context learning approaches, even when finetuned on limited annotated data. Further, we find that pretraining on clinical tokens allows for smaller, more parameter-efficient models that either match or outperform much larger language models trained on general text. We release the code and the models used under the PhysioNet Credentialed Health Data license and data use agreement.

 

비록 큰 언어 모델(LLM)을 확장하는 최근의 발전이 있었지만 결과적으로 많은 NLP 작업에 대한 개선이 이루어졌으며, 이것들의 여부는 여전히 불분명하다 주로 일반적인 웹 텍스트로 훈련된 모델은 매우 적합한 도구이다 임상 텍스트와 같은 안전에 중요한 전문 영역. 최근의 결과는 다음과 같다 LLM은 놀라운 양의 의학적 지식을 암호화한다고 제안했다. 이것. 더 작은 도메인 특정의 유용성에 관한 중요한 질문을 제기한다 언어 모델. 일반 도메인 LLM의 성공에도 불구하고, 여전히 필요가 있습니까 전문화된 임상 모델을 위해? 이 질문을 조사하기 위해, 우리는 다음을 수행한다 220M에서 175B에 이르는 12개 언어 모델에 대한 광범위한 경험적 분석 매개변수, 테스트하는 3가지 다른 임상 작업에 대한 성능 측정 전자 건강 기록을 분석하고 추론하는 그들의 능력. 의 일부로 우리의 실험은 임상에서 T5-Base 및 T5-Large 모델을 처음부터 훈련시킨다 임상의 효율성을 직접 조사하기 위한 MIMIC III 및 IV의 메모 토큰. 우리는 상대적으로 작은 전문 임상 모델이 실질적으로 제한적으로 미세 조정된 경우에도 모든 학습 접근 방식을 능가합니다 주석이 달린 데이터. 게다가, 우리는 임상 토큰에 대한 사전 훈련이 다음을 가능하게 한다는 것을 발견했다 더 작고 매개 변수 효율성이 높은 모델과 일치하거나 성능이 우수합니다 일반 텍스트에 대해 훈련된 더 큰 언어 모델. 우리는 코드와 PhysioNet Credentialed Health Data 라이센스 및 데이터 사용에 따라 사용되는 모델 동의. 

 

 

반응형

댓글