본문 바로가기
오늘의 자연어 처리

[2024-01-01] 오늘의 자연어처리

by 지환이아빠 2024. 1. 1.
반응형

OmniDialog: An Omnipotent Pre-training Model for Task-Oriented Dialogue System

 

Abstract:Pre-trained conversation models (PCMs) have demonstrated remarkable results in task-oriented dialogue (TOD) systems. Many PCMs focus predominantly on dialogue management tasks like dialogue state tracking, dialogue generation tasks like response generation, or both. However, the existing PCMs seldom consider dialogue comprehension tasks, such as dialogue question answering and summarization tasks. These tasks allow PCMs to glean dialogue context from various angles. This observation naturally raises the question: Can the performance of downstream dialogue tasks be enhanced if a PCM is pre-trained on dialogue management, generation, and comprehension tasks? To investigate this, we proposed an Omnipotent Dialogue pre-training model (OmniDialog). It unifies these three dialogue tasks into a monolithic framework by multi-task learning, fostering inter-task communication. The pre-training corpus of OmniDialog spans $\mathbf{7}$ dialogue-focused tasks, drawing from $\mathbf{15}$ datasets and encompassing over $\mathbf{3.2}$ million dialogue utterances. To our knowledge, OmniDialog is a pioneering PCM pre-trained across dialogue management, generation, and comprehension domains. We evaluated its performance across four tasks: dialogue summarization, end-to-end dialogue modeling, dialogue state tracking, and intent classification. The results underscore its efficacy in domain transfer learning, low-resource, and full-dataset scenarios. Furthermore, to glean a nuanced understanding of OmniDialog's strengths and potential pitfalls, we designed a fine-grained analysis framework for dialogue-centric tasks. Experimental results show that the OmniDialog is good at hard samples, such as long dialogues and lengthy responses.

 

추상화:사전 훈련된 대화 모델(PCM)은 작업 지향 대화(TOD) 시스템에서 놀라운 결과를 보여주었다. 많은 PCM은 주로 대화 상태 추적과 같은 대화 관리 작업, 응답 생성과 같은 대화 생성 작업 또는 둘 다에 초점을 맞추고 있다. 그러나 기존 PCM은 대화 질문 답변, 요약 과제 등 대화 이해 과제를 거의 고려하지 않고 있다. 이러한 작업을 통해 PCM은 대화 맥락을 다양한 각도에서 파악할 수 있다. 이러한 관찰은 자연스럽게 PCM이 대화 관리, 생성, 이해 과제에 대해 사전 교육을 받는다면 다운스트림 대화 과제의 수행을 높일 수 있는가라는 질문을 던진다? 이를 조사하기 위해 전능한 대화 사전 훈련 모델(OmniDialog)을 제안하였다. 이 세 가지 대화 과제를 멀티태스킹 학습, 과제 간 의사소통을 촉진함으로써 일원적인 틀로 통일한다. OmniDialog의 사전 교육 코퍼스는 $\mathbf{7}$ 대화 중심 작업에 걸쳐 있으며 $\mathbf{15}$ 데이터 세트에서 추출하고 $\mathbf{3 이상을 포괄한다.2}백만 달러의 대화 발언. 우리가 아는 한, OmniDialog는 대화 관리, 생성 및 이해 영역에 걸쳐 사전에 훈련된 선구적인 PCM이다. 대화 요약, 엔드 투 엔드 대화 모델링, 대화 상태 추적 및 의도 분류의 네 가지 작업에 걸쳐 그 성능을 평가했다. 결과는 도메인 전송 학습, 저자원 및 전체 데이터 세트 시나리오에서의 효과를 강조한다. 또한 OmniDialog의 장점과 잠재적 함정에 대한 미묘한 이해를 얻기 위해 대화 중심 작업에 대한 세분화된 분석 프레임워크를 설계했다. 실험 결과, 옴니대화는 긴 대화와 긴 반응 등 딱딱한 표본에 능한 것으로 나타났다. 

 

 

Hiding in Plain Sight: Towards the Science of Linguistic Steganography

 

Abstract:Covert communication (also known as steganography) is the practice of concealing a secret inside an innocuous-looking public object (cover) so that the modified public object (covert code) makes sense to everyone but only someone who knows the code can extract the secret (message). Linguistic steganography is the practice of encoding a secret message in natural language text such as spoken conversation or short public communications such as tweets.. While ad hoc methods for covert communications in specific domains exist ( JPEG images, Chinese poetry, etc), there is no general model for linguistic steganography specifically. We present a novel mathematical formalism for creating linguistic steganographic codes, with three parameters: Decodability (probability that the receiver of the coded message will decode the cover correctly), density (frequency of code words in a cover code), and detectability (probability that an attacker can tell the difference between an untampered cover compared to its steganized version). Verbal or linguistic steganography is most challenging because of its lack of artifacts to hide the secret message in. We detail a practical construction in Python of a steganographic code for Tweets using inserted words to encode hidden digits while using n-gram frequency distortion as the measure of detectability of the insertions. Using the publicly accessible Stanford Sentiment Analysis dataset we implemented the tweet steganization scheme -- a codeword (an existing word in the data set) inserted in random positions in random existing tweets to find the tweet that has the least possible n-gram distortion. We argue that this approximates KL distance in a localized manner at low cost and thus we get a linguistic steganography scheme that is both formal and practical and permits a tradeoff between codeword density and detectability of the covert message.

 

추상화:비밀 통신(secret communication, 스테가노그래피)은 악의 없는 것처럼 보이는 공공 객체(cover) 안에 비밀을 숨겨서 코드를 아는 사람만이 비밀(메시지)을 추출할 수 있도록 하는 행위이다. 언어학적 스테가노그래피는 음성 대화와 같은 자연어 텍스트 또는 트윗과 같은 짧은 공중 통신으로 비밀 메시지를 인코딩하는 관행이다.. 특정 영역에서 은밀한 커뮤니케이션을 위한 임시 방법(JPEG 이미지, 한시 등)이 존재하지만 언어 스테가노그래피에 대한 일반적인 모델은 구체적으로 존재하지 않는다. 우리는 언어적 스테가노그래픽 코드를 만들기 위한 새로운 수학적 형식론을 제시하며, 세 가지 매개변수를 가지고 있다: 디코딩 가능성(부호화된 메시지의 수신자가 커버를 정확하게 디코딩할 확률), 밀도(커버 코드 내 코드 워드의 빈도), 검출 가능성(공격자가 자신의 스테가니즈화된 버전과 비교하여 변조되지 않은 커버의 차이를 구별할 수 있는 확률). 언어적 또는 언어적 스테가노그래피는 비밀의 메시지를 숨길 수 있는 인공물이 없기 때문에 가장 어렵다. 삽입의 탐지 가능성을 측정하기 위해 n-그램 주파수 왜곡을 사용하는 동시에 숨겨진 숫자를 인코딩하기 위해 삽입된 단어를 사용하는 트윗용 스테가노그래픽 코드의 파이썬에서의 실용적인 구성에 대해 자세히 설명한다. 공개적으로 접근 가능한 스탠포드 감성 분석 데이터 세트를 사용하여 n그램 왜곡이 가장 적은 트윗을 찾기 위해 무작위 기존 트윗의 무작위 위치에 삽입된 코드워드(데이터 세트의 기존 단어)인 트윗 스테그니션 방식을 구현했다. 우리는 이것이 저비용으로 현지화된 방식으로 KL 거리를 근사하므로 공식적이고 실용적이며 비밀 메시지의 코드 밀도와 탐지 가능성 사이의 절충을 허용하는 언어적 스테가노그래피 체계를 얻을 수 있다고 주장한다. 

 

 

Few-shot learning for automated content analysis: Efficient coding of arguments and claims in the debate on arms deliveries to Ukraine

 

Abstract:Pre-trained language models (PLM) based on transformer neural networks developed in the field of natural language processing (NLP) offer great opportunities to improve automatic content analysis in communication science, especially for the coding of complex semantic categories in large datasets via supervised machine learning. However, three characteristics so far impeded the widespread adoption of the methods in the applying disciplines: the dominance of English language models in NLP research, the necessary computing resources, and the effort required to produce training data to fine-tune PLMs. In this study, we address these challenges by using a multilingual transformer model in combination with the adapter extension to transformers, and few-shot learning methods. We test our approach on a realistic use case from communication science to automatically detect claims and arguments together with their stance in the German news debate on arms deliveries to Ukraine. In three experiments, we evaluate (1) data preprocessing strategies and model variants for this task, (2) the performance of different few-shot learning methods, and (3) how well the best setup performs on varying training set sizes in terms of validity, reliability, replicability and reproducibility of the results. We find that our proposed combination of transformer adapters with pattern exploiting training provides a parameter-efficient and easily shareable alternative to fully fine-tuning PLMs. It performs on par in terms of validity, while overall, provides better properties for application in communication studies. The results also show that pre-fine-tuning for a task on a near-domain dataset leads to substantial improvement, in particular in the few-shot setting. Further, the results indicate that it is useful to bias the dataset away from the viewpoints of specific prominent individuals.

 

추상화:자연어 처리(NLP) 분야에서 개발된 트랜스포머 신경망을 기반으로 한 사전 훈련된 언어 모델(PLM)은 통신 과학의 자동 콘텐츠 분석, 특히 지도 기계 학습을 통해 대규모 데이터 세트의 복잡한 의미 범주의 코딩을 개선할 수 있는 좋은 기회를 제공한다. 그러나 지금까지 NLP 연구에서 영어 언어 모델의 우세, 필요한 컴퓨팅 자원, PLM을 미세 조정하기 위한 훈련 데이터를 생성하는 데 필요한 노력 등 세 가지 특성이 적용 분야에서 방법의 광범위한 채택을 방해했다. 본 연구에서는, 우리는 다국어 트랜스포머 모델을 트랜스포머에 대한 어댑터 확장과 퓨샷 학습 방법과 함께 사용하여 이러한 문제를 해결한다. 우리는 우크라이나에 무기를 전달하는 독일 뉴스 토론에서 그들의 입장과 함께 주장과 주장을 자동으로 감지하기 위해 통신 과학의 현실적인 사용 사례에 대한 우리의 접근 방식을 시험한다. 세 가지 실험에서 우리는 (1) 이 작업에 대한 데이터 전처리 전략과 모델 변형, (2) 다양한 퓨샷 학습 방법의 성능, (3) 결과의 타당성, 신뢰성, 복제성 및 재현성 측면에서 다양한 훈련 세트 크기에서 최상의 설정이 얼마나 잘 수행되는지 평가한다. 저희는 제안된 트랜스포머 어댑터와 패턴 활용 훈련의 조합이 PLM을 완전히 미세 조정하는 매개 변수 효율적이고 쉽게 공유할 수 있는 대안을 제공한다는 것을 발견했습니다. 타당성 측면에서는 동등한 성능을 발휘하지만 전반적으로 통신 연구에 적용하기에 더 나은 속성을 제공합니다. 결과는 또한 거의 도메인 데이터 세트에서 작업을 위한 사전 미세 조정이 특히 몇 번의 촬영 설정에서 상당한 개선으로 이어진다는 것을 보여준다. 또한 결과는 데이터 세트를 특정 저명한 개인의 관점에서 편향시키는 것이 유용하다는 것을 나타낸다. 

 

 

반응형

댓글