본문 바로가기
오늘의 자연어 처리

[2023-01-24] 오늘의 자연어처리

by 지환이아빠 2023. 1. 24.
반응형

Visual Writing Prompts: Character-Grounded Story Generation with Curated Image Sequences

 

Current work on image-based story generation suffers from the fact that the existing image sequence collections do not have coherent plots behind them. We improve visual story generation by producing a new image-grounded dataset, Visual Writing Prompts (VWP). VWP contains almost 2K selected sequences of movie shots, each including 5-10 images. The image sequences are aligned with a total of 12K stories which were collected via crowdsourcing given the image sequences and a set of grounded characters from the corresponding image sequence. Our new image sequence collection and filtering process has allowed us to obtain stories that are more coherent and have more narrativity compared to previous work. We also propose a character-based story generation model driven by coherence as a strong baseline. Evaluations show that our generated stories are more coherent, visually grounded, and have more narrativity than stories generated with the current state-of-the-art model.

 

이미지 기반 스토리 생성에 대한 현재 작업은 다음과 같은 사실로 인해 어려움을 겪고 있습니다 기존 이미지 시퀀스 컬렉션 뒤에 일관된 그림이 없습니다. 우리가 새로운 이미지 변환 데이터 세트를 생성하여 시각적 스토리 생성을 개선합니다, 시각적 쓰기 프롬프트(VWP). VWP는 거의 2K개의 선택된 시퀀스를 포함한다 각각 5-10개의 이미지를 포함한 영화 촬영. 영상 시퀀스는 a와 정렬됩니다 이미지가 주어진 클라우드 소싱을 통해 수집된 총 12,000개의 이야기 시퀀스 및 해당 이미지의 접지된 문자 집합 순서. 우리의 새로운 이미지 시퀀스 수집과 필터링 프로세스는 우리는 비교하여 더 일관성 있고 더 많은 내러티브를 가진 이야기를 얻기 위해 전작으로. 우리는 또한 캐릭터 기반 스토리 생성 모델을 제안한다 강한 기준선으로서의 일관성에 의해 추진됩니다. 평가에 따르면 우리가 생성한 이야기들은 더 일관성 있고, 시각적으로 근거가 있으며, 더 많은 내러티브를 가지고 있다 현재의 최첨단 모델로 만들어진 이야기들. 

 

 

JCSE: Contrastive Learning of Japanese Sentence Embeddings and Its Applications

 

Contrastive learning is widely used for sentence representation learning. Despite this prevalence, most studies have focused exclusively on English and few concern domain adaptation for domain-specific downstream tasks, especially for low-resource languages like Japanese, which are characterized by insufficient target domain data and the lack of a proper training strategy. To overcome this, we propose a novel Japanese sentence representation framework, JCSE (derived from ``Contrastive learning of Sentence Embeddings for Japanese''), that creates training data by generating sentences and synthesizing them with sentences available in a target domain. Specifically, a pre-trained data generator is finetuned to a target domain using our collected corpus. It is then used to generate contradictory sentence pairs that are used in contrastive learning for adapting a Japanese language model to a specific task in the target domain. Another problem of Japanese sentence representation learning is the difficulty of evaluating existing embedding methods due to the lack of benchmark datasets. Thus, we establish a comprehensive Japanese Semantic Textual Similarity (STS) benchmark on which various embedding models are evaluated. Based on this benchmark result, multiple embedding methods are chosen and compared with JCSE on two domain-specific tasks, STS in a clinical domain and information retrieval in an educational domain. The results show that JCSE achieves significant performance improvement surpassing direct transfer and other training strategies. This empirically demonstrates JCSE's effectiveness and practicability for downstream tasks of a low-resource language.

 

대조 학습은 문장 표현 학습에 널리 사용된다. 이러한 유행에도 불구하고, 대부분의 연구들은 오로지 영어와 특히 도메인별 다운스트림 작업에 대한 도메인 적응과 관련된 것은 거의 없다 일본어와 같은 저자원 언어의 경우, 다음과 같은 특징이 있습니다 대상 도메인 데이터가 부족하고 적절한 교육 전략이 부족합니다. 로. 이를 극복하고, 우리는 새로운 일본어 문장 표현 프레임워크를 제안한다, JCSE(다음에 대한 문장 임베딩의 대조 학습에서 파생됨) 일본어'), 문장을 생성하여 훈련 데이터를 생성하고 대상 도메인에서 사용할 수 있는 문장으로 합성합니다. 구체적으로, a 사전 훈련된 데이터 생성기는 수집된 데이터를 사용하여 대상 도메인에 미세 조정됩니다 말뭉치. 그리고 나서 그것은 사용되는 모순된 문장 쌍을 생성하기 위해 사용된다 일본어 모델을 특정한 것에 적응시키기 위한 대조적인 학습에서 대상 도메인의 작업입니다. 일본어 문장 표현 학습의 또 다른 문제는 의 부족으로 인해 기존 임베딩 방법을 평가하는 것의 어려움 벤치마크 데이터셋. 따라서, 우리는 포괄적인 일본어 의미론을 확립한다 다양한 임베딩 모델이 있는 텍스트 유사성(STS) 벤치마크 평가된. 이 벤치마크 결과에 기초하여, 다중 임베딩 방법은 다음과 같다 임상에서 STS라는 두 가지 영역별 작업에서 JCSE와 선택되고 비교된다 교육 영역에서의 도메인 및 정보 검색. 결과는 다음과 같다 JCSE가 직접적인 성능을 능가하는 상당한 성능 향상을 달성함 이동 및 기타 교육 전략. 이것은 JCSE의 것을 경험적으로 보여준다 낮은 리소스의 다운스트림 작업에 대한 효과 및 실행 가능성 언어. 

 

 

A Cohesive Distillation Architecture for Neural Language Models

 

A recent trend in Natural Language Processing is the exponential growth in Language Model (LM) size, which prevents research groups without a necessary hardware infrastructure from participating in the development process. This study investigates methods for Knowledge Distillation (KD) to provide efficient alternatives to large-scale models. In this context, KD means extracting information about language encoded in a Neural Network and Lexical Knowledge Databases. We developed two methods to test our hypothesis that efficient architectures can gain knowledge from LMs and extract valuable information from lexical sources. First, we present a technique to learn confident probability distribution for Masked Language Modeling by prediction weighting of multiple teacher networks. Second, we propose a method for Word Sense Disambiguation (WSD) and lexical KD that is general enough to be adapted to many LMs. Our results show that KD with multiple teachers leads to improved training convergence. When using our lexical pre-training method, LM characteristics are not lost, leading to increased performance in Natural Language Understanding (NLU) tasks over the state-of-the-art while adding no parameters. Moreover, the improved semantic understanding of our model increased the task performance beyond WSD and NLU in a real-problem scenario (Plagiarism Detection). This study suggests that sophisticated training methods and network architectures can be superior over scaling trainable parameters. On this basis, we suggest the research area should encourage the development and use of efficient models and rate impacts resulting from growing LM size equally against task performance.

 

자연어 처리의 최근 추세는 기하급수적인 성장이다 LM(Language Model) 크기로 필요 없이 연구 그룹을 차단합니다 하드웨어 인프라가 개발 프로세스에 참여하는 것을 방지합니다. 이것. 연구는 효율적으로 제공하기 위한 지식 증류(KD) 방법을 조사한다 대규모 모델에 대한 대안. 이 맥락에서, KD는 추출하는 것을 의미한다 신경망과 어휘 지식에 암호화된 언어에 대한 정보 데이터베이스. 우리는 효율적인 우리의 가설을 시험하기 위해 두 가지 방법을 개발했다 건축은 LM으로부터 지식을 얻고 가치있는 정보를 추출할 수 있다 어휘 자료. 먼저, 우리는 자신감 있는 확률을 학습하는 기술을 제시한다 다중 예측 가중치에 의한 복면 언어 모델링 분포 교사 네트워크. 둘째, 우리는 단어 의미 명확화를 위한 방법을 제안한다 (WSD)와 많은 LM에 적응할 수 있을 만큼 충분히 일반적인 어휘 KD. 우리의 결과는 여러 명의 교사가 있는 KD가 향상된 훈련으로 이어진다는 것을 보여준다 수렴. 어휘 사전 훈련 방법을 사용할 때, LM 특성은 다음과 같다 손실되지 않아 자연어 이해 성능 향상으로 이어집니다 매개 변수를 추가하지 않으면서 최첨단 기술을 통한 (NLU) 작업. 게다가 우리 모델에 대한 향상된 의미 이해는 작업 성능을 증가시켰다 실제 문제 시나리오에서 WSD와 NLU를 넘어선다(표절 검출). 이것. 연구는 정교한 훈련 방법과 네트워크 아키텍처를 제안한다 훈련 가능한 매개 변수를 확장하는 것보다 우수할 수 있습니다. 이를 근거로, 우리는 다음을 제안한다 연구 분야는 효율적인 모델의 개발과 사용을 장려해야 한다 그리고 LM 크기 증가로 인한 영향을 작업에 대해 동일하게 평가한다 성능. 

 

 

반응형

댓글