본문 바로가기
오늘의 자연어 처리

[2022-12-25] 오늘의 자연어처리

by 지환이아빠 2022. 12. 25.
반응형

GENIE: Large Scale Pre-training for Text Generation with Diffusion Model

 

In this paper, we propose a large-scale language pre-training for text GENeration using dIffusion modEl, which is named GENIE. GENIE is a pre-training sequence-to-sequence text generation model which combines Transformer and diffusion. The diffusion model accepts the latent information from the encoder, which is used to guide the denoising of the current time step. After multiple such denoise iterations, the diffusion model can restore the Gaussian noise to the diverse output text which is controlled by the input text. Moreover, such architecture design also allows us to adopt large scale pre-training on the GENIE. We propose a novel pre-training method named continuous paragraph denoise based on the characteristics of the diffusion model. Extensive experiments on the XSum, CNN/DailyMail, and Gigaword benchmarks shows that GENIE can achieves comparable performance with various strong baselines, especially after pre-training, the generation quality of GENIE is greatly improved. We have also conduct a lot of experiments on the generation diversity and parameter impact of GENIE. The code for GENIE will be made publicly available.

 

본 논문에서는 텍스트에 대한 대규모 언어 사전 훈련을 제안한다. GENEY라는 이름의 dIfusion modEl을 사용한 GENERATION. GENE는 사전 교육입니다. Transformer와 sequence-to-sequence 텍스트 생성 모델을 결합합니다. 확산 확산 모델은 인코더의 잠재 정보를 받아들인다. 현재 시간 단계의 노이즈 제거를 안내하는 데 사용됩니다. 배수 후 그러한 잡음 제거 반복, 확산 모델은 가우스 잡음을 다음과 같이 복원할 수 있다. 입력 텍스트에 의해 제어되는 다양한 출력 텍스트. 게다가, 그런 아키텍처 설계는 또한 우리가 대규모 사전 교육을 채택할 수 있도록 한다. GENIE. 우리는 연속 단락이라는 새로운 사전 훈련 방법을 제안한다. 확산 모델의 특성에 기초한 노이즈 제거. 광범위한 XSum, CNN/DailyMail 및 Gigaword 벤치마크에 대한 실험은 다음을 보여줍니다. GENIE는 다양한 강력한 기준선과 비슷한 성능을 달성할 수 있다. 특히 사전 교육 후 GENIE의 생성 품질은 매우 높습니다. 개선된. 우리는 또한 세대 다양성에 대한 많은 실험을 수행했다. 그리고 GENIE의 매개변수 영향. GENIE의 코드는 공개될 것이다. 이용할 수 있는. 

 

 

Efficient Induction of Language Models Via Probabilistic Concept Formation

 

This paper presents a novel approach to the acquisition of language models from corpora. The framework builds on Cobweb, an early system for constructing taxonomic hierarchies of probabilistic concepts that used a tabular, attribute-value encoding of training cases and concepts, making it unsuitable for sequential input like language. In response, we explore three new extensions to Cobweb -- the Word, Leaf, and Path variants. These systems encode each training case as an anchor word and surrounding context words, and they store probabilistic descriptions of concepts as distributions over anchor and context information. As in the original Cobweb, a performance element sorts a new instance downward through the hierarchy and uses the final node to predict missing features. Learning is interleaved with performance, updating concept probabilities and hierarchy structure as classification occurs. Thus, the new approaches process training cases in an incremental, online manner that it very different from most methods for statistical language learning. We examine how well the three variants place synonyms together and keep homonyms apart, their ability to recall synonyms as a function of training set size, and their training efficiency. Finally, we discuss related work on incremental learning and directions for further research.

 

이 논문은 언어 모델 획득에 대한 새로운 접근법을 제시한다. 말뭉치에서 이 프레임워크는 초기 구성 시스템인 Cobweb을 기반으로 한다. 표를 사용한 확률론적 개념의 분류학적 계층. 교육 사례 및 개념의 속성-값 인코딩, 적합하지 않음 언어와 같은 순차적 입력을 위해. 이에 대응하여, 우리는 세 가지 새로운 것을 탐구한다. 웹 확장 - Word, Leaf 및 Path 변형. 이 시스템들은 인코딩한다. 각각의 훈련 사례를 앵커 워드 및 주변 문맥 워드로, 그리고 그것들 개념에 대한 확률론적 설명을 앵커를 통한 분포로 저장하고 문맥 정보 오리지널 웹에서와 마찬가지로 성능 요소는 a를 분류한다. 계층을 통해 아래쪽으로 향하는 새로운 인스턴스와 예측하기 위해 최종 노드를 사용합니다. 누락된 기능 학습은 성능, 업데이트 개념과 연동됩니다. 분류가 발생함에 따라 확률과 계층 구조. 그러므로, 새로운 것은 접근법은 그것이 매우 점진적이고 온라인 방식으로 훈련 사례를 처리한다. 통계 언어 학습을 위한 대부분의 방법들과 다르다. 우리는 방법을 조사한다. 음, 세 가지 변형은 동의어를 함께 배치하고 동음이의어를 분리합니다, 그들의. 훈련 세트 크기의 함수로서 동의어를 기억하는 능력과 그들의 훈련 효율 마지막으로, 우리는 증분 학습에 대한 관련 작업에 대해 논의한다. 그리고 추가 연구를 위한 지침. 

 

 

Parallel Context Windows Improve In-Context Learning of Large Language Models

 

For applications that require processing large amounts of text at inference time, Large Language Models (LLMs) are handicapped by their limited context windows, which are typically 2048 tokens. In-context learning, an emergent phenomenon in LLMs in sizes above a certain parameter threshold, constitutes one significant example because it can only leverage training examples that fit into the context window. Existing efforts to address the context window limitation involve training specialized architectures, which tend to be smaller than the sizes in which in-context learning manifests due to the memory footprint of processing long texts. We present Parallel Context Windows (PCW), a method that alleviates the context window restriction for any off-the-shelf LLM without further training. The key to the approach is to carve a long context into chunks (``windows'') that fit within the architecture, restrict the attention mechanism to apply only within each window, and re-use the positional embeddings among the windows. We test the PCW approach on in-context learning with models that range in size between 750 million and 178 billion parameters, and show substantial improvements for tasks with diverse input and output spaces. Our results motivate further investigation of Parallel Context Windows as a method for applying off-the-shelf LLMs in other settings that require long text sequences.

 

추론 시 많은 양의 텍스트를 처리해야 하는 응용프로그램의 경우 시간, LLM(Large Language Model)은 제한된 컨텍스트로 인해 장애가 있습니다. 일반적으로 2048개의 토큰을 사용합니다. 상황에 맞는 학습, 긴급 상황 특정 매개 변수 임계값 이상의 크기의 LLM에서 발생하는 현상, 구성 하나의 중요한 예는 적합한 교육 사례만 활용할 수 있기 때문입니다. 컨텍스트 창으로 이동합니다. 컨텍스트 창을 해결하기 위한 기존 노력 제한은 더 작은 경향이 있는 전문 아키텍처를 훈련하는 것을 포함한다. 기억력 때문에 교내 학습이 나타나는 크기보다 긴 텍스트를 처리하는 데 필요한 공간 우리는 병렬 컨텍스트 윈도우(PCW)를 제시한다. 기성품에 대한 컨텍스트 창 제한을 완화하는 방법 추가 교육 없이 LLM. 이 접근법의 핵심은 따라가는 것이다. 컨텍스트를 아키텍처 내에 맞는 청크('창')로 변환, 제한 주의 메커니즘은 각 창 내에서만 적용되며, 다시 사용할 수 있습니다. 창문 사이의 위치 고정 장치 우리는 상황에 따라 PCW 접근 방식을 테스트한다. 7억 5천만에서 1780억 사이의 크기의 모델을 사용하여 학습합니다. 매개변수, 다양한 입력이 있는 작업에 대한 상당한 개선을 보여준다. 출력 공간 우리의 결과는 병렬 컨텍스트에 대한 추가 조사에 동기를 부여한다. 다른 설정에서 기성 LLM을 적용하기 위한 방법으로서의 윈도우즈 긴 텍스트 시퀀스가 필요합니다. 

 

 

반응형

댓글