본문 바로가기
오늘의 자연어 처리

[2022-11-20] 오늘의 자연어처리

by 지환이아빠 2022. 11. 20.
반응형

Zero-Shot Dynamic Quantization for Transformer Inference

 

We introduce a novel run-time method for significantly reducing the accuracy loss associated with quantizing BERT-like models to 8-bit integers. Existing methods for quantizing models either modify the training procedure,or they require an additional calibration step to adjust parameters that also requires a selected held-out dataset. Our method permits taking advantage of quantization without the need for these adjustments. We present results on several NLP tasks demonstrating the usefulness of this technique.

 

정확도를 크게 줄이기 위한 새로운 런타임 방법을 소개한다. BERT 유사 모델을 8비트 정수로 양자화하는 것과 관련된 손실. 존재하는 모델을 양자화하는 방법은 훈련 절차를 수정하거나, 또는 그것들. 또한 필요한 파라미터를 조정하기 위한 추가 보정 단계가 필요 선택된 보류 데이터 집합입니다. 우리의 방법은 다음을 이용하는 것을 허용한다. 이러한 조정이 필요 없는 양자화. 다음에 대한 결과를 제시합니다. 이 기술의 유용성을 입증하는 몇 가지 NLP 작업. 

 

 

Abstractive Summarization Guided by Latent Hierarchical Document Structure

 

Sequential abstractive neural summarizers often do not use the underlying structure in the input article or dependencies between the input sentences. This structure is essential to integrate and consolidate information from different parts of the text. To address this shortcoming, we propose a hierarchy-aware graph neural network (HierGNN) which captures such dependencies through three main steps: 1) learning a hierarchical document structure through a latent structure tree learned by a sparse matrix-tree computation; 2) propagating sentence information over this structure using a novel message-passing node propagation mechanism to identify salient information; 3) using graph-level attention to concentrate the decoder on salient information. Experiments confirm HierGNN improves strong sequence models such as BART, with a 0.55 and 0.75 margin in average ROUGE-1/2/L for CNN/DM and XSum. Further human evaluation demonstrates that summaries produced by our model are more relevant and less redundant than the baselines, into which HierGNN is incorporated. We also find HierGNN synthesizes summaries by fusing multiple source sentences more, rather than compressing a single source sentence, and that it processes long inputs more effectively.

 

순차적 추상 신경 요약자는 종종 기초를 사용하지 않는다. 입력 글의 구조 또는 입력 문장 사이의 종속성. 이 구조는 정보를 통합하고 통합하는 데 필수적이다. 텍스트의 다른 부분. 이 단점을 해결하기 위해, 우리는 다음을 제안한다. 이러한 종속성을 포착하는 계층 인식 그래프 신경망(HierGNN) 세 가지 주요 단계를 통해: 1) 계층적 문서 구조를 학습합니다. 희소 행렬 트리 계산에 의해 학습된 잠재 구조 트리; 2) 소설을 사용하여 이 구조에 대한 문장 정보 전파 중요한 정보를 식별하기 위한 메시지 전달 노드 전파 메커니즘; 3) 그래프 수준의 주의를 사용하여 디코더를 두드러진 정보에 집중시킨다. 실험은 HierGNN이 BART와 같은 강력한 시퀀스 모델을 개선한다는 것을 확인한다. CNN/DM 및 XSum의 경우 평균 ROUGE-1/2/L에서 0.55 및 0.75 마진. 더 인간의 평가는 우리의 모델에 의해 생산된 요약이 더 많다는 것을 증명한다. HierGNN이 포함된 기준선보다 관련성이 있고 중복성이 낮다. 법인의 우리는 또한 HierGNN이 여러 개를 융합하여 요약을 합성한다는 것을 발견했다. 단일 소스 문장을 압축하는 것보다 소스 문장을 더 많이, 그리고. 긴 입력을 더 효과적으로 처리합니다. 

 

 

Generative Adversarial Training Can Improve Neural Language Models

 

While deep learning in the form of recurrent neural networks (RNNs) has caused a significant improvement in neural language modeling, the fact that they are extremely prone to overfitting is still a mainly unresolved issue. In this paper we propose a regularization method based on generative adversarial networks (GANs) and adversarial training (AT), that can prevent overfitting in neural language models. Unlike common adversarial training methods such as the fast gradient sign method (FGSM) that require a second back-propagation through time, and therefore effectively require at least twice the amount of time for regular training, the overhead of our method does not exceed more than 20% of the training of the baselines.

 

반복 신경망(RNN)의 형태로 딥 러닝을 하는 동안 신경 언어 모델링의 중요한 개선을 야기했다, 사실은. 그들은 과적합에 극도로 취약한 것은 여전히 주로 해결되지 않은 문제이다. 인 본 논문에서는 생성적 적대성에 기초한 정규화 방법을 제안한다. 과적합을 방지할 수 있는 네트워크(GAN) 및 적대적 훈련(AT) 신경 언어 모델 일반적인 적대적 훈련 방법과 달리, 를 통해 두 번째 역 전파가 필요한 빠른 그레이디언트 부호 방법(FGSM 시간, 따라서 효과적으로 적어도 두 배의 시간을 필요로 한다. 정기적인 훈련, 우리 방법의 오버헤드는 20%를 초과하지 않는다. 기선의 훈련 

 

 

반응형

댓글