본문 바로가기
오늘의 자연어 처리

[2023-02-22] 오늘의 자연어처리

by 지환이아빠 2023. 2. 22.
반응형

HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained Transformers

 

Knowledge distillation has been shown to be a powerful model compression approach to facilitate the deployment of pre-trained language models in practice. This paper focuses on task-agnostic distillation. It produces a compact pre-trained model that can be easily fine-tuned on various tasks with small computational costs and memory footprints. Despite the practical benefits, task-agnostic distillation is challenging. Since the teacher model has a significantly larger capacity and stronger representation power than the student model, it is very difficult for the student to produce predictions that match the teacher's over a massive amount of open-domain training data. Such a large prediction discrepancy often diminishes the benefits of knowledge distillation. To address this challenge, we propose Homotopic Distillation (HomoDistil), a novel task-agnostic distillation approach equipped with iterative pruning. Specifically, we initialize the student model from the teacher model, and iteratively prune the student's neurons until the target width is reached. Such an approach maintains a small discrepancy between the teacher's and student's predictions throughout the distillation process, which ensures the effectiveness of knowledge transfer. Extensive experiments demonstrate that HomoDistil achieves significant improvements on existing baselines.

 

지식 증류는 강력한 모델 압축으로 나타났다 사전 훈련된 언어 모델의 배치를 용이하게 하는 접근법 연습을 하다. 이 논문은 작업에 구애받지 않는 증류에 중점을 둔다. 을 생성한다 다양한 작업에서 쉽게 미세 조정할 수 있는 컴팩트한 사전 훈련 모델 적은 계산 비용과 메모리 설치 공간. 실용성에도 불구하고 이점, 작업에 구애받지 않는 증류는 어렵다. 선생님 모델 이후로 용량이 훨씬 크고 표현력이 강합니다 학생 모델, 학생이 다음과 같은 예측을 하는 것은 매우 어렵다 방대한 양의 오픈 도메인 훈련 데이터에 대해 교사의 것과 일치한다. 그런거나 큰 예측 불일치는 종종 지식의 이점을 감소시킨다 증류. 이 과제를 해결하기 위해, 우리는 호모토픽 증류를 제안한다 (HomoDistil), 다음과 같은 새로운 작업 불가지론적 증류 접근법 반복적 가지치기. 구체적으로, 우리는 학생 모델을 초기화한다 교사 모델, 그리고 목표물까지 학생의 뉴런을 반복적으로 제거한다 너비에 도달했습니다. 그러한 접근법은 다음 사이의 작은 불일치를 유지한다 증류 과정을 통한 교사와 학생의 예측 지식 전달의 효과를 보장합니다. 광범위한 실험 HomoDistil이 기존의 것에 대해 상당한 개선을 달성한다는 것을 증명한다 기선. 

 

 

BBT-Fin: Comprehensive Construction of Chinese Financial Domain Pre-trained Language Model, Corpus and Benchmark

 

To advance Chinese financial natural language processing (NLP), we introduce BBT-FinT5, a new Chinese financial pre-training language model based on the T5 model. To support this effort, we have built BBT-FinCorpus, a large-scale financial corpus with approximately 300GB of raw text from four different sources. In general domain NLP, comprehensive benchmarks like GLUE and SuperGLUE have driven significant advancements in language model pre-training by enabling head-to-head comparisons among models. Drawing inspiration from these benchmarks, we propose BBT-CFLEB, a Chinese Financial Language understanding and generation Evaluation Benchmark, which includes six datasets covering both understanding and generation tasks. Our aim is to facilitate research in the development of NLP within the Chinese financial domain. Our model, corpus and benchmark are released at this https URL. Our work belongs to the Big Bang Transformer (BBT), a large-scale pre-trained language model project.

 

중국 금융 자연어 처리(NLP)를 발전시키기 위해, 우리는 소개한다 T5 기반의 새로운 중국 금융 사전 교육 언어 모델인 BBT-FinT5 모델. 이 노력을 지원하기 위해, 우리는 대규모 BBT-FinCorpus를 만들었다 4개의 서로 다른 원본 텍스트 약 300GB를 포함하는 재무 코퍼스 원천. 일반 도메인 NLP에서는 GLUE와 같은 포괄적인 벤치마크와 SuperGLUE는 언어 모델 사전 교육에서 상당한 발전을 주도했다 모델 간의 직접 비교를 가능하게 합니다. 다음에서 영감을 끌어오는 중 이러한 벤치마크, 우리는 중국 금융 언어인 BBT-CFLEB를 제안한다 6개의 데이터 세트를 포함하는 평가 벤치마크 이해 및 생성 이해 및 생성 작업을 모두 포함합니다. 우리의 목표는 다음을 용이하게 하는 것이다 중국 금융 영역 내에서 NLP 개발에 대한 연구. 우리들의 모델, 말뭉치 및 벤치마크는 다음에서 공개됩니다 이 https URL. 우리 작업은 대규모 사전 훈련된 언어 모델 프로젝트인 빅뱅 트랜스포머(BBT). 

 

 

Improving User Controlled Table-To-Text Generation Robustness

 

In this work we study user controlled table-to-text generation where users explore the content in a table by selecting cells and reading a natural language description thereof automatically produce by a natural language generator. Such generation models usually learn from carefully selected cell combinations (clean cell selections); however, in practice users may select unexpected, redundant, or incoherent cell combinations (noisy cell selections). In experiments, we find that models perform well on test sets coming from the same distribution as the train data but their performance drops when evaluated on realistic noisy user inputs. We propose a fine-tuning regime with additional user-simulated noisy cell selections. Models fine-tuned with the proposed regime gain 4.85 BLEU points on user noisy test cases and 1.4 on clean test cases; and achieve comparable state-of-the-art performance on the ToTTo dataset.

 

이 작업에서 우리는 사용자가 제어하는 테이블 대 텍스트 생성을 연구한다 셀을 선택하고 자연어를 읽음으로써 표의 내용을 탐구한다 자연어에 의해 자동적으로 생성되는 언어 기술 발전기. 이러한 세대 모델은 대개 신중하게 선택된 셀에서 학습합니다 조합(클린 셀 선택); 그러나 실제로 사용자는 예상치 못한, 중복된 또는 일관성 없는 셀 조합(셀 선택을 취소함). 실험에서, 우리는 모델들이 다음으로부터 오는 테스트 세트에서 잘 수행한다는 것을 발견했다 열차 데이터와 동일한 분포이지만 평가 시 성능이 저하됨 실제 노이즈가 많은 사용자 입력에 대해. 우리는 추가로 미세 조정 체제를 제안한다 노이즈가 많은 셀 선택 항목을 사용자가 지정합니다. 제안된 모델을 세부적으로 조정된 모델 사용자 소음 테스트 사례에서 정권이 4.85 BLEU 포인트를 획득하고 클린 테스트에서 1.4 포인트를 획득했습니다 사례; 그리고 ToTo에서 비슷한 최첨단 성능을 달성합니다 데이터 집합. 

 

 

반응형

댓글