본문 바로가기
오늘의 자연어 처리

[2023-02-01] 오늘의 자연어처리

by 지환이아빠 2023. 2. 1.
반응형

Knowledge Transfer from Pre-trained Language Models to Cif-based Speech Recognizers via Hierarchical Distillation

 

Large-scale pre-trained language models (PLMs) with powerful language modeling capabilities have been widely used in natural language processing. For automatic speech recognition (ASR), leveraging PLMs to improve performance has also become a promising research trend. However, most previous works may suffer from the inflexible sizes and structures of PLMs, along with the insufficient utilization of the knowledge in PLMs. To alleviate these problems, we propose the hierarchical knowledge distillation on the continuous integrate-and-fire (CIF) based ASR models. Specifically, we distill the knowledge from PLMs to the ASR model by applying cross-modal distillation with contrastive loss at the acoustic level and applying distillation with regression loss at the linguistic level. On the AISHELL-1 dataset, our method achieves 15% relative error rate reduction over the original CIF-based model and achieves comparable performance (3.8%/4.1% on dev/test) to the state-of-the-art model.

 

강력한 언어를 갖춘 대규모 사전 훈련된 언어 모델(PLM) 모델링 기능은 자연어 처리에 널리 사용되어 왔다. 위해서 자동 음성 인식(ASR), 성능 향상을 위한 PLM 활용 또한 유망한 연구 트렌드가 된다. 그러나 대부분의 이전 작품들은 어려움을 겪을 수 있다 PLM의 유연하지 않은 크기와 구조, 그리고 불충분한 것들로부터 PLM의 지식 활용. 이러한 문제를 완화하기 위해, 우리는 제안한다 연속 통합과 화재에 대한 계층적 지식 증류 (CIF) 기반 ASR 모델. 구체적으로, 우리는 PLM에서 얻은 지식을 다음과 같이 증류한다 ASR 모델은 대조 손실을 가진 교차 양식 증류를 적용한다 음향 수준 및 언어학적 회귀 손실이 있는 증류 적용 레벨. AISHELL-1 데이터 세트에서, 우리의 방법은 15%의 상대 오류율을 달성한다 원래 CIF 기반 모델에 비해 감소하고 유사한 성능을 달성합니다 (개발/테스트 시 3.8%/4.1%)를 최신 모델에 적용합니다. 

 

 

GE-Blender: Graph-Based Knowledge Enhancement for Blender

 

Although the great success of open-domain dialogue generation, unseen entities can have a large impact on the dialogue generation task. It leads to performance degradation of the model in the dialog generation. Previous researches used retrieved knowledge of seen entities as the auxiliary data to enhance the representation of the model. Nevertheless, logical explanation of unseen entities remains unexplored, such as possible co-occurrence or semantically similar words of them and their entity category. In this work, we propose an approach to address the challenge above. We construct a graph by extracting entity nodes in them, enhancing the representation of the context of the unseen entity with the entity's 1-hop surrounding nodes. Furthermore, We added the named entity tag prediction task to apply the problem that the unseen entity does not exist in the graph. We conduct our experiments on an open dataset Wizard of Wikipedia and the empirical results indicate that our approach outperforms the state-of-the-art approaches on Wizard of Wikipedia.

 

오픈 도메인 대화 생성의 큰 성공에도 불구하고, 보이지 않는다 엔티티는 대화 생성 작업에 큰 영향을 미칠 수 있습니다. 로 이어지다 대화 상자 생성에서 모델의 성능 저하. 이전의 본 개체에 대한 검색된 지식을 보조 데이터로 사용한 연구 모델의 표현력을 높이다. 그럼에도 불구하고, 논리적인 설명은 보이지 않는 실체는 가능한 동시 발생이나 같은 미개척 상태로 남아 있다 의미론적으로 유사한 단어들과 그들의 실체 범주. 이 작품에서 우리는 위의 과제를 해결하기 위한 접근법을 제안합니다. 우리는 다음과 같이 그래프를 구성한다 엔티티 노드를 추출하여 컨텍스트의 표현을 향상시킵니다 엔티티의 1홉 주변 노드가 있는 보이지 않는 엔티티. 게다가, 우리는 보이지 않는 문제를 적용하기 위해 명명된 엔티티 태그 예측 작업을 추가했습니다 도면요소가 그래프에 없습니다. 우리는 공개된 장소에서 실험을 수행한다 데이터 세트 위키피디아의 마법사와 경험적 결과는 우리의 접근 방식은 위키피디아의 마법사의 최첨단 접근 방식을 능가한다. 

 

 

Crawling the Internal Knowledge-Base of Language Models

 

Language models are trained on large volumes of text, and as a result their parameters might contain a significant body of factual knowledge. Any downstream task performed by these models implicitly builds on these facts, and thus it is highly desirable to have means for representing this body of knowledge in an interpretable way. However, there is currently no mechanism for such a representation. Here, we propose to address this goal by extracting a knowledge-graph of facts from a given language model. We describe a procedure for ``crawling'' the internal knowledge-base of a language model. Specifically, given a seed entity, we expand a knowledge-graph around it. The crawling procedure is decomposed into sub-tasks, realized through specially designed prompts that control for both precision (i.e., that no wrong facts are generated) and recall (i.e., the number of facts generated). We evaluate our approach on graphs crawled starting from dozens of seed entities, and show it yields high precision graphs (82-92%), while emitting a reasonable number of facts per entity.

 

언어 모델은 많은 양의 텍스트에 대해 훈련되고, 결과적으로 그것들은 매개변수에는 상당한 사실적 지식이 포함될 수 있습니다. 조금도 이러한 모델에 의해 수행되는 다운스트림 작업은 암시적으로 이러한 사실을 기반으로 한다 그러므로 이 몸을 대표하는 수단을 갖는 것은 매우 바람직하다 이해할 수 있는 지식. 그러나, 현재 에 대한 메커니즘은 없습니다 그런 표상. 여기서, 우리는 a를 추출함으로써 이 목표를 해결할 것을 제안한다 주어진 언어 모델의 사실에 대한 지식 그래프. 절차를 설명합니다 언어 모델의 내부 지식 기반을 '''확장'''하기 위해. 구체적으로 말하면, 시드 엔티티가 주어지면, 우리는 그 주변으로 지식 그래프를 확장한다. 크롤링 절차는 하위 단계로 분해되며, 특수 설계를 통해 실현된다 두 가지 정밀도를 모두 제어하는 프롬프트(즉, 잘못된 사실이 없음) 생성됨) 및 리콜(즉, 생성된 사실의 수). 우리는 우리의 수십 개의 시드 엔티티에서 시작하여 그래프에 대한 접근법을 보여줍니다 높은 정밀도의 그래프(82-92%)를 산출하는 동시에 합리적인 수의 그래프를 방출한다 실체별 사실. 

 

 

반응형

댓글