본문 바로가기
오늘의 자연어 처리

[2022-10-01] 오늘의 자연어처리

by 지환이아빠 2022. 10. 1.
반응형

ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers for Streaming Speech Recognition

 

The recurrent neural network transducer (RNN-T) is a prominent streaming end-to-end (E2E) ASR technology. In RNN-T, the acoustic encoder commonly consists of stacks of LSTMs. Very recently, as an alternative to LSTM layers, the Conformer architecture was introduced where the encoder of RNN-T is replaced with a modified Transformer encoder composed of convolutional layers at the frontend and between attention layers. In this paper, we introduce a new streaming ASR model, Convolutional Augmented Recurrent Neural Network Transducers (ConvRNN-T) in which we augment the LSTM-based RNN-T with a novel convolutional frontend consisting of local and global context CNN encoders. ConvRNN-T takes advantage of causal 1-D convolutional layers, squeeze-and-excitation, dilation, and residual blocks to provide both global and local audio context representation to LSTM layers. We show ConvRNN-T outperforms RNN-T, Conformer, and ContextNet on Librispeech and in-house data. In addition, ConvRNN-T offers less computational complexity compared to Conformer. ConvRNN-T's superior accuracy along with its low footprint make it a promising candidate for on-device streaming ASR technologies.

 

반복 신경망 변환기(RNN-T)는 눈에 띄는 스트리밍이다. 엔드 투 엔드(E2E) ASR 기술. RNN-T에서 음향 인코더는 일반적으로 LSTM의 스택으로 구성됩니다. 매우 최근에 LSTM 레이어의 대안으로, Conformer 아키텍처는 RNN-T의 인코더가 있는 곳에 도입되었습니다. 컨볼루션 레이어로 구성된 수정된 트랜스포머 인코더로 대체됨 프런트 엔드와 주의 계층 사이에 있습니다. 이 논문에서, 우리는 새로운 것을 소개한다. 스트리밍 ASR 모델, 컨볼루션 증강 반복 신경망 LSTM 기반 RNN-T를 소설로 보강하는 변환기(ConvRNN-T) 로컬 및 글로벌 컨텍스트 CNN 인코더로 구성된 컨볼루션 프런트 엔드. ConvRNN-T는 인과적 1-D 컨볼루션 레이어를 활용한다. 압착 및 들뜸, 팽창 및 잔차 블록으로 전체 블록 제공 LSTM 레이어에 대한 로컬 오디오 컨텍스트 표현. ConvRNN-T를 보여준다. Librispeech 및 사내 데이터에서 RNN-T, Conformer 및 ContextNet을 능가합니다. 게다가, ConvRNN-T는 보다 적은 계산 복잡성을 제공한다. 컨포머. ConvRNN-T의 뛰어난 정확성과 낮은 풋프린트 덕분에, 온디바이스 스트리밍 ASR 기술의 유망한 후보. 

 

 

A Two-Stage Method for Chinese AMR Parsing

 

In this paper, we provide a detailed description of our system at CAMRP-2022 evaluation. We firstly propose a two-stage method to conduct Chinese AMR Parsing with alignment generation, which includes Concept-Prediction and Relation-Prediction stages. Our model achieves 0.7756 and 0.7074 Align-Smatch F1 scores on the CAMR 2.0 test set and the blind-test set of CAMRP-2022 individually. We also analyze the result and the limitation such as the error propagation and class imbalance problem we conclude in the current method. Code and the trained models are released at this https URL for reproduction.

 

본 논문에서, 우리는 CAMRP-2022에서 우리 시스템에 대한 자세한 설명을 제공한다. 평가하기. 우리는 먼저 중국 AMR을 수행하기 위한 2단계 방법을 제안한다. 선형 생성을 사용한 구문 분석(개념-예측 및 관계-예측 단계입니다. 우리 모델은 0.7756 및 0.7074 Align-Smatch를 달성한다. CAMR 2.0 테스트 세트 및 CAMRP-2022 블라인드 테스트 세트의 F1 점수 따로따로 우리는 또한 결과와 오류와 같은 한계를 분석한다. 현재 방법에서 결론짓는 것은 전파와 계급 불균형 문제이다. 코드 그리고 훈련된 모델들은 다음 시간에 출시된다. 복제를 위한 https URL입니다. 

 

 

Downstream Datasets Make Surprisingly Good Pretraining Corpora

 

For most natural language processing tasks, the dominant practice is to finetune large pretrained transformer models (e.g., BERT) using smaller downstream datasets. Despite the success of this approach, it remains unclear to what extent these gains are attributable to the massive background corpora employed for pretraining versus to the pretraining objectives themselves. This paper introduces a large-scale study of self-pretraining, where the same (downstream) training data is used for both pretraining and finetuning. In experiments addressing both ELECTRA and RoBERTa models and 10 distinct downstream datasets, we observe that self-pretraining rivals standard pretraining on the BookWiki corpus (despite using around $10\times$--$500\times$ less data), outperforming the latter on $7$ and $5$ datasets, respectively. Surprisingly, these task-specific pretrained models often perform well on other tasks, including the GLUE benchmark. Our results suggest that in many scenarios, performance gains attributable to pretraining are driven primarily by the pretraining objective itself and are not always attributable to the incorporation of massive datasets. These findings are especially relevant in light of concerns about intellectual property and offensive content in web-scale pretraining data.

 

대부분의 자연어 처리 작업에서, 지배적인 관행은 다음과 같다. 소형으로 사전 훈련된 대형 변압기 모델(예: BERT)을 사용합니다. 다운스트림 데이터 세트 이 접근법의 성공에도 불구하고, 여전히 불분명하다. 이러한 이득이 어느 정도까지 거대한 배경 말뭉치에 기인하는가. 사전 훈련 목적 자체와 비교하여 사전 훈련을 위해 사용됩니다. 이것. 논문은 자기예습에 대한 대규모 연구를 소개하는데, 여기서도 마찬가지이다. (다운스트림) 훈련 데이터는 사전 훈련과 미세 조정에 모두 사용된다. 인 ELCTRA 및 RoBERTa 모델 및 10가지 개별 모델을 다루는 실험 다운스트림 데이터 세트, 우리는 자체 사전 훈련이 표준과 경쟁한다는 것을 관찰한다. 경전에 대한 사전 교육위키 말뭉치 (주변 사용에도 불구하고) $10\times$--$500\times$ 적은 데이터), $7$ 및 $5$에서 후자를 능가함 데이터 세트. 놀랍게도, 이러한 작업별 사전 교육 모델 GLUE 벤치마크를 비롯한 다른 작업에서도 우수한 성능을 발휘하는 경우가 많습니다. 우리의 결과 많은 시나리오에서 사전 교육으로 인한 성능 향상이 제안됩니다. 주로 사전 훈련 목표 자체에 의해 주도되며 항상 그렇지는 않다. 대규모 데이터 세트의 통합에 기인한다. 이 결과들은 지적 재산에 대한 우려에 비추어 특히 관련이 있다. 웹 스케일 사전 교육 데이터의 불쾌한 내용입니다. 

 

 

반응형

댓글