본문 바로가기
오늘의 자연어 처리

[2023-01-07] 오늘의 자연어처리

by 지환이아빠 2023. 1. 7.
반응형

Audio-Visual Efficient Conformer for Robust Speech Recognition

 

End-to-end Automatic Speech Recognition (ASR) systems based on neural networks have seen large improvements in recent years. The availability of large scale hand-labeled datasets and sufficient computing resources made it possible to train powerful deep neural networks, reaching very low Word Error Rate (WER) on academic benchmarks. However, despite impressive performance on clean audio samples, a drop of performance is often observed on noisy speech. In this work, we propose to improve the noise robustness of the recently proposed Efficient Conformer Connectionist Temporal Classification (CTC)-based architecture by processing both audio and visual modalities. We improve previous lip reading methods using an Efficient Conformer back-end on top of a ResNet-18 visual front-end and by adding intermediate CTC losses between blocks. We condition intermediate block features on early predictions using Inter CTC residual modules to relax the conditional independence assumption of CTC-based models. We also replace the Efficient Conformer grouped attention by a more efficient and simpler attention mechanism that we call patch attention. We experiment with publicly available Lip Reading Sentences 2 (LRS2) and Lip Reading Sentences 3 (LRS3) datasets. Our experiments show that using audio and visual modalities allows to better recognize speech in the presence of environmental noise and significantly accelerate training, reaching lower WER with 4 times less training steps. Our Audio-Visual Efficient Conformer (AVEC) model achieves state-of-the-art performance, reaching WER of 2.3% and 1.8% on LRS2 and LRS3 test sets. Code and pretrained models are available at this https URL.

 

신경 기반의 종단간 자동 음성 인식(ASR) 시스템 네트워크는 최근 몇 년 동안 큰 개선을 보아왔다. 의 가용성 대규모 수동 레이블링 데이터 세트와 충분한 컴퓨팅 리소스가 그것을 만들었다 매우 낮은 Word Error에 도달하는 강력한 심층 신경망을 훈련하는 것이 가능하다 학술 벤치마크에 대한 평가(WER). 하지만, 에 대한 인상적인 성과에도 불구하고 깨끗한 오디오 샘플, 노이즈가 많은 음성에서 성능 저하가 종종 관찰됩니다. 본 연구에서, 우리는 최근의 소음 견고성을 개선할 것을 제안한다 제안된 효율적 컨포머 연결주의 시간 분류(CTC) 기반 오디오와 시각적 양식을 모두 처리함으로써 아키텍처를 개선합니다. 우리는 향상된다 위에 Efficient Conformer 백엔드를 사용하는 이전 립 판독 방법 ResNet-18 시각적 프론트엔드 및 중간 CTC 손실을 추가함으로써 블록. 우리는 초기 예측에 대한 중간 블록 특징을 조건화한다 조건부 독립성 가정을 완화하기 위해 CTC 잔류 모듈 간 CTC 기반 모델입니다. 또한 다음과 같이 효율적인 컨포머 그룹 주의를 대체합니다 패치 어텐션이라고 하는 보다 효율적이고 간단한 어텐션 메커니즘. 우리는 공개적으로 이용 가능한 립 리딩 문장 2(LRS2)와 립으로 실험한다 문장 읽기 3(LRS3) 데이터 세트. 우리의 실험은 오디오와 시각적 양식은 존재하는 곳에서 말을 더 잘 인식할 수 있게 한다 환경 소음 및 교육을 대폭 가속화하여 낮은 WER에 도달합니다 4배 더 적은 교육 단계로 수행할 수 있습니다. 우리의 시청각 효율적 컨포머 (AVC) 모델은 2.3%, 1.8%의 WER에 도달하여 최첨단 성능을 달성합니다 LRS2 및 LRS3 테스트 세트. 코드 및 사전 교육된 모델은 다음 사이트에서 사용할 수 있습니다 이 https URL. 

 

 

HIT-SCIR at MMNLU-22: Consistency Regularization for Multilingual Spoken Language Understanding

 

Multilingual spoken language understanding (SLU) consists of two sub-tasks, namely intent detection and slot filling. To improve the performance of these two sub-tasks, we propose to use consistency regularization based on a hybrid data augmentation strategy. The consistency regularization enforces the predicted distributions for an example and its semantically equivalent augmentation to be consistent. We conduct experiments on the MASSIVE dataset under both full-dataset and zero-shot settings. Experimental results demonstrate that our proposed method improves the performance on both intent detection and slot filling tasks. Our system\footnote{The code will be available at \url{this https URL}.} ranked 1st in the MMNLU-22 competition under the full-dataset setting.

 

다국어 음성 언어 이해(SLU)는 두 가지 하위 작업으로 구성된다, 즉, 의도 감지 및 슬롯 채우기입니다. 이들의 성능을 개선하기 위해 두 개의 하위 모델, 우리는 하이브리드를 기반으로 한 일관성 정규화를 사용할 것을 제안한다 데이터 확장 전략. 일관성 정규화는 다음을 수행합니다 예제에 대한 예측 분포 및 의미론적으로 동등한 분포 일관성을 유지하기 위해 보강합니다. 우리는 대규모 데이터 세트에 대한 실험을 수행한다 풀샷 및 제로샷 설정 모두에서 사용할 수 있습니다. 실험 결과 우리가 제안한 방법이 두 가지 의도 모두에서 성능을 향상시킨다는 것을 보여준다 검색 및 슬롯 채우기 작업을 수행합니다. 우리의 시스템\각주{암호는 다음과 같습니다 \url{이 https URL}에서 사용할 수 있습니다. 랭크 MMNLU-22 경기에서 풀 데이터 세트 설정으로 1위를 차지했습니다. 

 

 

MessageNet: Message Classification using Natural Language Processing and Meta-data

 

In this paper we propose a new Deep Learning (DL) approach for message classification. Our method is based on the state-of-the-art Natural Language Processing (NLP) building blocks, combined with a novel technique for infusing the meta-data input that is typically available in messages such as the sender information, timestamps, attached image, audio, affiliations, and more. As we demonstrate throughout the paper, going beyond the mere text by leveraging all available channels in the message, could yield an improved representation and higher classification accuracy. To achieve message representation, each type of input is processed in a dedicated block in the neural network architecture that is suitable for the data type. Such an implementation enables training all blocks together simultaneously, and forming cross channels features in the network. We show in the Experiments Section that in some cases, message's meta-data holds an additional information that cannot be extracted just from the text, and when using this information we achieve better performance. Furthermore, we demonstrate that our multi-modality block approach outperforms other approaches for injecting the meta data to the the text classifier.

 

본 논문에서 우리는 메시지에 대한 새로운 딥 러닝(DL) 접근법을 제안한다 분류. 우리의 방법은 최첨단 자연어를 기반으로 한다 주입을 위한 새로운 기술과 결합된 처리(NLP) 빌딩 블록 보낸 사람과 같은 메시지에서 일반적으로 사용할 수 있는 메타 데이터 입력 정보, 타임스탬프, 첨부된 이미지, 오디오, 제휴 등이 있습니다. 우리처럼 모든 것을 활용하여 단순한 텍스트를 넘어 논문 전체에 걸쳐 시연하다 메시지에서 사용 가능한 채널, 개선된 표현을 산출할 수 있다 더 높은 분류 정확도. 메시지 표현을 달성하기 위해, 각 유형 입력은 신경망 아키텍처의 전용 블록에서 처리된다 데이터 유형에 적합합니다. 이러한 구현은 모든 교육을 가능하게 합니다 동시에 블록을 함께 구성하고 교차 채널 기능을 형성합니다 네트워크. 실험 섹션에서 어떤 경우에는 메시지가 메타데이터는 단지 추출할 수 없는 추가 정보를 보유하고 있다 텍스트, 그리고 이 정보를 사용할 때 우리는 더 나은 성능을 얻을 수 있습니다. 또한, 우리는 다중 양식 블록 접근 방식이 성능이 우수하다는 것을 입증한다 메타데이터를 텍스트 분류기에 주입하기 위한 다른 접근법. 

 

 

반응형

댓글