본문 바로가기
오늘의 자연어 처리

[2022-11-03] 오늘의 자연어처리

by 지환이아빠 2022. 11. 3.
반응형

Joint Audio/Text Training for Transformer Rescorer of Streaming Speech Recognition

 

Recently, there has been an increasing interest in two-pass streaming end-to-end speech recognition (ASR) that incorporates a 2nd-pass rescoring model on top of the conventional 1st-pass streaming ASR model to improve recognition accuracy while keeping latency low. One of the latest 2nd-pass rescoring model, Transformer Rescorer, takes the n-best initial outputs and audio embeddings from the 1st-pass model, and then choose the best output by re-scoring the n-best initial outputs. However, training this Transformer Rescorer requires expensive paired audio-text training data because the model uses audio embeddings as input. In this work, we present our Joint Audio/Text training method for Transformer Rescorer, to leverage unpaired text-only data which is relatively cheaper than paired audio-text data. We evaluate Transformer Rescorer with our Joint Audio/Text training on Librispeech dataset as well as our large-scale in-house dataset and show that our training method can improve word error rate (WER) significantly compared to standard Transformer Rescorer without requiring any extra model parameters or latency.

 

최근 투패스 스트리밍에 대한 관심이 높아지고 있다. 2차 통과 재스코어링을 통합한 종단 간 음성 인식(ASR) 기존 1차 패스 스트리밍 ASR 모델 위에 모델을 추가하여 개선 인식 정확도 및 지연 시간을 낮게 유지합니다. 최신 2차 패스 중 하나 재채점 모델인 Transformer Rescorer는 n-best 초기 출력을 취합니다. 1번 패스 모델의 오디오 임베딩, 그리고 나서 최고의 출력을 선택한다. n-best 초기 출력을 다시 설정합니다. 그러나 이 트랜스포머를 교육하는 것은 리스코어는 모델이므로 값비싼 쌍체 오디오 텍스트 교육 데이터를 필요로 한다. 는 오디오 임베딩을 입력으로 사용합니다. 이 작업에서는 공동 오디오/텍스트에 대해 설명합니다. Transformer Revocor를 위한 교육 방법, 쌍을 이루지 않은 텍스트 전용 데이터를 활용합니다. 이는 쌍체 오디오 텍스트 데이터보다 상대적으로 저렴하다. 우리는 평가한다 Librispeech 데이터 세트에 대한 공동 오디오/텍스트 교육을 통한 Transformer Rescorer 대규모 사내 데이터 세트뿐만 아니라 우리의 교육 방법을 보여줍니다. 표준 대비 단어 오류율(WER)을 크게 향상시킬 수 있습니다. 별도의 모델 매개 변수나 대기 시간이 필요 없는 Transformer Rescorer. 

 

 

Why Is It Hate Speech? Masked Rationale Prediction for Explainable Hate Speech Detection

 

In a hate speech detection model, we should consider two critical aspects in addition to detection performance-bias and explainability. Hate speech cannot be identified based solely on the presence of specific words: the model should be able to reason like humans and be explainable. To improve the performance concerning the two aspects, we propose Masked Rationale Prediction (MRP) as an intermediate task. MRP is a task to predict the masked human rationales-snippets of a sentence that are grounds for human judgment-by referring to surrounding tokens combined with their unmasked rationales. As the model learns its reasoning ability based on rationales by MRP, it performs hate speech detection robustly in terms of bias and explainability. The proposed method generally achieves state-of-the-art performance in various metrics, demonstrating its effectiveness for hate speech detection.

 

혐오 발언 감지 모델에서, 우리는 다음의 두 가지 중요한 측면을 고려해야 한다. 탐지 성능 향상 및 설명 가능성 추가. 증오 연설은 할 수 없다. 특정 단어의 존재만을 기반으로 식별됩니다. 모델은 다음과 같아야 합니다. 인간처럼 추론할 수 있고 설명할 수 있다. 성능을 향상시키려면 두 측면과 관련하여, 우리는 마스킹된 이론적 예측(MRP)을 제안합니다. 중간 작업 MRP는 복면을 한 인간을 예측하는 작업이다. 인간 판단의 근거가 되는 문장의 합리성-에 의한. 주변 토큰과 마스크되지 않은 합리성을 결합하는 것을 말합니다. 처럼 모델은 MRP에 의한 합리성에 기초하여 추론 능력을 학습하고, 증오를 수행한다. 편견과 설명 가능성 측면에서 강력한 음성 감지. 제안된 것 방법은 일반적으로 다양한 메트릭에서 최첨단 성능을 달성한다. 혐오 발언 탐지 효과를 입증하는 것. 

 

 

Training Vision-Language Models with Less Bimodal Supervision

 

Standard practice in pretraining multimodal models, such as vision-language models, is to rely on pairs of aligned inputs from both modalities, for example, aligned image-text pairs. However, such pairs can be difficult to obtain in low-resource settings and for some modality pairs (e.g., structured tables and images). In this work, we investigate the extent to which we can reduce the reliance on such parallel data, which we term \emph{bimodal supervision}, and use models that are pretrained on each modality independently. We experiment with a high-performing vision-language model, and analyze the effect of bimodal supervision on three vision-language tasks. We find that on simpler tasks, such as VQAv2 and GQA, one can eliminate bimodal supervision completely, suffering only a minor loss in performance. Conversely, for NLVR2, which requires more complex reasoning, training without bimodal supervision leads to random performance. Nevertheless, using only 5\% of the bimodal data (142K images along with their captions), or leveraging weak supervision in the form of a list of machine-generated labels for each image, leads to only a moderate degradation compared to using 3M image-text pairs: 74\%$\rightarrow$$\sim$70\%. Our code is available at this https URL.

 

비전 언어와 같은 멀티모달 모델을 사전 교육하는 표준 관행 모델은 두 가지 양식에서 정렬된 입력 쌍에 의존합니다. 예: 정렬된 이미지-텍스트 쌍입니다. 그러나, 그러한 쌍은 하기 어려울 수 있다. 저자원 설정 및 일부 양식 쌍(예: 구조화)에서 획득 표 및 이미지). 이 작업에서, 우리는 우리가 할 수 있는 범위를 조사한다. 우리가 \sublic{sublicodal이라고 부르는 그러한 병렬 데이터에 대한 의존도를 줄인다. 각 촬영장비에 대해 사전 교육을 받은 모델 사용 독자적으로 우리는 고성능 비전 언어 모델을 실험하고, 세 가지 비전 언어 작업에 대한 바이모달 감독의 효과를 분석합니다. 우리가 VQAv2 및 GQA와 같은 단순한 작업에서 바이모달(bimodal)을 제거할 수 있음을 발견함 완전한 감독, 약간의 성능 손실만 겪습니다. 반대로. 보다 복잡한 추론이 필요한 NLVR2의 경우, 바이모달 없이 훈련한다. 감시는 무작위 성과로 이어집니다. 그럼에도 불구하고, 오직 5\%만 사용한다. 바이모달 데이터(자막과 함께 142K 이미지) 또는 약한 활용 각 이미지에 대한 기계 생성 라벨 목록 형태의 감독 는 3M 이미지-텍스트 쌍을 사용하는 것과 비교하여 약간만 저하됩니다. 74\%$\rightarrow$$\sim$70\%. 코드는 다음 위치에서 사용할 수 있습니다. 이 https URL. 

 

 

반응형

댓글