본문 바로가기
오늘의 자연어 처리

[2022-12-06] 오늘의 자연어처리

by 지환이아빠 2022. 12. 6.
반응형

Tackling Low-Resourced Sign Language Translation: UPC at WMT-SLT 22

 

This paper describes the system developed at the Universitat Politècnica de Catalunya for the Workshop on Machine Translation 2022 Sign Language Translation Task, in particular, for the sign-to-text direction. We use a Transformer model implemented with the Fairseq modeling toolkit. We have experimented with the vocabulary size, data augmentation techniques and pretraining the model with the PHOENIX-14T dataset. Our system obtains 0.50 BLEU score for the test set, improving the organizers' baseline by 0.38 BLEU. We remark the poor results for both the baseline and our system, and thus, the unreliability of our findings.

 

이 논문은 폴리테크니카데 대학에서 개발된 시스템에 대해 설명한다. Catalunya 기계번역 2022 수화 워크숍 개최 특히 부호-텍스트 방향에 대한 번역 작업입니다. 우리는 a를 사용한다 Fairseq 모델링 툴킷으로 구현된 트랜스포머 모델. 우리는 가지고 있다. 단어 크기, 데이터 확대 기술 및 피닉스-14T 데이터 세트로 모델을 사전 교육한다. 우리 시스템은 0.50점을 받는다. 테스트 세트에 대한 BLEU 점수, 주최자의 기준치 0.38 BLEU 향상. 우리는 기준선과 시스템 모두에 대한 좋지 않은 결과를 주목한다. 우리의 연구 결과의 신뢰성. 

 

 

Tackling Low-Resourced Sign Language Translation: UPC at WMT-SLT 22

 

This paper describes the system developed at the Universitat Politècnica de Catalunya for the Workshop on Machine Translation 2022 Sign Language Translation Task, in particular, for the sign-to-text direction. We use a Transformer model implemented with the Fairseq modeling toolkit. We have experimented with the vocabulary size, data augmentation techniques and pretraining the model with the PHOENIX-14T dataset. Our system obtains 0.50 BLEU score for the test set, improving the organizers' baseline by 0.38 BLEU. We remark the poor results for both the baseline and our system, and thus, the unreliability of our findings.

 

이 논문은 폴리테크니카데 대학에서 개발된 시스템에 대해 설명한다. Catalunya 기계번역 2022 수화 워크숍 개최 특히 부호-텍스트 방향에 대한 번역 작업입니다. 우리는 a를 사용한다 Fairseq 모델링 툴킷으로 구현된 트랜스포머 모델. 우리는 가지고 있다. 단어 크기, 데이터 확대 기술 및 피닉스-14T 데이터 세트로 모델을 사전 교육한다. 우리 시스템은 0.50점을 받는다. 테스트 세트에 대한 BLEU 점수, 주최자의 기준치 0.38 BLEU 향상. 우리는 기준선과 시스템 모두에 대한 좋지 않은 결과를 주목한다. 우리의 연구 결과의 신뢰성. 

 

 

SoftCorrect: Error Correction with Soft Detection for Automatic Speech Recognition

 

Error correction in automatic speech recognition (ASR) aims to correct those incorrect words in sentences generated by ASR models. Since recent ASR models usually have low word error rate (WER), to avoid affecting originally correct tokens, error correction models should only modify incorrect words, and therefore detecting incorrect words is important for error correction. Previous works on error correction either implicitly detect error words through target-source attention or CTC (connectionist temporal classification) loss, or explicitly locate specific deletion/substitution/insertion errors. However, implicit error detection does not provide clear signal about which tokens are incorrect and explicit error detection suffers from low detection accuracy. In this paper, we propose SoftCorrect with a soft error detection mechanism to avoid the limitations of both explicit and implicit error detection. Specifically, we first detect whether a token is correct or not through a probability produced by a dedicatedly designed language model, and then design a constrained CTC loss that only duplicates the detected incorrect tokens to let the decoder focus on the correction of error tokens. Compared with implicit error detection with CTC loss, SoftCorrect provides explicit signal about which words are incorrect and thus does not need to duplicate every token but only incorrect tokens; compared with explicit error detection, SoftCorrect does not detect specific deletion/substitution/insertion errors but just leaves it to CTC loss. Experiments on AISHELL-1 and Aidatatang datasets show that SoftCorrect achieves 26.1% and 9.4% CER reduction respectively, outperforming previous works by a large margin, while still enjoying fast speed of parallel generation.

 

자동 음성 인식(ASR)의 오류 수정은 이들을 수정하는 것을 목표로 한다. ASR 모델에 의해 생성된 문장의 잘못된 단어. 최근 ASR 모델 이후 일반적으로 단어 오류율(WER)이 낮으며, 원래 올바른 값에 영향을 주지 않습니다. 토큰, 오류 수정 모델은 잘못된 단어만 수정해야 합니다. 따라서 오류 수정을 위해서는 잘못된 단어를 탐지하는 것이 중요하다. 이전의 오류 수정에 대한 작업은 다음을 통해 오류 단어를 암시적으로 탐지합니다. 대상 소스 주의 또는 CTC(연결주의 시간 분류) 손실 또는 특정 삭제/생성/삭제 오류를 명시적으로 찾습니다. 하지만, 암시적 오류 감지는 토큰에 대한 명확한 신호를 제공하지 않습니다. 부정확하고 명시적인 오류 탐지는 탐지 정확도가 낮습니다. 인 이 논문에서, 우리는 소프트 오류 감지 메커니즘을 가진 SoftCorrect를 제안한다. 명시적 오류 및 암시적 오류 탐지의 제한을 방지합니다. 구체적으로, 우리는 먼저 토큰이 올바른지 아닌지를 감지한다. 전용으로 설계된 언어 모델에 의해 생성된 확률, 그리고 나서 설계. 탐지된 잘못된 토큰만 복제하는 제한된 CTC 손실 디코더가 오류 토큰의 수정에 초점을 맞추도록 합니다. 암시적인 것과 비교하다. CTC 손실과 함께 오류 감지, SoftCorrect는 다음에 대한 명시적 신호를 제공합니다. 단어가 잘못되었기 때문에 모든 토큰을 복제할 필요가 없으며 오직 토큰만 복제합니다. 잘못된 토큰; 명시적 오류 감지와 비교하여 SoftCorrect는 그렇지 않습니다. 특정 삭제/생성/삭제 오류를 탐지하지만 이를 그대로 유지합니다. CTC 손실. AISHELL-1 및 아이다타탕 데이터 세트에 대한 실험은 다음을 보여준다. SoftCorrect는 각각 26.1%와 9.4%의 CER 감소를 달성하여 탁월한 성능을 발휘합니다. 여전히 빠른 병렬 속도를 즐기면서도 큰 차이로 이전 작품들 시대. 

 

 

반응형

댓글