본문 바로가기
오늘의 자연어 처리

[2022-09-24] 오늘의 자연어처리

by 지환이아빠 2022. 9. 24.
반응형

Approaching English-Polish Machine Translation Quality Assessment with Neural-based Methods

 

This paper presents our contribution to the PolEval 2021 Task 2: Evaluation of translation quality assessment metrics. We describe experiments with pre-trained language models and state-of-the-art frameworks for translation quality assessment in both nonblind and blind versions of the task. Our solutions ranked second in the nonblind version and third in the blind version.

 

이 논문은 PolEval 2021 과제 2: 평가에 대한 우리의 기여를 제시한다. 번역 품질 평가 지표의. 에 대한 실험을 설명한다. 사전 교육을 받은 언어 모델 및 최신 번역 프레임워크 작업의 비블라인드 버전과 블라인드 버전 모두에서 품질 평가. 우리들의 솔루션은 비블라인드 버전에서 2위, 블라인드 버전에서 3위를 차지했습니다. 

 

 

Semantically Consistent Data Augmentation for Neural Machine Translation via Conditional Masked Language Model

 

This paper introduces a new data augmentation method for neural machine translation that can enforce stronger semantic consistency both within and across languages. Our method is based on Conditional Masked Language Model (CMLM) which is bi-directional and can be conditional on both left and right context, as well as the label. We demonstrate that CMLM is a good technique for generating context-dependent word distributions. In particular, we show that CMLM is capable of enforcing semantic consistency by conditioning on both source and target during substitution. In addition, to enhance diversity, we incorporate the idea of soft word substitution for data augmentation which replaces a word with a probabilistic distribution over the vocabulary. Experiments on four translation datasets of different scales show that the overall solution results in more realistic data augmentation and better translation quality. Our approach consistently achieves the best performance in comparison with strong and recent works and yields improvements of up to 1.90 BLEU points over the baseline.

 

이 논문은 신경 기계를 위한 새로운 데이터 확대 방법을 소개한다. 와 내에서 모두 더 강력한 의미적 일관성을 강제할 수 있는 번역 언어를 초월하여 우리의 방법은 조건부 마스크 언어 모델을 기반으로 한다. (CMLM) 양방향이며 좌우 모두 조건부일 수 있습니다. 컨텍스트 및 레이블. 우리는 CMLM이 좋은 기술이라는 것을 입증한다. 문맥 의존적인 단어 분포를 생성합니다. 특히, 우리는 다음을 보여준다. CMLM은 두 가지 조건을 모두 충족함으로써 의미론적 일관성을 시행할 수 있다. 소스와 타겟은 대체 중에 표시됩니다. 게다가, 다양성을 향상시키기 위해, 우리는 데이터 증대를 위한 소프트 워드 대체의 개념을 통합한다. 단어를 어휘에 대한 확률적 분포로 대체합니다. 서로 다른 규모의 4개의 번역 데이터 세트에 대한 실험은 전반적인 솔루션을 통해 보다 현실적인 데이터 확대 및 개선 번역 품질 NAT의 접근 방식은 지속적으로 최고의 성능을 달성합니다. 강렬하고 최근의 작품과의 비교 및 최대 1.90의 개선 효과 BLEU 점이 기준선을 초과합니다. 

 

 

Assessing ASR Model Quality on Disordered Speech using BERTScore

 

Word Error Rate (WER) is the primary metric used to assess automatic speech recognition (ASR) model quality. It has been shown that ASR models tend to have much higher WER on speakers with speech impairments than typical English speakers. It is hard to determine if models can be be useful at such high error rates. This study investigates the use of BERTScore, an evaluation metric for text generation, to provide a more informative measure of ASR model quality and usefulness. Both BERTScore and WER were compared to prediction errors manually annotated by Speech Language Pathologists for error type and assessment. BERTScore was found to be more correlated with human assessment of error type and assessment. BERTScore was specifically more robust to orthographic changes (contraction and normalization errors) where meaning was preserved. Furthermore, BERTScore was a better fit of error assessment than WER, as measured using an ordinal logistic regression and the Akaike's Information Criterion (AIC). Overall, our findings suggest that BERTScore can complement WER when assessing ASR model performance from a practical perspective, especially for accessibility applications where models are useful even at lower accuracy than for typical speech.

 

WER(Word Error Rate)는 자동 음성 평가에 사용되는 기본 메트릭입니다. 인식(ASR) 모델 품질. ASR 모델은 다음과 같은 경향이 있는 것으로 나타났다. 일반적인 영어보다 언어 장애가 있는 스피커에서 훨씬 더 높은 WER 스피커 이렇게 높은 오류에서 모델이 유용할 수 있는지 판단하기는 어렵다. 비율. 이 연구는 다음과 같은 평가 지표인 BERTScore의 사용을 조사합니다. 텍스트 생성, ASR 모델 품질 및 유용성 BERTScore와 WER를 모두 수동으로 예측 오류와 비교했습니다. 오류 유형 및 평가를 위해 음성 언어 병리학자가 주석을 달았습니다. BERTScore는 오류 유형에 대한 인간의 평가와 더 상관관계가 있는 것으로 밝혀졌다. 그리고 평가. BERTScore는 특히 맞춤법 변경에 더 강했습니다. (수축 및 정규화 오류) 여기서 의미가 보존되었습니다. 또한 BERTScore는 다음과 같이 WER보다 오류 평가의 적합성이 더 뛰어났습니다. 순서형 로지스틱 회귀 분석 및 Akaike의 정보를 사용하여 측정됨 기준(AIC). 전반적으로, 우리의 연구 결과는 BERTScore가 실용적인 관점에서 ASR 모델 성능을 평가할 때 WER, 특히 모델이 더 낮은 수준에서도 유용한 접근성 애플리케이션의 경우 일반적인 말투보다 정확합니다. 

 

 

반응형

댓글