본문 바로가기
오늘의 자연어 처리

[2023-06-27] 오늘의 자연어처리

by 지환이아빠 2023. 6. 27.
반응형

NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning

 

This paper introduces NoRefER, a novel referenceless quality metric for automatic speech recognition (ASR) systems. Traditional reference-based metrics for evaluating ASR systems require costly ground-truth transcripts. NoRefER overcomes this limitation by fine-tuning a multilingual language model for pair-wise ranking ASR hypotheses using contrastive learning with Siamese network architecture. The self-supervised NoRefER exploits the known quality relationships between hypotheses from multiple compression levels of an ASR for learning to rank intra-sample hypotheses by quality, which is essential for model comparisons. The semi-supervised version also uses a referenced dataset to improve its inter-sample quality ranking, which is crucial for selecting potentially erroneous samples. The results indicate that NoRefER correlates highly with reference-based metrics and their intra-sample ranks, indicating a high potential for referenceless ASR evaluation or a/b testing.

 

이 논문은 새로운 참조 없는 품질 지표인 NoRefer를 소개한다 자동 음성 인식(ASR) 시스템. 기존 참조 기반 메트릭 ASR 시스템을 평가하기 위해서는 값비싼 지상 실측 기록이 필요하다. 참조 없음 다국어 언어 모델을 미세 조정하여 이러한 한계를 극복합니다 샴과 대조 학습을 사용한 쌍별 순위 ASR 가설 네트워크 아키텍처. 자체 감독 NoRefER는 알려진 품질을 활용한다 다음에 대한 ASR의 여러 압축 수준에서 얻은 가설 간의 관계 품질에 따라 표본 내 가설의 순위를 매기는 방법을 배우며, 이는 필수적이다 모형 비교. 준감독 버전은 또한 참조된 데이터 세트를 사용한다 선택에 중요한 표본 간 품질 순위를 개선하기 위해 잘못될 가능성이 있는 표본. 결과는 NoRefER 상관관계를 나타냅니다 참조 기반 메트릭 및 샘플 내 순위를 통해 매우 높은 수준으로 평가할 수 있으며, 이는 다음과 같습니다 참조 없는 ASR 평가 또는 a/b 테스트의 가능성이 높습니다. 

 

 

Stress Testing BERT Anaphora Resolution Models for Reaction Extraction in Chemical Patents

 

The high volume of published chemical patents and the importance of a timely acquisition of their information gives rise to automating information extraction from chemical patents. Anaphora resolution is an important component of comprehensive information extraction, and is critical for extracting reactions. In chemical patents, there are five anaphoric relations of interest: co-reference, transformed, reaction associated, work up, and contained. Our goal is to investigate how the performance of anaphora resolution models for reaction texts in chemical patents differs in a noise-free and noisy environment and to what extent we can improve the robustness against noise of the model.

 

발표된 화학 특허의 높은 양과 적시의 중요성 그들의 정보의 획득은 정보의 자동화를 야기한다 화학 특허로부터의 추출. 아나포라 해상도는 중요한 구성 요소입니다 종합적인 정보 추출, 그리고 추출에 중요하다 반응. 화학 특허에는 5가지 아나포릭 관계가 있다: 공동 참조, 변환, 반응 관련, 작업 및 포함. 우리들의 목표는 아나포라 해상도의 성능이 어떻게 모델을 만드는지 조사하는 것이다 화학 특허의 반응 텍스트는 소음이 없고 소음이 많은 것이 다르다 환경 및 소음에 대한 견고성을 어느 정도까지 개선할 수 있는지 모범이 되는 것. 

 

 

Stress Testing BERT Anaphora Resolution Models for Reaction Extraction in Chemical Patents

 

The high volume of published chemical patents and the importance of a timely acquisition of their information gives rise to automating information extraction from chemical patents. Anaphora resolution is an important component of comprehensive information extraction, and is critical for extracting reactions. In chemical patents, there are five anaphoric relations of interest: co-reference, transformed, reaction associated, work up, and contained. Our goal is to investigate how the performance of anaphora resolution models for reaction texts in chemical patents differs in a noise-free and noisy environment and to what extent we can improve the robustness against noise of the model.

 

발표된 화학 특허의 높은 양과 적시의 중요성 그들의 정보의 획득은 정보의 자동화를 야기한다 화학 특허로부터의 추출. 아나포라 해상도는 중요한 구성 요소입니다 종합적인 정보 추출, 그리고 추출에 중요하다 반응. 화학 특허에는 5가지 아나포릭 관계가 있다: 공동 참조, 변환, 반응 관련, 작업 및 포함. 우리들의 목표는 아나포라 해상도의 성능이 어떻게 모델을 만드는지 조사하는 것이다 화학 특허의 반응 텍스트는 소음이 없고 소음이 많은 것이 다르다 환경 및 소음에 대한 견고성을 어느 정도까지 개선할 수 있는지 모범이 되는 것. 

 

 

반응형

댓글