본문 바로가기
오늘의 자연어 처리

[2022-12-30] 오늘의 자연어처리

by 지환이아빠 2022. 12. 30.
반응형

Don't Be So Sure! Boosting ASR Decoding via Confidence Relaxation

 

Automatic Speech Recognition (ASR) systems frequently use a search-based decoding strategy aiming to find the best attainable transcript by considering multiple candidates. One prominent speech recognition decoding heuristic is beam search, which seeks the transcript with the greatest likelihood computed using the predicted distribution. While showing substantial performance gains in various tasks, beam search loses some of its effectiveness when the predicted probabilities are highly confident, i.e., the predicted distribution is massed for a single or very few classes. We show that recently proposed Self-Supervised Learning (SSL)-based ASR models tend to yield exceptionally confident predictions that may hamper beam search from truly considering a diverse set of candidates. We perform a layer analysis to reveal and visualize how predictions evolve, and propose a decoding procedure that improves the performance of fine-tuned ASR models. Our proposed approach does not require further training beyond the original fine-tuning, nor additional model parameters. In fact, we find that our proposed method requires significantly less inference computation than current approaches. We propose aggregating the top M layers, potentially leveraging useful information encoded in intermediate layers, and relaxing model confidence. We demonstrate the effectiveness of our approach by conducting an empirical study on varying amounts of labeled resources and different model sizes, showing consistent improvements in particular when applied to low-resource scenarios.

 

자동 음성 인식(ASR) 시스템은 검색 기반을 자주 사용합니다. 다음을 고려하여 달성 가능한 최상의 스크립트를 찾는 것을 목표로 하는 디코딩 전략 복수 후보자 대표적인 음성 인식 디코딩 휴리스틱은 다음과 같다. 빔 검색, 계산된 가능성이 가장 큰 스크립트를 찾습니다. 예측된 분포를 사용합니다. 상당한 성능 향상을 보여주는 동시에 다양한 작업에서 빔 검색은 그 효과의 일부를 잃는다. 예측 확률, 즉 예측 분포는 매우 신뢰할 수 있다. 단일 클래스 또는 극소수 클래스에 대해 질량이 할당됩니다. 우리는 최근에 제안된 것을 보여준다. SSL(Self-Supervised Learning) 기반 ASR 모델은 예외적으로 산출되는 경향이 있다. 빔 검색을 진정으로 고려하는 데 방해가 될 수 있는 자신감 있는 예측 다양한 후보자들 레이어 분석을 수행하여 표시하고 시각화합니다. 예측이 어떻게 진화하는지, 그리고 개선하는 디코딩 절차를 제안한다. 미세 조정된 ASR 모델의 성능. 우리의 제안된 접근 방식은 필요하지 않다. 원래의 미세 조정 또는 추가 모델을 넘어서는 추가 교육 매개 변수. 사실, 우리는 우리가 제안한 방법이 상당히 필요하다는 것을 발견했다. 현재의 접근법보다 추론 계산을 덜 한다. 통합을 제안합니다. 상위 M 계층, 잠재적으로 중간에 인코딩된 유용한 정보를 활용한다. 모델의 신뢰성을 완화합니다. 우리는 우리의 효과를 입증한다. 다양한 양의 라벨링에 대한 경험적 연구를 수행함으로써 접근한다. 리소스 및 다양한 모델 크기, 지속적인 개선을 보여줍니다. 특히 리소스가 적은 시나리오에 적용되는 경우에는 더욱 그렇습니다. 

 

 

The URW-KG: a Resource for Tackling the Underrepresentation of non-Western Writers

 

Digital media have enabled the access to unprecedented literary knowledge. Authors, readers, and scholars are now able to discover and share an increasing amount of information about books and their authors. Notwithstanding, digital archives are still unbalanced: writers from non-Western countries are less represented, and such a condition leads to the perpetration of old forms of discrimination. In this paper, we present the Under-Represented Writers Knowledge Graph (URW-KG), a resource designed to explore and possibly amend this lack of representation by gathering and mapping information about works and authors from Wikidata and three other sources: Open Library, Goodreads, and Google Books. The experiments based on KG embeddings showed that the integrated information encoded in the graph allows scholars and users to be more easily exposed to non-Western literary works and authors with respect to Wikidata alone. This opens to the development of fairer and effective tools for author discovery and exploration.

 

디지털 미디어는 전례 없는 문학적 지식에 대한 접근을 가능하게 했다. 작가, 독자, 학자들은 이제 증가하는 것을 발견하고 공유할 수 있다. 책과 그 저자들에 대한 정보의 양 그럼에도 불구하고 디지털 기록 보관소는 여전히 불균형하다: 비서구 국가의 작가들은 덜하다. 대표되고, 그러한 조건은 오래된 형태의 영구화로 이어진다. 차별 이 논문에서, 우리는 과소 대표 작가들을 제시한다. 지식 그래프(URW-KG), 탐색 및 수정을 위해 설계된 리소스 작품에 대한 정보를 수집하고 매핑함으로써 이러한 대표성의 부족 Wikidata 및 기타 세 가지 출처: 라이브러리, 좋은 읽기 및 Google Books. KG 임베딩을 기반으로 한 실험은 통합된 것을 보여주었다. 그래프에 암호화된 정보는 학자들과 사용자들이 더 쉽게 할 수 있게 해준다. 위키데이터와 관련하여 서양 이외의 문학작품과 작가들에게 노출된. 단독으로. 이것은 작가를 위한 더 공정하고 효과적인 도구의 개발에 열려있다. 발견과 탐험 

 

 

Skit-S2I: An Indian Accented Speech to Intent dataset

 

Conventional conversation assistants extract text transcripts from the speech signal using automatic speech recognition (ASR) and then predict intent from the transcriptions. Using end-to-end spoken language understanding (SLU), the intents of the speaker are predicted directly from the speech signal without requiring intermediate text transcripts. As a result, the model can optimize directly for intent classification and avoid cascading errors from ASR. The end-to-end SLU system also helps in reducing the latency of the intent prediction model. Although many datasets are available publicly for text-to-intent tasks, the availability of labeled speech-to-intent datasets is limited, and there are no datasets available in the Indian accent. In this paper, we release the Skit-S2I dataset, the first publicly available Indian-accented SLU dataset in the banking domain in a conversational tonality. We experiment with multiple baselines, compare different pretrained speech encoder's representations, and find that SSL pretrained representations perform slightly better than ASR pretrained representations lacking prosodic features for speech-to-intent classification. The dataset and baseline code is available at \url{this https URL}

 

기존의 대화 보조자들은 연설에서 텍스트 대본을 추출한다. 자동 음성 인식(ASR)을 사용하여 신호를 보낸 다음 의도를 예측합니다. 필사본 종단 간 음성 언어 이해(SLU)를 사용하여 화자의 의도는 음성 신호에 의해 직접 예측된다. 중간 텍스트 스크립트가 필요합니다. 결과적으로, 모델은 최적화될 수 있다. 의도 분류를 위해 직접 사용하고 ASR에서 계단식 오류를 방지합니다. 그 엔드 투 엔드 SLU 시스템은 또한 의도의 지연 시간을 줄이는 데 도움이 됩니다. 예측 모형 많은 데이터셋이 다음을 위해 공개적으로 제공되지만 텍스트에서 음성으로 변환하는 작업, 레이블이 지정된 음성에서 음성으로 변환하는 데이터 세트의 가용성은 다음과 같습니다. 제한적이며, 인도 억양으로 사용할 수 있는 데이터 세트가 없습니다. 이 점에서. 논문, 우리는 최초로 공개적으로 이용 가능한 Skit-S2I 데이터 세트를 발표한다. 대화 톤으로 은행 영역의 인도 억양 SLU 데이터 세트. 우리는 여러 기준선을 실험하고, 다른 사전 훈련된 음성을 비교한다. 인코더의 표현, 그리고 SSL 사전 훈련된 표현이 수행되는 것을 찾습니다. 운율적 특징이 없는 사전 훈련된 ASR 표현보다 약간 낫다. 음성 대 음성 분류를 위해. 데이터 세트 및 기준선 코드를 사용할 수 있습니다. \url{이 https URL}에서 

 

 

반응형

댓글