본문 바로가기
오늘의 자연어 처리

[2022-12-05] 오늘의 자연어처리

by 지환이아빠 2022. 12. 5.
반응형

Noisy Label Detection for Speaker Recognition

 

The success of deep neural networks requires both high annotation quality and massive data. However, the size and the quality of a dataset are usually a trade-off in practice, as data collection and cleaning are expensive and time-consuming. Therefore, automatic noisy label detection (NLD) techniques are critical to real-world applications, especially those using crowdsourcing datasets. As this is an under-explored topic in automatic speaker verification (ASV), we present a simple but effective solution to the task. First, we compare the effectiveness of various commonly used metric learning loss functions under different noise settings. Then, we propose two ranking-based NLD methods, inter-class inconsistency and intra-class inconsistency ranking. They leverage the inconsistent nature of noisy labels and show high detection precision even under a high level of noise. Our solution gives rise to both efficient and effective cleaning of large-scale speaker recognition datasets.

 

심층 신경망의 성공은 높은 주석 품질과 방대한 데이터 그러나 데이터 세트의 크기와 품질은 일반적으로 다음과 같다. 데이터 수집 및 청소 비용이 많이 들기 때문에 실제로는 절충이 필요합니다. 시간이 걸리는 따라서 자동 노이즈 레이블 감지(NLD) 기술은 다음과 같다. 실제 애플리케이션, 특히 크라우드소싱을 사용하는 애플리케이션에 매우 중요합니다. 데이터 집합입니다. 이것은 자동 스피커 검증에서 충분히 탐구되지 않은 주제이기 때문이다. (ASV), 우리는 작업에 대한 간단하지만 효과적인 솔루션을 제시한다. 일단 저희가. 일반적으로 사용되는 다양한 메트릭 학습 손실의 효과를 비교한다. 다양한 노이즈 설정에서 기능합니다. 그런 다음, 우리는 두 가지 순위 기반을 제안한다. NLD 방법, 클래스 간 불일치 및 클래스 내 불일치 순위. 노이즈가 많은 레이블의 일관성이 없는 특성을 활용하고 높은 탐지력을 보여줍니다. 높은 수준의 소음에서도 정밀도를 유지할 수 있습니다. 우리의 솔루션은 두 가지를 모두 실현합니다. 대규모 스피커 인식 데이터 세트의 효율적이고 효과적인 청소. 

 

 

Long-Document Cross-Lingual Summarization

 

Cross-Lingual Summarization (CLS) aims at generating summaries in one language for the given documents in another language. CLS has attracted wide research attention due to its practical significance in the multi-lingual world. Though great contributions have been made, existing CLS works typically focus on short documents, such as news articles, short dialogues and guides. Different from these short texts, long documents such as academic articles and business reports usually discuss complicated subjects and consist of thousands of words, making them non-trivial to process and summarize. To promote CLS research on long documents, we construct Perseus, the first long-document CLS dataset which collects about 94K Chinese scientific documents paired with English summaries. The average length of documents in Perseus is more than two thousand tokens. As a preliminary study on long-document CLS, we build and evaluate various CLS baselines, including pipeline and end-to-end methods. Experimental results on Perseus show the superiority of the end-to-end baseline, outperforming the strong pipeline models equipped with sophisticated machine translation systems. Furthermore, to provide a deeper understanding, we manually analyze the model outputs and discuss specific challenges faced by current approaches. We hope that our work could benchmark long-document CLS and benefit future studies.

 

CLS(Cross-Language Summaryization)는 하나의 요약을 생성하는 것을 목표로 합니다. 다른 언어로 지정된 문서에 대한 언어. CLS는 광범위한 관심을 끌었다. 다국어에서의 실용적인 중요성으로 인한 연구적 관심 세계. 큰 기여를 했지만, 기존 CLS는 일반적으로 작동한다. 뉴스 기사, 짧은 대화, 가이드와 같은 짧은 문서에 초점을 맞춥니다. 이 짧은 글들과는 달리, 학술적인 기사와 같은 긴 문서들과 비즈니스 보고서는 보통 복잡한 주제를 논의하고 수천 개로 구성된다. 단어를 처리하고 요약할 수 없도록 만듭니다. CLS를 승격하려면 긴 문서에 대한 연구, 우리는 첫 번째 긴 문서 CLS인 페르세우스를 구성한다. 약 94,000개의 중국 과학 문서를 수집하는 데이터 세트 영어 요약 페르세우스에서 문서의 평균 길이는 2개 이상이다. 천 개의 토큰 긴 문서 CLS에 대한 예비 연구로서, 우리는 그리고 파이프라인 및 종단 간 방법을 포함한 다양한 CLS 기준선을 평가합니다. 페르세우스에 대한 실험 결과는 엔드 투 엔드의 우수성을 보여준다. 기준, 정교한 장비를 갖춘 강력한 파이프라인 모델을 능가하는 성능 기계 번역 시스템 게다가, 더 깊은 이해를 제공하기 위해, 우리는 수동으로 모델 출력을 분석하고 에 의해 직면한 특정 과제를 논의합니다. 현재의 접근법 우리는 우리의 작업이 긴 문서 CLS를 벤치마킹할 수 있기를 바란다. 장래의 연구에 도움이 되다 

 

 

Long-Document Cross-Lingual Summarization

 

Cross-Lingual Summarization (CLS) aims at generating summaries in one language for the given documents in another language. CLS has attracted wide research attention due to its practical significance in the multi-lingual world. Though great contributions have been made, existing CLS works typically focus on short documents, such as news articles, short dialogues and guides. Different from these short texts, long documents such as academic articles and business reports usually discuss complicated subjects and consist of thousands of words, making them non-trivial to process and summarize. To promote CLS research on long documents, we construct Perseus, the first long-document CLS dataset which collects about 94K Chinese scientific documents paired with English summaries. The average length of documents in Perseus is more than two thousand tokens. As a preliminary study on long-document CLS, we build and evaluate various CLS baselines, including pipeline and end-to-end methods. Experimental results on Perseus show the superiority of the end-to-end baseline, outperforming the strong pipeline models equipped with sophisticated machine translation systems. Furthermore, to provide a deeper understanding, we manually analyze the model outputs and discuss specific challenges faced by current approaches. We hope that our work could benchmark long-document CLS and benefit future studies.

 

CLS(Cross-Language Summaryization)는 하나의 요약을 생성하는 것을 목표로 합니다. 다른 언어로 지정된 문서에 대한 언어. CLS는 광범위한 관심을 끌었다. 다국어에서의 실용적인 중요성으로 인한 연구적 관심 세계. 큰 기여를 했지만, 기존 CLS는 일반적으로 작동한다. 뉴스 기사, 짧은 대화, 가이드와 같은 짧은 문서에 초점을 맞춥니다. 이 짧은 글들과는 달리, 학술적인 기사와 같은 긴 문서들과 비즈니스 보고서는 보통 복잡한 주제를 논의하고 수천 개로 구성된다. 단어를 처리하고 요약할 수 없도록 만듭니다. CLS를 승격하려면 긴 문서에 대한 연구, 우리는 첫 번째 긴 문서 CLS인 페르세우스를 구성한다. 약 94,000개의 중국 과학 문서를 수집하는 데이터 세트 영어 요약 페르세우스에서 문서의 평균 길이는 2개 이상이다. 천 개의 토큰 긴 문서 CLS에 대한 예비 연구로서, 우리는 그리고 파이프라인 및 종단 간 방법을 포함한 다양한 CLS 기준선을 평가합니다. 페르세우스에 대한 실험 결과는 엔드 투 엔드의 우수성을 보여준다. 기준, 정교한 장비를 갖춘 강력한 파이프라인 모델을 능가하는 성능 기계 번역 시스템 게다가, 더 깊은 이해를 제공하기 위해, 우리는 수동으로 모델 출력을 분석하고 에 의해 직면한 특정 과제를 논의합니다. 현재의 접근법 우리는 우리의 작업이 긴 문서 CLS를 벤치마킹할 수 있기를 바란다. 장래의 연구에 도움이 되다 

 

 

반응형

댓글