BASPRO: a balanced script producer for speech corpus collection based on the genetic algorithm
The performance of speech-processing models is heavily influenced by the speech corpus that is used for training and evaluation. In this study, we propose BAlanced Script PROducer (BASPRO) system, which can automatically construct a phonetically balanced and rich set of Chinese sentences for collecting Mandarin Chinese speech data. First, we used pretrained natural language processing systems to extract ten-character candidate sentences from a large corpus of Chinese news texts. Then, we applied a genetic algorithm-based method to select 20 phonetically balanced sentence sets, each containing 20 sentences, from the candidate sentences. Using BASPRO, we obtained a recording script called TMNews, which contains 400 ten-character sentences. TMNews covers 84% of the syllables used in the real world. Moreover, the syllable distribution has 0.96 cosine similarity to the real-world syllable distribution. We converted the script into a speech corpus using two text-to-speech systems. Using the designed speech corpus, we tested the performances of speech enhancement (SE) and automatic speech recognition (ASR), which are one of the most important regression- and classification-based speech processing tasks, respectively. The experimental results show that the SE and ASR models trained on the designed speech corpus outperform their counterparts trained on a randomly composed speech corpus.
음성 처리 모델의 성능은 다음에 의해 크게 영향을 받는다 훈련과 평가를 위해 사용되는 말뭉치. 이 연구에서, 우리는 자동으로 실행할 수 있는 BASPRO(Balanced Script Producer) 시스템을 제안합니다 을 위해 음성적으로 균형잡힌 풍부한 한문을 구성하다 표준 중국어 음성 데이터를 수집합니다. 먼저, 우리는 미리 훈련된 자연을 사용했다 언어 처리 시스템에서 10자 후보 문장을 추출합니다 중국 뉴스 텍스트의 대규모 말뭉치. 그리고 나서, 우리는 유전 알고리즘 기반을 적용을 했다 각각 20개의 음성적으로 균형 잡힌 문장 세트를 선택하는 방법 후보 문장에서 나온 문장. 우리는 BASPRO를 사용해서 TMnews라고 불리는 스크립트는 400개의 10자 문장을 포함한다. TM 뉴스 표지 실제 세계에서 사용되는 음절의 84%. 게다가, 음절은 분포는 실제 음절과 0.96 코사인 유사성을 갖는다 분배. 우리는 두 개를 사용하여 스크립트를 말뭉치로 변환했다 텍스트에서 텍스트로의 시스템. 설계된 음성 말뭉치를 사용하여, 우리는 테스트했다 음성 향상(SE) 및 자동 음성 인식(ASR)의 성능, 가장 중요한 회귀 및 분류 기반 연설 중 하나입니다 태스크를 각각 처리합니다. 실험 결과는 SE와 설계된 음성 말뭉치에 대해 훈련된 ASR 모델은 상대 모델보다 성능이 뛰어나다 무작위로 구성된 음성 말뭉치로 훈련되었다.
Universal Multimodal Representation for Language Understanding
Representation learning is the foundation of natural language processing (NLP). This work presents new methods to employ visual information as assistant signals to general NLP tasks. For each sentence, we first retrieve a flexible number of images either from a light topic-image lookup table extracted over the existing sentence-image pairs or a shared cross-modal embedding space that is pre-trained on out-of-shelf text-image pairs. Then, the text and images are encoded by a Transformer encoder and convolutional neural network, respectively. The two sequences of representations are further fused by an attention layer for the interaction of the two modalities. In this study, the retrieval process is controllable and flexible. The universal visual representation overcomes the lack of large-scale bilingual sentence-image pairs. Our method can be easily applied to text-only tasks without manually annotated multimodal parallel corpora. We apply the proposed method to a wide range of natural language generation and understanding tasks, including neural machine translation, natural language inference, and semantic similarity. Experimental results show that our method is generally effective for different tasks and languages. Analysis indicates that the visual signals enrich textual representations of content words, provide fine-grained grounding information about the relationship between concepts and events, and potentially conduce to disambiguation.
표현 학습은 자연어 처리의 기초이다 (NLP). 이 작업은 시각적 정보를 보조로 사용하는 새로운 방법을 제시한다 일반 NLP 작업에 대한 신호입니다. 각 문장에 대해 먼저 유연성을 검색합니다 가벼운 주제-이미지 조회 테이블에서 추출된 이미지 수 기존의 문장-이미지 쌍 또는 공유 교차점 임베딩 공간 는 기성 텍스트 이미지 쌍에 대해 사전 교육됩니다. 그러면 텍스트와 이미지는 트랜스포머 인코더와 컨볼루션 신경망에 의해 인코딩된다, 각각 다음과 같다. 표현의 두 시퀀스는 다음에 의해 더 융합된다 두 양식의 상호 작용에 대한 주의 레이어. 이 연구에서 검색 프로세스는 제어 가능하고 유연합니다. 유니버설 비주얼 표현은 대규모 이중 언어 문장 이미지의 부족을 극복한다 우리의 방법은 수동 없이 텍스트 전용 작업에 쉽게 적용될 수 있다 주석이 달린 다중 모드 병렬 말뭉치. 우리는 제안된 방법을 광범위하게 적용한다 신경을 포함한 자연어 생성 및 이해 과제의 범위 기계 번역, 자연어 추론, 의미론적 유사성. 실험 결과는 우리의 방법이 일반적으로 다른 것에 효과적이라는 것을 보여준다 작업 및 언어. 분석에 따르면 시각적 신호가 텍스트를 풍부하게 합니다 내용 단어의 표현, 세분화된 기초 정보 제공 개념과 사건 사이의 관계에 대해, 그리고 잠재적으로 기여한다 명확화.
Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language Understanding
Current natural language understanding (NLU) models have been continuously scaling up, both in terms of model size and input context, introducing more hidden and input neurons. While this generally improves performance on average, the extra neurons do not yield a consistent improvement for all instances. This is because some hidden neurons are redundant, and the noise mixed in input neurons tends to distract the model. Previous work mainly focuses on extrinsically reducing low-utility neurons by additional post- or pre-processing, such as network pruning and context selection, to avoid this problem. Beyond that, can we make the model reduce redundant parameters and suppress input noise by intrinsically enhancing the utility of each neuron? If a model can efficiently utilize neurons, no matter which neurons are ablated (disabled), the ablated submodel should perform no better than the original full model. Based on such a comparison principle between models, we propose a cross-model comparative loss for a broad range of tasks. Comparative loss is essentially a ranking loss on top of the task-specific losses of the full and ablated models, with the expectation that the task-specific loss of the full model is minimal. We demonstrate the universal effectiveness of comparative loss through extensive experiments on 14 datasets from 3 distinct NLU tasks based on 4 widely used pretrained language models, and find it particularly superior for models with few parameters or long input.
현재 자연어 이해(NLU) 모델은 지속적으로 발전해 왔다 모델 크기 및 입력 컨텍스트 측면에서 스케일업, 추가 기능 도입 숨겨진 뉴런과 입력 뉴런. 이것은 일반적으로 평균적으로 성능을 향상시키지만, 여분의 뉴런은 모든 경우에 대해 일관된 개선을 제공하지 않는다. 이것. 숨겨진 뉴런 중 일부는 중복되고 입력에 노이즈가 섞여 있기 때문입니다 뉴런은 모델을 산만하게 하는 경향이 있다. 이전 작업은 주로 다음에 초점을 맞춥니다 외부적으로 저분자 뉴런을 추가적인 포스트에 의해 감소시킨다 이를 방지하기 위해 네트워크 프루닝 및 컨텍스트 선택과 같은 사전 처리 문제. 그 외에도, 우리는 모델이 중복 매개 변수를 줄이게 할 수 있다 각 뉴런의 유용성을 본질적으로 향상시킴으로써 입력 노이즈를 억제하는가? 한다면 모델은 어떤 뉴런이 절제되었는지에 상관없이 뉴런을 효율적으로 활용할 수 있다 (비활성화됨), 절제된 하위 모델은 원래 모델보다 더 나은 성능을 발휘하지 않아야 합니다 풀 모델. 모델 간의 이러한 비교 원리에 기초하여, 우리는 다음을 제안한다 광범위한 작업에 대한 교차 모델 비교 손실. 비교손실은 본질적으로 전체 및 작업별 손실에 더하여 순위 손실 전체의 작업별 손실에 대한 기대를 가진 절제된 모델 모형이 최소입니다. 우리는 비교의 보편적인 효과를 입증한다 3개의 개별 NLU 작업에서 14개의 데이터 세트에 대한 광범위한 실험을 통한 손실 널리 사용되는 사전 훈련된 언어 모델 4개를 기반으로 하며, 특히 그것을 찾는다 매개 변수가 적거나 입력이 긴 모델에 대해 우수합니다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-01-14] 오늘의 자연어처리 (0) | 2023.01.14 |
---|---|
[2023-01-13] 오늘의 자연어처리 (0) | 2023.01.13 |
[2023-01-11] 오늘의 자연어처리 (0) | 2023.01.11 |
[2023-01-10] 오늘의 자연어처리 (0) | 2023.01.10 |
[2023-01-09] 오늘의 자연어처리 (0) | 2023.01.09 |
댓글