본문 바로가기
오늘의 자연어 처리

[2022-10-25] 오늘의 자연어처리

by 지환이아빠 2022. 10. 25.
반응형

Audio-to-Intent Using Acoustic-Textual Subword Representations from End-to-End ASR

 

Accurate prediction of the user intent to interact with a voice assistant (VA) on a device (e.g. on the phone) is critical for achieving naturalistic, engaging, and privacy-centric interactions with the VA. To this end, we present a novel approach to predict the user's intent (the user speaking to the device or not) directly from acoustic and textual information encoded at subword tokens which are obtained via an end-to-end ASR model. Modeling directly the subword tokens, compared to modeling of the phonemes and/or full words, has at least two advantages: (i) it provides a unique vocabulary representation, where each token has a semantic meaning, in contrast to the phoneme-level representations, (ii) each subword token has a reusable "sub"-word acoustic pattern (that can be used to construct multiple full words), resulting in a largely reduced vocabulary space than of the full words. To learn the subword representations for the audio-to-intent classification, we extract: (i) acoustic information from an E2E-ASR model, which provides frame-level CTC posterior probabilities for the subword tokens, and (ii) textual information from a pre-trained continuous bag-of-words model capturing the semantic meaning of the subword tokens. The key to our approach is the way it combines acoustic subword-level posteriors with text information using the notion of positional-encoding in order to account for multiple ASR hypotheses simultaneously. We show that our approach provides more robust and richer representations for audio-to-intent classification, and is highly accurate with correctly mitigating 93.3% of unintended user audio from invoking the smart assistant at 99% true positive rate.

 

음성 비서와 상호 작용하려는 사용자의 의도를 정확하게 예측 장치(예: 전화)의 (VA)는 자연주의를 달성하는 데 매우 중요하다. VA와의 매력적이고 개인 정보 중심적인 상호 작용. 이를 위해, 우리는 다음을 제시한다. 사용자의 의도를 예측하는 새로운 접근법(사용자가 장치에 말하는 것) 또는 그렇지 않음) 하위 단어로 인코딩된 음향 및 텍스트 정보에서 직접 종단 간 ASR 모델을 통해 얻은 토큰입니다. 직접 모델링 음소 및/또는 전체 단어의 모델링과 비교하여 하위 단어 토큰은 다음과 같다. 최소 두 가지 이점: (i) 고유한 어휘 표현을 제공합니다. 각 토큰은 음소 수준과 대조적으로 의미론적 의미를 갖는다. 표현, (ii) 각 하위 단어 토큰은 재사용 가능한 "하위" 단어 어쿠스틱을 가지고 있다. 패턴(여러 개의 전체 단어를 구성하는 데 사용할 수 있음), 결과: 어휘 공간이 전체 단어보다 크게 줄었다. 하위 단어를 배우려면 음성 대 음성 분류에 대한 표현, 우리는 추출한다: (i) 프레임 레벨 CTC를 제공하는 E2E-ASR 모델의 음향 정보 하위 단어 토큰에 대한 사후 확률 및 (ii) 텍스트 정보 사전 훈련된 연속 단어 가방 모델에서 의미론적 의미를 포착합니다. 하위 단어 토큰의. 우리의 접근 방식의 핵심은 그것이 어쿠스틱을 결합하는 방식입니다. 다음 개념을 사용하여 텍스트 정보를 가진 하위 단어 수준 포스터 다중 ASR 가설을 설명하기 위한 위치 인코딩 동시에. 우리는 우리의 접근 방식이 더 강력하고 풍부함을 제공한다는 것을 보여준다. 음성 대 음성 분류를 위한 표현이며, 매우 정확하다. 스마트 호출에서 의도하지 않은 사용자 오디오의 93.3%를 올바르게 완화 99%의 실제 양성률로 보조합니다. 

 

 

NEREL-BIO: A Dataset of Biomedical Abstracts Annotated with Nested Named Entities

 

This paper describes NEREL-BIO -- an annotation scheme and corpus of PubMed abstracts in Russian and smaller number of abstracts in English. NEREL-BIO extends the general domain dataset NEREL by introducing domain-specific entity types. NEREL-BIO annotation scheme covers both general and biomedical domains making it suitable for domain transfer experiments. NEREL-BIO provides annotation for nested named entities as an extension of the scheme employed for NEREL. Nested named entities may cross entity boundaries to connect to shorter entities nested within longer entities, making them harder to detect. NEREL-BIO contains annotations for 700+ Russian and 100+ English abstracts. All English PubMed annotations have corresponding Russian counterparts. Thus, NEREL-BIO comprises the following specific features: annotation of nested named entities, it can be used as a benchmark for cross-domain (NEREL -> NEREL-BIO) and cross-language (English -> Russian) transfer. We experiment with both transformer-based sequence models and machine reading comprehension (MRC) models and report their results. The dataset is freely available at this https URL.

 

이 논문은 PubMed의 주석 체계와 말뭉치인 NEREL-BIO를 설명한다. 러시아어로 된 요약과 영어로 된 요약의 수가 더 적습니다. NEREL-BIO 도메인별 엔티티를 도입하여 일반 도메인 데이터 세트 NEREL을 확장합니다. 유형. NEREL-BIO 주석 체계는 일반 및 생물의학 영역을 모두 포함합니다. 도메인 전송 실험에 적합하게 만듭니다. NEREL-BIO는 다음을 제공합니다. 중첩된 명명된 도면요소에 대한 주석 - 다음에 사용되는 방식의 확장입니다. NEREL. 중첩된 명명된 도면요소는 더 짧은 도면요소에 연결하기 위해 도면요소 경계를 넘을 수 있습니다. 더 긴 도면요소 내에 중첩되어 탐지하기가 더 어려워집니다. NEREL-BIO는 700개 이상의 러시아어 및 100개 이상의 영어 초록에 대한 주석을 포함하고 있다. 모든 영어 PubMed 주석에는 해당 러시아어 주석이 있다. 따라서, NEREL-BIO는 다음과 같은 특정 기능으로 구성됩니다. 엔티티, 교차 도메인의 벤치마크(NEREL -> NEREL-BIO)로 사용할 수 있습니다. 그리고 교차 언어(영어 -> 러시아어) 전송. 우리는 둘 다로 실험한다. 변압기 기반 시퀀스 모델 및 기계 판독 이해(MRC) 결과를 모델링하고 보고합니다. 데이터 세트는 이 https URL에서 무료로 사용할 수 있습니다. 

 

 

Clip-Tuning: Towards Derivative-free Prompt Learning with a Mixture of Rewards

 

Derivative-free prompt learning has emerged as a lightweight alternative to prompt tuning, which only requires model inference to optimize the prompts. However, existing work did not take full advantage of the over-parameterized characteristics of large pre-trained language models (PLMs). In this paper, we propose Clip-Tuning, a simple yet effective method that adopts diverse frozen "thinned" networks of PLMs to obtain a mixture of rewards and thus advance the derivative-free prompt learning. The thinned networks consist of all the hidden units that survive a stationary dropout strategy, whose inference predictions reflect an ensemble of partial views over prompted training samples. Our method outperforms previous gradient-free prompt learning methods and achieves parity with gradient-based counterparts on seven language understanding benchmarks under few-shot settings.

 

파생형이 없는 신속한 학습은 가벼운 대안으로 부상했다. 프롬프트를 최적화하려면 모델 추론만 필요합니다. 그러나 기존 작업은 과도하게 매개 변수화된 것을 충분히 활용하지 못했다. 사전 훈련된 대규모 언어 모델(PLM)의 특성. 이 논문에서, 우리는 다양한 냉동 방식을 채택한 간단하면서도 효과적인 방법인 클립 튜닝을 제안합니다. PLM의 "얇은" 네트워크는 보상의 혼합을 얻고 따라서 진보한다. 파생이 없는 신속한 학습 얇아진 네트워크는 숨겨진 모든 것으로 구성됩니다. 고정적인 중퇴 전략에서 살아남은 유닛들, 그 추론 예측들 지시된 교육 샘플에 대한 부분적 뷰의 앙상블을 반영합니다. 우리의 방법 이전의 그레이디언트 없는 신속한 학습 방법을 능가하고 동등성을 달성한다. 7개 언어 이해 벤치마크에 대한 그레이디언트 기반 대응자와 함께 몇 번의 촬영으로 

 

 

반응형

댓글