본문 바로가기
오늘의 자연어 처리

[2023-07-16] 오늘의 자연어처리

by 지환이아빠 2023. 7. 16.
반응형

Personalization for BERT-based Discriminative Speech Recognition Rescoring

 

Recognition of personalized content remains a challenge in end-to-end speech recognition. We explore three novel approaches that use personalized content in a neural rescoring step to improve recognition: gazetteers, prompting, and a cross-attention based encoder-decoder model. We use internal de-identified en-US data from interactions with a virtual voice assistant supplemented with personalized named entities to compare these approaches. On a test set with personalized named entities, we show that each of these approaches improves word error rate by over 10%, against a neural rescoring baseline. We also show that on this test set, natural language prompts can improve word error rate by 7% without any training and with a marginal loss in generalization. Overall, gazetteers were found to perform the best with a 10% improvement in word error rate (WER), while also improving WER on a general test set by 1%.

 

개인화된 콘텐츠를 인식하는 것은 엔드 투 엔드 스피치에서 여전히 어려운 과제입니다 인지도. 우리는 개인화된 콘텐츠를 사용하는 세 가지 새로운 접근법을 탐구한다 인식 개선을 위한 신경 재검색 단계: 가제이터, 프롬프트 및 a 교차 주의 기반 인코더-디코더 모델. 내부적으로 식별되지 않음 으로 보완된 가상 음성 비서와의 상호 작용에서 얻은 en-US 데이터 이러한 접근 방식을 비교하기 위해 개인화된 명명된 엔티티. 테스트 세트에서 개인화된 명명된 엔티티, 우리는 이러한 접근 방식이 각각 개선된다는 것을 보여준다 단어 오류율이 신경 재검색 기준선에 대해 10% 이상 증가했습니다. 우리는 또한 보여준다 이 테스트 세트에서 자연어 프롬프트는 단어 오류율을 향상시킬 수 있다 7%는 교육을 받지 않고 일반화 과정에서 약간의 손실이 발생합니다. 전반적으로. 가제트는 단어 오류가 10% 개선되어 최고의 성능을 발휘하는 것으로 나타났다 속도(WER)를 높이는 동시에 일반 테스트 세트에서 WER을 1% 향상시킵니다. 

 

 

To share or not to share: What risks would laypeople accept to give sensitive data to differentially-private NLP systems?

 

Although the NLP community has adopted central differential privacy as a go-to framework for privacy-preserving model training or data sharing, the choice and interpretation of the key parameter, privacy budget $\varepsilon$ that governs the strength of privacy protection, remains largely arbitrary. We argue that determining the $\varepsilon$ value should not be solely in the hands of researchers or system developers, but must also take into account the actual people who share their potentially sensitive data. In other words: Would you share your instant messages for $\varepsilon$ of 10? We address this research gap by designing, implementing, and conducting a behavioral experiment (311 lay participants) to study the behavior of people in uncertain decision-making situations with respect to privacy-threatening situations. Framing the risk perception in terms of two realistic NLP scenarios and using a vignette behavioral study help us determine what $\varepsilon$ thresholds would lead lay people to be willing to share sensitive textual data - to our knowledge, the first study of its kind.

 

비록 NLP 커뮤니티가 중앙 차등 개인 정보 보호를 채택했지만 개인 정보 보호 모델 교육 또는 데이터 공유를 위한 이동 프레임워크 핵심 매개 변수의 선택 및 해석, 개인 정보 보호 예산 $\varepsilon$ 개인 정보 보호의 강도를 지배하는 것은 대부분 자의적이다. 우리가 $\varepsilon$ 값을 결정하는 것이 오직 다음에만 있어서는 안 된다고 주장한다 연구자나 시스템 개발자의 손이지만, 또한 고려해야 한다 잠재적으로 중요한 데이터를 공유하는 실제 사람들. 다른 말로 하면: 그럴 것이다 $\varepsilon$/10에 대한 인스턴트 메시지를 공유하시겠습니까? 이 문제를 해결합니다 행동 실험을 설계, 구현 및 수행함으로써 연구 격차 (311명의 일반 참가자) 불확실한 사람들의 행동을 연구한다 개인 정보 보호를 위협하는 상황과 관련된 의사 결정 상황. 두 가지 현실적인 NLP 시나리오의 관점에서 위험 인식을 구성하고 다음을 사용한다 비그넷 행동 연구는 $\varepsilon$ 임계값을 결정하는 데 도움이 된다 일반인들이 민감한 텍스트 데이터를 기꺼이 공유하도록 유도합니다 지식, 그것의 종류에 대한 첫번째 연구. 

 

 

DRAGON: A Dialogue-Based Robot for Assistive Navigation with Visual Language Grounding

 

Persons with visual impairments (PwVI) have difficulties understanding and navigating spaces around them. Current wayfinding technologies either focus solely on navigation or provide limited communication about the environment. Motivated by recent advances in visual-language grounding and semantic navigation, we propose DRAGON, a guiding robot powered by a dialogue system and the ability to associate the environment with natural language. By understanding the commands from the user, DRAGON is able to guide the user to the desired landmarks on the map, describe the environment, and answer questions from visual observations. Through effective utilization of dialogue, the robot can ground the user's free-form descriptions to landmarks in the environment, and give the user semantic information through spoken language. We conduct a user study with blindfolded participants in an everyday indoor environment. Our results demonstrate that DRAGON is able to communicate with the user smoothly, provide a good guiding experience, and connect users with their surrounding environment in an intuitive manner.

 

시각장애인(PwVI)은 이해하는 데 어려움이 있으며 그들 주변의 공간을 탐색하는 것. 현재 방법 찾기 기술 중 하나에 초점을 맞춥니다 내비게이션으로만 사용하거나 환경에 대한 제한된 통신을 제공합니다. 시각 언어 기반 및 의미론의 최근 발전에 의해 동기 부여됨 내비게이션, 우리는 대화 시스템으로 구동되는 안내 로봇인 드래곤을 제안한다 환경을 자연어와 연관시키는 능력. 타고 사용자의 명령을 이해하면 DRAGON은 사용자를 다음으로 안내할 수 있습니다 지도에서 원하는 랜드마크, 환경을 설명하고 답을 알려줍니다 시각적 관찰에서 나온 질문들. 대화의 효과적인 활용을 통해, 로봇은 사용자의 자유 형식 설명을 랜드마크에 접지할 수 있습니다 사용자에게 음성 언어를 통해 의미 정보를 제공합니다. 우리가 일상적인 실내에서 눈을 가린 참가자들과 함께 사용자 연구를 실시하다 환경. 우리의 결과는 DRAGON이 의사소통을 할 수 있다는 것을 보여준다 사용자를 부드럽게, 좋은 안내 경험을 제공하고 사용자를 연결합니다 그들의 주변 환경을 직관적으로 파악할 수 있습니다. 

 

 

반응형

댓글