본문 바로가기
오늘의 자연어 처리

[2023-07-02] 오늘의 자연어처리

by 지환이아빠 2023. 7. 2.
반응형

Automatic Speech Recognition of Non-Native Child Speech for Language Learning Applications

 

Voicebots have provided a new avenue for supporting the development of language skills, particularly within the context of second language learning. Voicebots, though, have largely been geared towards native adult speakers. We sought to assess the performance of two state-of-the-art ASR systems, Wav2Vec2.0 and Whisper AI, with a view to developing a voicebot that can support children acquiring a foreign language. We evaluated their performance on read and extemporaneous speech of native and non-native Dutch children. We also investigated the utility of using ASR technology to provide insight into the children's pronunciation and fluency. The results show that recent, pre-trained ASR transformer-based models achieve acceptable performance from which detailed feedback on phoneme pronunciation quality can be extracted, despite the challenging nature of child and non-native speech.

 

보이스봇은 개발을 지원하기 위한 새로운 방법을 제공했다 언어 기술, 특히 제2외국어 학습의 맥락 안에서. 그러나 보이스봇은 주로 성인 원어민을 대상으로 만들어졌다. 우리가 두 개의 최첨단 ASR 시스템의 성능을 평가하기 위해 노력했다, Wav2Vec2.0과 Whisper AI는 음성봇을 개발하기 위한 목적으로 아이들의 외국어 습득을 지원하다. 우리는 그들의 성과를 평가했다 네덜란드 원주민 및 비원주민 아이들의 읽기 및 즉석 연설에 관하여. 우리가 또한 ASR 기술을 사용하여 에 대한 통찰력을 제공하는 유용성을 조사했습니다 아이들의 발음과 유창함. 결과에 따르면 최근에, 사전 교육을 받은 ASR 변압기 기반 모델은 다음과 같은 이점을 제공합니다 음소 발음 품질에 대한 자세한 피드백을 추출할 수 있습니다, 어린이와 비원어민 언어의 도전적인 성격에도 불구하고. 

 

 

UMASS_BioNLP at MEDIQA-Chat 2023: Can LLMs generate high-quality synthetic note-oriented doctor-patient conversations?

 

This paper presents UMASS_BioNLP team participation in the MEDIQA-Chat 2023 shared task for Task-A and Task-C. We focus especially on Task-C and propose a novel LLMs cooperation system named a doctor-patient loop to generate high-quality conversation data sets. The experiment results demonstrate that our approaches yield reasonable performance as evaluated by automatic metrics such as ROUGE, medical concept recall, BLEU, and Self-BLEU. Furthermore, we conducted a comparative analysis between our proposed method and ChatGPT and GPT-4. This analysis also investigates the potential of utilizing cooperation LLMs to generate high-quality datasets.

 

본 논문은 MEDIQA-Chat 2023에 UMASS_BioNLP 팀의 참여를 제시한다 태스크-A 및 태스크-C에 대한 공유 태스크. 우리는 특히 Task-C에 초점을 맞추고 다음을 제안한다 생성할 의사-환자 루프라는 새로운 LLM 협력 시스템 고품질 대화 데이터 세트. 실험 결과는 다음과 같은 것을 보여준다 우리의 접근 방식은 자동 메트릭에 의해 평가된 합리적인 성능을 산출한다 ROUGE, 의학적 개념 리콜, BLEU, Self-BLEU 등이 있습니다. 게다가, 우리는 우리가 제안한 방법과 ChatGPT 사이에서 비교 분석을 수행했다 GPT-4. 이 분석은 또한 협력의 활용 가능성을 조사한다 고품질 데이터 세트를 생성하기 위한 LLM. 

 

 

Benchmarking Large Language Model Capabilities for Conditional Generation

 

Pre-trained large language models (PLMs) underlie most new developments in natural language processing. They have shifted the field from application-specific model pipelines to a single model that is adapted to a wide range of tasks. Autoregressive PLMs like GPT-3 or PaLM, alongside techniques like few-shot learning, have additionally shifted the output modality to generation instead of classification or regression. Despite their ubiquitous use, the generation quality of language models is rarely evaluated when these models are introduced. Additionally, it is unclear how existing generation tasks--while they can be used to compare systems at a high level--relate to the real world use cases for which people have been adopting them. In this work, we discuss how to adapt existing application-specific generation benchmarks to PLMs and provide an in-depth, empirical study of the limitations and capabilities of PLMs in natural language generation tasks along dimensions such as scale, architecture, input and output language. Our results show that PLMs differ in their applicability to different data regimes and their generalization to multiple languages and inform which PLMs to use for a given generation task setup. We share best practices to be taken into consideration when benchmarking generation capabilities during the development of upcoming PLMs.

 

사전 훈련된 대형 언어 모델(PLM)은 대부분의 새로운 개발의 기초가 된다 자연어 처리. 그들은 그 분야를 에서 옮겼다 애플리케이션별 모델 파이프라인을 단일 모델로 전환하여 다방면에 걸친 일. GPT-3 또는 PaLM과 같은 자동 회귀 PLM과 함께 퓨샷 학습과 같은 기술은 추가적으로 출력을 이동시켰다 모달리티를 분류 또는 회귀 대신 세대로 변환합니다. 그들이 있음에도 불구하고 유비쿼터스 사용, 언어 모델의 생성 품질은 거의 평가되지 않는다 이 모델들이 도입될 때. 게다가, 어떻게 존재하는지는 불분명하다 생성 작업--시스템을 높은 수준으로 비교하는 데 사용할 수는 있지만 레벨--사람들이 채택해온 실제 사용 사례와 비교하여 그들. 이 작업에서, 우리는 기존의 특정 애플리케이션을 어떻게 적용할 것인가에 대해 논의한다 PLM에 대한 생성 벤치마크 및 심층적이고 경험적인 연구를 제공합니다 자연어 생성 작업에서 PLM의 한계와 기능 스케일, 아키텍처, 입력 및 출력 언어와 같은 차원. 우리의 결과 PLM은 서로 다른 데이터 체제에 대한 적용 가능성이 다르다는 것을 보여준다 여러 언어로 일반화하고 어떤 PLM을 사용해야 하는지 알려줍니다 지정된 생성 작업 설정입니다. NAT은 채택해야 할 모범 사례를 공유합니다 개발 중에 생성 기능을 벤치마킹할 때 고려해야 할 사항 곧 있을 PLM의. 

 

 

반응형

댓글