본문 바로가기
오늘의 자연어 처리

[2023-01-23] 오늘의 자연어처리

by 지환이아빠 2023. 1. 23.
반응형

Adapting Multilingual Speech Representation Model for a New, Underresourced Language through Multilingual Fine-tuning and Continued Pretraining

 

In recent years, neural models learned through self-supervised pretraining on large scale multilingual text or speech data have exhibited promising results for underresourced languages, especially when a relatively large amount of data from related language(s) is available. While the technology has a potential for facilitating tasks carried out in language documentation projects, such as speech transcription, pretraining a multilingual model from scratch for every new language would be highly impractical. We investigate the possibility for adapting an existing multilingual wav2vec 2.0 model for a new language, focusing on actual fieldwork data from a critically endangered tongue: Ainu. Specifically, we (i) examine the feasibility of leveraging data from similar languages also in fine-tuning; (ii) verify whether the model's performance can be improved by further pretraining on target language data. Our results show that continued pretraining is the most effective method to adapt a wav2vec 2.0 model for a new language and leads to considerable reduction in error rates. Furthermore, we find that if a model pretrained on a related speech variety or an unrelated language with similar phonological characteristics is available, multilingual fine-tuning using additional data from that language can have positive impact on speech recognition performance when there is very little labeled data in the target language.

 

최근 몇 년 동안, 신경 모델은 자기 지도 사전 훈련을 통해 학습되었다 대규모 다국어 텍스트 또는 음성 데이터는 유망한 결과를 보여주었다 특히 비교적 많은 양의 데이터가 있는 경우 리소스 부족 언어의 경우 관련 언어를 사용할 수 있습니다. 이 기술은 다음과 같은 잠재력을 가지고 있습니다 다음과 같은 언어 문서화 프로젝트에서 수행되는 작업을 촉진합니다 음성 전사, 모든 언어에 대한 다국어 모델을 처음부터 사전 교육 새로운 언어는 매우 비현실적일 것이다. 우리는 의 가능성을 조사한다 새로운 언어를 위해 기존의 다국어 wav2vec 2.0 모델을 적용한다, 심각한 멸종 위기에 처한 언어의 실제 현장 연구 데이터에 초점을 맞춥니다: 아이누. 구체적으로, 우리는 (i) 유사한 데이터의 활용 가능성을 조사한다 또한 미세 조정에 사용되는 언어. (ii) 모델의 성능이 가능한지 여부를 확인합니다 대상 언어 데이터에 대한 추가 사전 훈련을 통해 개선된다. 우리의 결과는 보여준다 지속적인 사전 훈련이 wav2vec 2.0을 적용하는 가장 효과적인 방법이라는 것 새로운 언어에 대한 모델과 오류율의 상당한 감소로 이어진다. 또한, 우리는 모델이 관련된 음성 변형에 대해 사전 훈련을 받은 경우 또는 유사한 음운학적 특성을 가진 관련 없는 언어를 사용할 수 있다, 해당 언어의 추가 데이터를 사용한 다국어 미세 조정은 다음을 가질 수 있다 거의 없을 때 음성 인식 성능에 미치는 긍정적인 영향 대상 언어로 레이블이 지정된 데이터. 

 

 

Are Language Models Worse than Humans at Following Prompts? It's Complicated

 

Prompts have been the center of progress in advancing language models' zero-shot and few-shot performance. However, recent work finds that models can perform surprisingly well when given intentionally irrelevant or misleading prompts. Such results may be interpreted as evidence that model behavior is not "human like". In this study, we challenge a central assumption in such work: that humans would perform badly when given pathological instructions. We find that humans are able to reliably ignore irrelevant instructions and thus, like models, perform well on the underlying task despite an apparent lack of signal regarding the task they are being asked to do. However, when given deliberately misleading instructions, humans follow the instructions faithfully, whereas models do not. Thus, our conclusion is mixed with respect to prior work. We argue against the earlier claim that high performance with irrelevant prompts constitutes evidence against models' instruction understanding, but we reinforce the claim that models' failure to follow misleading instructions raises concerns. More broadly, we caution that future research should not idealize human behaviors as a monolith and should not train or evaluate models to mimic assumptions about these behaviors without first validating humans' behaviors empirically.

 

프롬프트는 언어 모델을 발전시키는 데 있어 진보의 중심이 되어 왔다 제로샷 및 퓨샷 성능. 그러나 최근 연구에 따르면 모델들은 의도적으로 무관하거나 오해의 소지가 있을 때 놀라울 정도로 잘 수행한다 프롬프트가 표시. 이러한 결과는 모델 동작이 그렇지 않다는 증거로 해석될 수 있다 "인간답다" 이 연구에서, 우리는 그러한 작업의 중심 가정에 도전한다: 인간이 병적인 지시를 받았을 때 나쁜 성과를 낼 것이라는 것. 우리는 발견한다 인간은 관련이 없는 지시를 신뢰할 수 있게 무시할 수 있고 따라서 모델, 명백한 신호 부족에도 불구하고 기본 작업에서 잘 수행합니다 그들이 요구받고 있는 일에 관해서. 다만, 고의로 부여한 경우에는 오해의 소지가 있는 지시들, 인간들은 지시들을 충실히 따른다, 반면에 모델은 그렇지 않습니다. 따라서 이전 작업과 관련하여 우리의 결론은 엇갈린다. 우리가 관련 없는 프롬프트로 고성능이라는 이전의 주장에 반대한다 모델의 지침 이해에 반하는 증거를 구성하지만, 우리는 모델들이 잘못된 지시를 따르지 않는다는 주장을 강화하다 우려를 자아낸다. 보다 광범위하게, 우리는 미래의 연구는 하지 말아야 한다고 경고한다 인간의 행동을 단일 조직으로 이상화하고 모델을 훈련하거나 평가해서는 안 된다 인간의 행동을 먼저 검증하지 않고 이러한 행동에 대한 가정을 모방하는 것 경험적인 행동을 합니다. 

 

 

Understanding and Detecting Hallucinations in Neural Machine Translation via Model Introspection

 

Neural sequence generation models are known to "hallucinate", by producing outputs that are unrelated to the source text. These hallucinations are potentially harmful, yet it remains unclear in what conditions they arise and how to mitigate their impact. In this work, we first identify internal model symptoms of hallucinations by analyzing the relative token contributions to the generation in contrastive hallucinated vs. non-hallucinated outputs generated via source perturbations. We then show that these symptoms are reliable indicators of natural hallucinations, by using them to design a lightweight hallucination detector which outperforms both model-free baselines and strong classifiers based on quality estimation or large pre-trained models on manually annotated English-Chinese and German-English translation test beds.

 

신경 서열 생성 모델은 다음을 생성함으로써 "환원"하는 것으로 알려져 있다 원본 텍스트와 관련이 없는 출력입니다. 이 환각들은 잠재적으로 해롭지만, 그것들이 어떤 조건에서 발생하는지는 여전히 불분명하다 영향을 완화하는 방법. 이 작업에서는 먼저 내부 모델을 식별합니다 상대적인 토큰 기여를 분석함으로써 환각의 증상 대조적 환각 생성 대 비전향 출력 생성 소스 섭동을 통해. 그런 다음 이러한 증상이 신뢰할 수 있음을 보여줍니다 가벼운 무게를 디자인하기 위해 그것들을 사용함으로써, 자연적인 환각의 지표들 모델이 없는 기준선과 강력한 성능을 모두 능가하는 환각 감지기 품질 추정 또는 수동으로 사전 훈련된 대규모 모델을 기반으로 하는 분류기 주석이 달린 영어-중국어 및 독일어-영어 번역 테스트 베드. 

 

 

반응형

댓글