본문 바로가기
오늘의 자연어 처리

[2023-04-04] 오늘의 자연어처리

by 지환이아빠 2023. 4. 4.
반응형

A Multiple Choices Reading Comprehension Corpus for Vietnamese Language Education

 

Machine reading comprehension has been an interesting and challenging task in recent years, with the purpose of extracting useful information from texts. To attain the computer ability to understand the reading text and answer relevant information, we introduce ViMMRC 2.0 - an extension of the previous ViMMRC for the task of multiple-choice reading comprehension in Vietnamese Textbooks which contain the reading articles for students from Grade 1 to Grade 12. This dataset has 699 reading passages which are prose and poems, and 5,273 questions. The questions in the new dataset are not fixed with four options as in the previous version. Moreover, the difficulty of questions is increased, which challenges the models to find the correct choice. The computer must understand the whole context of the reading passage, the question, and the content of each choice to extract the right answers. Hence, we propose the multi-stage approach that combines the multi-step attention network (MAN) with the natural language inference (NLI) task to enhance the performance of the reading comprehension model. Then, we compare the proposed methodology with the baseline BERTology models on the new dataset and the ViMMRC 1.0. Our multi-stage models achieved 58.81% by Accuracy on the test set, which is 5.34% better than the highest BERTology models. From the results of the error analysis, we found the challenge of the reading comprehension models is understanding the implicit context in texts and linking them together in order to find the correct answers. Finally, we hope our new dataset will motivate further research in enhancing the language understanding ability of computers in the Vietnamese language.

 

기계 독해는 흥미롭고 도전적인 작업이었다 텍스트에서 유용한 정보를 추출할 목적으로 최근 몇 년간. 로. 읽기 텍스트를 이해하고 관련된 답변을 할 수 있는 컴퓨터 능력을 얻다 정보, 우리는 ViMMRC 2.0을 소개한다 - 이전 ViMMRC의 확장 베트남 교과서에서 객관식 독해의 과제 1학년부터 12학년까지의 학생들을 위한 독서 기사를 포함한다. 이것. 데이터 세트에는 산문과 시로 구성된 699개의 읽기 지문과 5,273개의 읽기 지문이 있다 문의사항. 새 데이터 세트의 질문은 다음과 같은 네 가지 옵션으로 해결되지 않습니다 이전 버전에서. 게다가 질문의 난이도가 높아집니다, 이는 모델들이 올바른 선택을 찾도록 도전한다. 컴퓨터는 다음을 수행해야 합니다 읽기 지문, 질문, 그리고 전체 맥락을 이해한다 각 선택 항목의 내용을 참조하여 정답을 추출합니다. 따라서, 우리는 다음을 제안한다 다단계 어텐션 네트워크(MAN)를 결합한 다단계 접근 방식 자연어 추론(NLI) 작업을 수행하여 성능을 향상시킨다 독해 모델. 그런 다음, 우리는 제안된 방법론과 비교한다 새로운 데이터 세트 및 ViMMRC 1.0에 대한 기본 BERTology 모델. 우리들의 테스트 세트에서 정확도가 58.81%인 5.34%를 달성한 다단계 모델 최고의 BERTology 모델보다 우수합니다. 오류 결과로부터 분석, 우리는 읽기 이해 모델의 도전이 텍스트의 암묵적인 맥락을 이해하고 순서대로 연결하기 정답을 찾기 위해. 마지막으로, 우리는 우리의 새로운 데이터 세트가 동기부여가 되기를 바란다 컴퓨터의 언어 이해 능력을 향상시키기 위한 추가 연구 베트남어로. 

 

 

$\mathcal{E}$ KÚ [MASK]: Integrating Yorùbá cultural greetings into machine translation

 

This paper investigates the performance of massively multilingual neural machine translation (NMT) systems in translating Yorùbá greetings ($\mathcal{E}$ kú [MASK]), which are a big part of Yorùbá language and culture, into English. To evaluate these models, we present IkiniYorùbá, a Yorùbá-English translation dataset containing some Yorùbá greetings, and sample use cases. We analysed the performance of different multilingual NMT systems including Google and NLLB and show that these models struggle to accurately translate Yorùbá greetings into English. In addition, we trained a Yorùbá-English model by finetuning an existing NMT model on the training split of IkiniYorùbá and this achieved better performance when compared to the pre-trained multilingual NMT models, although they were trained on a large volume of data.

 

이 논문은 대규모 다국어 신경의 성능을 조사한다 요르바 인사말을 번역하는 기계 번역(NMT) 시스템 ($\mathcal{)E}$ ku [MASK]), 요르바어의 큰 부분을 차지하며 문화, 영어로. 이러한 모델을 평가하기 위해, 우리는 Ikini Yorùbá 요르바-영어 번역 데이터 세트에 요르바 인사말이 포함되어 있습니다, 및 샘플 사용 사례. 우리는 다양한 다국어 NMT의 성능을 분석했다 구글과 NLLB를 포함한 시스템들과 이 모델들이 어려움을 겪고 있다는 것을 보여준다 요르바 인사말을 영어로 정확하게 번역하다. 게다가, 우리는 훈련했다 교육에 대한 기존 NMT 모델을 미세 조정하여 요르바-영어 모델 Ikini Yorùbá의 분할과 비교했을 때 더 나은 성능을 달성했다 사전 훈련된 다국어 NMT 모델, 대규모로 훈련되었음에도 불구하고 데이터의 양. 

 

 

Trimming Phonetic Alignments Improves the Inference of Sound Correspondence Patterns from Multilingual Wordlists

 

Sound correspondence patterns form the basis of cognate detection and phonological reconstruction in historical language comparison. Methods for the automatic inference of correspondence patterns from phonetically aligned cognate sets have been proposed, but their application to multilingual wordlists requires extremely well annotated datasets. Since annotation is tedious and time consuming, it would be desirable to find ways to improve aligned cognate data automatically. Taking inspiration from trimming techniques in evolutionary biology, which improve alignments by excluding problematic sites, we propose a workflow that trims phonetic alignments in comparative linguistics prior to the inference of correspondence patterns. Testing these techniques on a large standardized collection of ten datasets with expert annotations from different language families, we find that the best trimming technique substantially improves the overall consistency of the alignments. The results show a clear increase in the proportion of frequent correspondence patterns and words exhibiting regular cognate relations.

 

음향 대응 패턴은 연관된 검출의 기초를 형성한다 역사적 언어 비교의 음운론적 재구성. 의 방법 음성적으로 정렬된 대응 패턴의 자동 추론 관련 집합이 제안되었지만 다국어에 대한 적용 단어 목록에는 주석이 매우 잘 달린 데이터 세트가 필요하다. 주석이 있기 때문에 지루하고 시간이 많이 소요되며, 개선할 방법을 찾는 것이 바람직할 것이다 자동으로 정렬된 관련 데이터. 트리밍 기법에서 영감을 얻습니다 문제가 있는 것을 배제함으로써 정렬을 개선하는 진화 생물학에서 사이트, 우리는 비교적 음성 정렬을 다듬는 워크플로우를 제안한다 대응 패턴의 추론 이전의 언어학. 테스트 중 전문가와 함께하는 10개의 데이터 세트의 대규모 표준화된 컬렉션에 대한 기술 다른 언어 계열의 주석, 우리는 최고의 트리밍을 발견했다 기법은 선형의 전체적인 일관성을 크게 향상시킵니다. 그 결과는 빈번한 서신의 비율이 명백하게 증가하는 것을 보여준다 규칙적인 동족 관계를 나타내는 패턴과 단어. 

 

 

반응형

댓글