본문 바로가기
오늘의 자연어 처리

[2023-03-30] 오늘의 자연어처리

by 지환이아빠 2023. 3. 30.

Summarizing Indian Languages using Multilingual Transformers based Models


With the advent of multilingual models like mBART, mT5, IndicBART etc., summarization in low resource Indian languages is getting a lot of attention now a days. But still the number of datasets is low in number. In this work, we (Team HakunaMatata) study how these multilingual models perform on the datasets which have Indian languages as source and target text while performing summarization. We experimented with IndicBART and mT5 models to perform the experiments and report the ROUGE-1, ROUGE-2, ROUGE-3 and ROUGE-4 scores as a performance metric.


mBart, mT5, IndicB와 같은 다국어 모델의 출현으로미술 등, 자원이 적은 인도 언어로 요약하는 것은 많은 관심을 받고 있다 요즘 들어. 그러나 데이터 세트의 수는 여전히 적다. 이 작품에서 우리는 (하쿠나 마타타 팀)은 이러한 다국어 모델이 데이터 세트에서 어떻게 수행되는지 연구한다 수행하는 동안 인도어를 소스 및 대상 텍스트로 사용하는 경우 요약. 우리는 IndicB로 실험했다ART 및 mT5 모델을 사용하여 다음 작업을 수행합니다 실험을 수행하고 ROUGE-1, ROUGE-2, ROUGE-3 및 ROUGE-4 점수를 보고한다 성능 메트릭입니다. 



AraSpot: Arabic Spoken Command Spotting


Spoken keyword spotting (KWS) is the task of identifying a keyword in an audio stream and is widely used in smart devices at the edge in order to activate voice assistants and perform hands-free tasks. The task is daunting as there is a need, on the one hand, to achieve high accuracy while at the same time ensuring that such systems continue to run efficiently on low power and possibly limited computational capabilities devices. This work presents AraSpot for Arabic keyword spotting trained on 40 Arabic keywords, using different online data augmentation, and introducing ConformerGRU model architecture. Finally, we further improve the performance of the model by training a text-to-speech model for synthetic data generation. AraSpot achieved a State-of-the-Art SOTA 99.59% result outperforming previous approaches.


KWS(Speaked Keyword Spoting)는 키워드를 식별하는 작업이다 오디오 스트림 및 가장자리의 스마트 장치에서 널리 사용됩니다 음성 비서를 활성화하고 핸즈프리 작업을 수행합니다. 다음과 같은 작업이 만만치 않습니다 한편으로는 높은 정확도를 달성하면서 동시에 달성할 필요가 있다 이러한 시스템이 저전력으로 계속 효율적으로 실행되도록 보장하는 시간 및 제한된 계산 기능 장치일 수 있습니다. 이 작품은 아라스팟을 보여준다 40개의 아랍어 키워드에 대해 훈련된 아랍어 키워드 스팟팅, 다른 사용 온라인 데이터 확대 및 ConformerGRU 모델 아키텍처 소개. 마지막으로, 우리는 훈련을 통해 모델의 성능을 더욱 향상시킨다 합성 데이터 생성을 위한 텍스트 간 모델. 아라스팟이 달성한 것은 최첨단 SOTA 99.59%는 이전 접근 방식보다 성능이 우수합니다. 



ACO-tagger: A Novel Method for Part-of-Speech Tagging using Ant Colony Optimization


Swarm Intelligence algorithms have gained significant attention in recent years as a means of solving complex and non-deterministic problems. These algorithms are inspired by the collective behavior of natural creatures, and they simulate this behavior to develop intelligent agents for computational tasks. One such algorithm is Ant Colony Optimization (ACO), which is inspired by the foraging behavior of ants and their pheromone laying mechanism. ACO is used for solving difficult problems that are discrete and combinatorial in nature. Part-of-Speech (POS) tagging is a fundamental task in natural language processing that aims to assign a part-of-speech role to each word in a sentence. In this research paper, proposed a high-performance POS-tagging method based on ACO called ACO-tagger. This method achieved a high accuracy rate of 96.867%, outperforming several state-of-the-art methods. The proposed method is fast and efficient, making it a viable option for practical applications.


스웜 인텔리전스 알고리즘은 최근에 상당한 관심을 받고 있다 복잡하고 비결정론적인 문제를 해결하기 위한 수단으로서 수년간. 이것들 알고리즘은 자연 생물의 집단 행동에 의해 영감을 받는다 그들은 컴퓨터를 위한 지능형 에이전트를 개발하기 위해 이 행동을 시뮬레이션한다 그러한 알고리즘 중 하나는 개미 서식지 최적화이다. 이것은 영감을 받았다 개미들의 먹이를 찾는 행동과 그들의 페로몬 산란 메커니즘에 의해. ACO는 에서 이산적이고 조합적인 어려운 문제를 해결하는 데 사용된다 자연. POS(Part-of-Speech) 태깅은 자연어의 기본적인 작업이다 각 단어에 부분 역할을 할당하는 것을 목표로 하는 처리 문장. 본 연구 논문에서는 고성능 POS-tagging을 제안하였다 ACO-tagger라고 불리는 ACO 기반의 방법. 이 방법은 높은 정확도를 달성했다 96.867%로 여러 가지 최첨단 방법을 능가했다. 제안된 방법은 빠르고 효율적이며 실용적인 옵션이 됩니다 적용들. 



