본문 바로가기
오늘의 자연어 처리

[2023-05-20] 오늘의 자연어처리

by 지환이아빠 2023. 5. 20.
반응형

NollySenti: Leveraging Transfer Learning and Machine Translation for Nigerian Movie Sentiment Classification

 

Africa has over 2000 indigenous languages but they are under-represented in NLP research due to lack of datasets. In recent years, there have been progress in developing labeled corpora for African languages. However, they are often available in a single domain and may not generalize to other domains. In this paper, we focus on the task of sentiment classification for cross domain adaptation. We create a new dataset, NollySenti - based on the Nollywood movie reviews for five languages widely spoken in Nigeria (English, Hausa, Igbo, Nigerian-Pidgin, and Yoruba. We provide an extensive empirical evaluation using classical machine learning methods and pre-trained language models. Leveraging transfer learning, we compare the performance of cross-domain adaptation from Twitter domain, and cross-lingual adaptation from English language. Our evaluation shows that transfer from English in the same target domain leads to more than 5% improvement in accuracy compared to transfer from Twitter in the same language. To further mitigate the domain difference, we leverage machine translation (MT) from English to other Nigerian languages, which leads to a further improvement of 7% over cross-lingual evaluation. While MT to low-resource languages are often of low quality, through human evaluation, we show that most of the translated sentences preserve the sentiment of the original English reviews.

 

아프리카에는 2,000개 이상의 토착 언어가 있지만 그들은 부족하다 데이터 세트 부족으로 인한 NLP 연구. 최근 몇 년간 진전이 있었다 아프리카 언어를 위한 레이블링된 말뭉치를 개발하는 중. 하지만, 그들은 종종 단일 도메인에서 사용할 수 있으며 다른 도메인으로 일반화되지 않을 수 있습니다. 이 점에서. 종이, 우리는 교차 도메인에 대한 감정 분류 작업에 초점을 맞춘다 적응. 우리는 놀리우드 영화를 기반으로 한 새로운 데이터 세트인 놀리 센티를 만든다 나이지리아에서 널리 사용되는 5개 언어에 대한 리뷰(영어, 하우사, 이그보, 나이지리아-피진, 그리고 요루바. 우리는 다음을 사용하여 광범위한 경험적 평가를 제공한다 고전적인 기계 학습 방법과 사전 훈련된 언어 모델. 활용 전이 학습, 우리는 교차 도메인 적응의 성능을 비교한다 트위터 도메인, 그리고 영어에서 언어 간 적응. 우리들의 평가는 동일한 대상 도메인에서 영어로부터의 이전이 다음으로 이어진다는 것을 보여준다 Twitter에서 전송하는 것과 비교하여 정확도가 5% 이상 향상되었습니다 같은 언어. 도메인 차이를 더욱 완화하기 위해 시스템을 활용합니다 영어에서 다른 나이지리아 언어로의 번역 (MT), 이것은 다음으로 이어진다 교차 언어 평가에 비해 7% 더 향상되었습니다. MT하는 동안 저자원 언어는 종종 인간의 평가를 통해 품질이 낮다 번역된 문장의 대부분이 감정을 보존한다는 것을 보여준다 독창적인 영어 평론. 

 

 

Less is More! A slim architecture for optimal language translation

 

The softmax attention mechanism has emerged as a noteworthy development in the field of Artificial Intelligence research, building on the successes of Transformer-based architectures. However, their ever increasing sizes necessitate ever increasing computational memory, that limits their usage. We propose KgV, a sigmoid gating mechanism that, in conjunction with softmax attention, significantly boosts performance without increasing architecture size. To amend the size requirements, we leverage Tensor Chains to identify and prune the excess parameters. We find that such excess resides primarily within the embedding layer, and not in the output linear layer. To further improve embedding and significantly reduce parameters, we introduce H-SoftPOS, a hierarchical embedding layer which simultaneously enhances performance. Remarkably, on the WMT14 English-German validation set, our approach yields a threefold reduction in perplexity, surpassing the current state-of-the-art, while reducing parameter counts also by a factor of 3. When we further reduce the number of parameters up to sevenfold, we can still achieve a 21\% decrease in perplexity with respect to the baseline Transformer. To understand generalization capabilities, we conduct experiments on the 7 language pairs of the WMT17 dataset. Our method outperforms existing techniques in terms of test loss while simultaneously halving the number of parameters. Moreover, we observe a 70 times reduction in variance with respect to the prior state-of-the-art. In conclusion, our proposed method yields significant improvements in performance and much lower memory cost. We call the resulting architecture Anthe.

 

소프트맥스 주의 메커니즘은 주목할 만한 발전으로 나타났다 의 성공을 기반으로 하는 인공지능 연구 분야 변압기 기반 아키텍처. 그러나, 그들의 크기는 계속 증가하고 있다 컴퓨터 메모리를 늘려서 사용을 제한해야 합니다. 우리가 소프트맥스와 함께 시그모이드 게이팅 메커니즘인 KgV를 제안한다 아키텍처를 늘리지 않고 성능을 크게 향상시킵니다 크기. 크기 요구사항을 수정하기 위해, 우리는 텐서 체인을 이용하여 식별하고 초과 매개 변수를 제거합니다. 우리는 그러한 과잉이 주로 내부에 있다는 것을 발견한다 임베딩 레이어(출력 선형 레이어가 아님). 더욱 개선하기 위해 내장하고 매개 변수를 크게 줄인다, 우리는 H-SoftPOS, 즉 성능을 동시에 향상시키는 계층적 임베딩 레이어. 놀랍게도 WMT14 영어-독일어 검증 세트에서 우리의 접근 방식은 현재의 최첨단 기술을 능가하는 당혹감의 3배 감소, 모수 카운트를 3의 계수로 줄이는 동안. 우리가 더 줄인다 최대 7배의 매개 변수 수, 우리는 여전히 21% 감소를 달성할 수 있다 베이스라인 트랜스포머와 관련하여 당혹스러워하고 있습니다. 이해하기 일반화 기능, 우리는 7개 언어 쌍에 대한 실험을 수행한다 WMT17 데이터 세트. 우리의 방법은 테스트 측면에서 기존 기술을 능가한다 매개 변수의 수를 절반으로 줄이는 동시에 손실이 발생합니다. 게다가, 우리는 이전과 비교하여 70배의 차이를 보이다 최첨단의. 결론적으로, 우리가 제안한 방법은 상당한 양을 산출한다 향상된 성능과 훨씬 더 낮은 메모리 비용. 우리는 결과라고 부른다 건축 안테. 

 

 

ORKG-Leaderboards: A Systematic Workflow for Mining Leaderboards as a Knowledge Graph

 

The purpose of this work is to describe the Orkg-Leaderboard software designed to extract leaderboards defined as Task-Dataset-Metric tuples automatically from large collections of empirical research papers in Artificial Intelligence (AI). The software can support both the main workflows of scholarly publishing, viz. as LaTeX files or as PDF files. Furthermore, the system is integrated with the Open Research Knowledge Graph (ORKG) platform, which fosters the machine-actionable publishing of scholarly findings. Thus the system output, when integrated within the ORKG's supported Semantic Web infrastructure of representing machine-actionable 'resources' on the Web, enables: 1) broadly, the integration of empirical results of researchers across the world, thus enabling transparency in empirical research with the potential to also being complete contingent on the underlying data source(s) of publications; and 2) specifically, enables researchers to track the progress in AI with an overview of the state-of-the-art (SOTA) across the most common AI tasks and their corresponding datasets via dynamic ORKG frontend views leveraging tables and visualization charts over the machine-actionable data. Our best model achieves performances above 90% F1 on the \textit{leaderboard} extraction task, thus proving Orkg-Leaderboards a practically viable tool for real-world usage. Going forward, in a sense, Orkg-Leaderboards transforms the leaderboard extraction task to an automated digitalization task, which has been, for a long time in the community, a crowdsourced endeavor.

 

이 작업의 목적은 Orkg-Leaderboard 소프트웨어를 설명하는 것입니다 작업-데이터 세트-메트릭 튜플로 정의된 리더보드를 추출하도록 설계되었습니다 인공의 많은 경험적 연구 논문 모음에서 자동으로 지능(AI). 소프트웨어는 의 주요 워크플로우를 모두 지원할 수 있습니다 학술 출판, 즉 LaTeX 파일 또는 PDF 파일. 더군다나 시스템은 ORKG(Open Research Knowledge Graph) 플랫폼과 통합되어 있다, 그것은 학술적 발견의 기계적 실행 가능한 출판을 촉진한다. 그러므로 ORKG가 지원하는 시맨틱 웹 내에 통합된 경우 시스템 출력 웹상에서 기계 작동 가능한 '자원'을 표현하는 인프라, 가능: 1) 광범위하게, 연구자들의 경험적 결과의 통합 세계, 따라서 잠재력을 가진 경험적 연구의 투명성을 가능하게 한다 또한 기본 데이터 소스(들)에 따라 완전하다 출판물; 그리고 2) 특히, 연구자들이 진행 상황을 추적할 수 있도록 한다 가장 일반적인 AI 전반에 걸쳐 최첨단(SOTA)의 개요를 제공하는 AI 동적 ORKG 프런트 엔드 뷰를 통한 작업 및 해당 데이터 세트 기계 작동 가능한 데이터에 대한 표와 시각화 차트를 활용합니다. 우리의 최고 모델은 \textit{leaderboard}에서 90% F1 이상의 성능을 달성한다 추출 작업, 따라서 Orkg-Leaderboards가 실질적으로 실행 가능한 도구임을 증명한다 실생활에서의 용법. 앞으로 나아가면, 어떤 의미에서, Orkg-Leaderboards는 다음을 변화시킵니다 자동화된 디지털화 작업에 대한 리더보드 추출 작업 오랫동안 지역사회에서 크라우드소싱된 노력이었다. 

 

 

반응형

댓글