본문 바로가기
오늘의 자연어 처리

[2023-04-09] 오늘의 자연어처리

by 지환이아빠 2023. 4. 9.
반응형

On the Pareto Front of Multilingual Neural Machine Translation

 

In this work, we study how the generalization performance of a given direction changes with its sampling ratio in Multilingual Neural Machine Translation (MNMT). By training over 200 multilingual models with various model sizes, directions, and total numbers of tasks, we find that scalarization leads to a multitask trade-off front that deviates from the traditional Pareto front when there exists data imbalance in the training corpus. That is, the performance of certain translation directions does not improve with the increase of its weight in the multi-task optimization objective, which poses greater challenge to improve the overall performance of all directions. Based on our observations, we propose the Double Power Law to predict the unique performance trade-off front in MNMT, which is robust across various languages, data adequacy and number of tasks. Finally, we formulate sample ratio selection in MNMT as an optimization problem based on the Double Power Law, which achieves better performance than temperature searching and gradient manipulation methods using up to half of the total training budget in our experiments.

 

이 연구에서, 우리는 주어진 일반화 성능을 연구한다 다국어 신경 기계에서 샘플링 비율에 따른 방향 변화 변환(MNMT). 다양한 모델로 200개 이상의 다국어 모델을 교육함으로써 작업의 크기, 방향 및 총 수, 우리는 스칼라화가 이끈다는 것을 발견했다 전통적인 파레토 전선에서 벗어난 멀티태스킹 트레이드오프 전선으로 훈련 말뭉치에 데이터 불균형이 존재하는 경우. 즉 특정 번역 방향의 성능은 다음과 함께 향상되지 않습니다 다중 작업 최적화 목표에서 가중치의 증가, 이는 제안한다 모든 방향의 전반적인 성능을 개선하기 위한 더 큰 도전. 기반을 둔 우리의 관찰에서, 우리는 독특함을 예측하기 위해 이중 멱법칙을 제안한다 다양한 언어에 걸쳐 견고한 MNMT의 성능 트레이드오프 전선, 데이터의 적절성과 과제의 수. 마지막으로, 우리는 샘플 비율 선택을 공식화한다 이중 전력 법칙에 기초한 최적화 문제로서 MNMT에서 온도 검색 및 기울기보다 더 나은 성능을 달성합니다 우리의 총 교육 예산의 최대 절반을 사용하는 조작 방법 실험. 

 

 

Compression of enumerations and gain

 

We study the compressibility of enumerations, and its role in the relative Kolmogorov complexity of computably enumerable sets, with respect to density. With respect to a strong and a weak form of compression, we examine the gain: the amount of auxiliary information embedded in the compressed enumeration. Strong compression and weak gainless compression is shown for any computably enumerable set, and a positional game is studied toward understanding strong gainless compression.

 

우리는 열거의 압축성과 상대적인 역할을 연구한다 밀도와 관련하여 계산 가능한 열거 집합의 콜모고로프 복잡성. 강력하고 약한 형태의 압축과 관련하여, 우리는 이득을 검토한다: 압축된 열거형에 포함된 보조 정보의 양입니다. 계산 가능한 모든 항목에 대해 강력한 압축과 약한 무이득 압축이 표시됩니다 열거 가능한 세트, 그리고 강한 것을 이해하기 위한 위치 게임이 연구된다 무익한 압축. 

 

 

Bengali Fake Review Detection using Semi-supervised Generative Adversarial Networks

 

This paper investigates the potential of semi-supervised Generative Adversarial Networks (GANs) to fine-tune pretrained language models in order to classify Bengali fake reviews from real reviews with a few annotated data. With the rise of social media and e-commerce, the ability to detect fake or deceptive reviews is becoming increasingly important in order to protect consumers from being misled by false information. Any machine learning model will have trouble identifying a fake review, especially for a low resource language like Bengali. We have demonstrated that the proposed semi-supervised GAN-LM architecture (generative adversarial network on top of a pretrained language model) is a viable solution in classifying Bengali fake reviews as the experimental results suggest that even with only 1024 annotated samples, BanglaBERT with semi-supervised GAN (SSGAN) achieved an accuracy of 83.59% and a f1-score of 84.89% outperforming other pretrained language models - BanglaBERT generator, Bangla BERT Base and Bangla-Electra by almost 3%, 4% and 10% respectively in terms of accuracy. The experiments were conducted on a manually labeled food review dataset consisting of total 6014 real and fake reviews collected from various social media groups. Researchers that are experiencing difficulty recognizing not just fake reviews but other classification issues owing to a lack of labeled data may find a solution in our proposed methodology.

 

이 논문은 준지도 발전기의 잠재력을 조사한다 적대적 네트워크(GAN)는 사전 훈련된 언어 모델을 미세 조정하여 몇 개의 주석이 달린 데이터로 실제 리뷰에서 벵골어 가짜 리뷰를 분류한다. 와 함께 소셜 미디어와 전자 상거래의 부상, 가짜를 탐지하는 능력 또는 기만적인 리뷰는 보호하기 위해 점점 더 중요해지고 있다 소비자들이 잘못된 정보에 현혹되는 것을 방지합니다. 모든 기계 학습 모델 특히 자원이 부족한 경우 가짜 리뷰를 식별하는 데 어려움을 겪을 것이다 벵골어 같은 언어. 우리는 제안된 것이 반 감독적이라는 것을 증명했다 GAN-LM 아키텍처(사전 훈련된 네트워크 위에 생성적 적대 네트워크) 언어 모델)은 벵골어 가짜 리뷰를 분류하는 실행 가능한 해결책이다 실험 결과는 주석이 달린 샘플이 1024개에 불과하더라도, 준감독 GAN(SSGAN)을 사용한 BanglaBERT는 83.59%의 정확도를 달성했다 84.89%의 f1 점수는 사전 훈련된 다른 언어 모델을 능가한다 - BanglaBERT 발전기, Bangla BERT Base 및 Bangla-Electra는 거의 3%, 4% 및 정확도 면에서 각각 10%. 실험은 다음과 같이 수행되었다 수동으로 라벨이 부착된 식품 리뷰 데이터 세트는 총 6014개의 실제 및 가짜로 구성된다 다양한 소셜 미디어 그룹으로부터 수집된 리뷰. 연구자들은 가짜 리뷰뿐만 아니라 다른 것들을 인식하는 데 어려움을 겪고 있다 라벨링된 데이터의 부족으로 인한 분류 문제는 다음에서 해결책을 찾을 수 있다 우리가 제안한 방법론. 

 

 

반응형

댓글