본문 바로가기
오늘의 자연어 처리

[2023-06-15] 오늘의 자연어처리

by 지환이아빠 2023. 6. 15.
반응형

NAVER LABS Europe's Multilingual Speech Translation Systems for the IWSLT 2023 Low-Resource Track

 

This paper presents NAVER LABS Europe's systems for Tamasheq-French and Quechua-Spanish speech translation in the IWSLT 2023 Low-Resource track. Our work attempts to maximize translation quality in low-resource settings using multilingual parameter-efficient solutions that leverage strong pre-trained models. Our primary submission for Tamasheq outperforms the previous state of the art by 7.5 BLEU points on the IWSLT 2022 test set, and achieves 23.6 BLEU on this year's test set, outperforming the second best participant by 7.7 points. For Quechua, we also rank first and achieve 17.7 BLEU, despite having only two hours of translation data. Finally, we show that our proposed multilingual architecture is also competitive for high-resource languages, outperforming the best unconstrained submission to the IWSLT 2021 Multilingual track, despite using much less training data and compute.

 

본 논문은 타마섹-프랑스어를 위한 NAVER LAB 유럽의 시스템을 제시한다 IWSLT 2023 Low-Resource 트랙에서 케추아-스페인어 음성 번역. 우리들의 다음을 사용하여 리소스 부족 설정에서 번역 품질을 최대화하려는 작업 시도 강력한 사전 교육을 활용하는 다국어 매개 변수 효율적인 솔루션 모델. Tamasheq에 대한 우리의 1차 제출은 이전 상태를 능가한다 IWSLT 2022 테스트 세트에서 7.5 BLEU 점수에 의한 아트는 23.6 BLEU를 달성한다 올해의 테스트 세트에서, 7.7로 두 번째로 우수한 참가자를 능가했다 포인트. 케추아의 경우, 우리는 또한 1위를 차지했고, 17.7 BLEU를 달성했다 단 두 시간의 번역 데이터. 마지막으로, 우리는 우리가 제안한 것이 다국어 아키텍처는 또한 높은 자원을 가진 언어들을 위해 경쟁적이다, IWSLT 2021 다국어에 대한 최고의 제약 없는 제출을 능가합니다 교육 데이터와 컴퓨팅을 훨씬 적게 사용함에도 불구하고 트랙. 

 

 

Monolingual and Cross-Lingual Knowledge Transfer for Topic Classification

 

This article investigates the knowledge transfer from the RuQTopics dataset. This Russian topical dataset combines a large sample number (361,560 single-label, 170,930 multi-label) with extensive class coverage (76 classes). We have prepared this dataset from the "Yandex Que" raw data. By evaluating the RuQTopics - trained models on the six matching classes of the Russian MASSIVE subset, we have proved that the RuQTopics dataset is suitable for real-world conversational tasks, as the Russian-only models trained on this dataset consistently yield an accuracy around 85\% on this subset. We also have figured out that for the multilingual BERT, trained on the RuQTopics and evaluated on the same six classes of MASSIVE (for all MASSIVE languages), the language-wise accuracy closely correlates (Spearman correlation 0.773 with p-value 2.997e-11) with the approximate size of the pretraining BERT's data for the corresponding language. At the same time, the correlation of the language-wise accuracy with the linguistical distance from Russian is not statistically significant.

 

이 기사는 RuQTopics 데이터 세트의 지식 전달을 조사한다. 이 러시아 주제 데이터 세트는 많은 샘플 번호(361,560)를 결합한다 단일 레이블, 170,930개의 다중 레이블), 광범위한 클래스 범위(76개 클래스). 우리는 "얀덱스 큐" 원시 데이터에서 이 데이터 세트를 준비했다. 평가를 통해 RuQTopics - 러시아 MASSIC의 6개 일치 클래스에 대해 훈련된 모델 부분 집합, 우리는 RuQTopics 데이터 세트가 실제 세계에 적합하다는 것을 증명했다 이 데이터 세트에서 훈련된 러시아 전용 모델로서 대화 작업 이 부분 집합에서 약 85\%의 정확도를 일관되게 산출한다. 우리는 또한 생각했다 다국어 BERT의 경우, RuQTopics에 대해 교육을 받고 평가를 받았다 언어별로 동일한 6개의 MASSIC 클래스(모든 MASSIC 언어에 대해) 정확도는 밀접한 상관 관계(P-값 2.997e-11과의 Spearman 상관 관계 0.773) 해당하는 BERT의 사전 훈련 데이터의 대략적인 크기로 언어. 동시에, 언어적 정확성의 상관관계는 다음과 같다 러시아어와의 언어적 거리는 통계적으로 유의미하지 않다. 

 

 

Adversarial Capsule Networks for Romanian Satire Detection and Sentiment Analysis

 

Satire detection and sentiment analysis are intensively explored natural language processing (NLP) tasks that study the identification of the satirical tone from texts and extracting sentiments in relationship with their targets. In languages with fewer research resources, an alternative is to produce artificial examples based on character-level adversarial processes to overcome dataset size limitations. Such samples are proven to act as a regularization method, thus improving the robustness of models. In this work, we improve the well-known NLP models (i.e., Convolutional Neural Networks, Long Short-Term Memory (LSTM), Bidirectional LSTM, Gated Recurrent Units (GRUs), and Bidirectional GRUs) with adversarial training and capsule networks. The fine-tuned models are used for satire detection and sentiment analysis tasks in the Romanian language. The proposed framework outperforms the existing methods for the two tasks, achieving up to 99.08% accuracy, thus confirming the improvements added by the capsule layers and the adversarial training in NLP approaches.

 

풍자 탐지와 감정 분석은 자연스럽게 집중적으로 탐구된다 풍자의 식별을 연구하는 언어 처리(NLP) 작업 텍스트에서 톤을 추출하고 대상과 관련된 감정을 추출합니다. 더 적은 연구 자원을 가진 언어에서, 대안은 생산하는 것이다 극복해야 할 캐릭터 수준의 적대적 프로세스에 기반한 인위적인 예 데이터 집합 크기 제한. 그러한 샘플은 정규화 역할을 하는 것으로 입증되었다 방법을 통해 모델의 견고성을 향상시킬 수 있습니다. 이 작업에서, 우리는 개선한다 잘 알려진 NLP 모델(즉, 컨볼루션 신경망, 장기 단기) 메모리(LSTM), 양방향 LSTM, 게이트 순환 단위(GRU) 및 적대적 훈련 및 캡슐 네트워크가 있는 양방향 GRU). 그 미세 조정 모델은 풍자 감지 및 감정 분석 작업에 사용된다 루마니아어. 제안된 프레임워크는 기존 방법을 능가한다 두 작업에 대해, 최대 99.08%의 정확도를 달성하여, 확인 캡슐 레이어와 NLP의 적대적 훈련에 의해 추가된 개선 사항 접근합니다. 

 

 

반응형

댓글