본문 바로가기
오늘의 자연어 처리

[2023-11-29] 오늘의 자연어처리

by 지환이아빠 2023. 11. 29.
반응형

YUAN 2.0: A Large Language Model with Localized Filtering-based Attention

 

Abstract:In this work, the Localized Filtering-based Attention (LFA) is introduced to incorporate prior knowledge of local dependencies of natural language into Attention. Based on LFA, we develop and release Yuan 2.0, a large language model with parameters ranging from 2.1 billion to 102.6 billion. A data filtering and generation method is presented to build pretraining and fine-tuning dataset in high quality. A distributed training method with non-uniform pipeline parallel, data parallel, and optimizer parallel is proposed, which greatly reduces the bandwidth requirements of intra-node communication, and achieves good performance in large-scale distributed training. Yuan 2.0 models display impressive ability in code generation, math problem-solving, and chat compared with existing models. The latest version of YUAN 2.0, including model weights and source code, is accessible at Github.

 

추상화:본 연구에서는 자연어의 로컬 의존성에 대한 사전 지식을 어텐션에 통합하기 위해 LFA(Localized Filtering-based Attention)를 도입한다. LFA를 기반으로 21억에서 1,026억 사이의 매개변수를 가진 대규모 언어 모델인 Yuan 2.0을 개발하여 출시한다. 사전 훈련 및 미세 조정 데이터셋을 고품질로 구축하기 위한 데이터 필터링 및 생성 방법을 제시한다. 불균일 파이프라인 병렬, 데이터 병렬 및 최적화 병렬을 갖는 분산 훈련 방법이 제안되며, 이는 노드 내 통신의 대역폭 요구사항을 크게 감소시키고, 대규모 분산 훈련에서 우수한 성능을 달성한다. 위안 2.0 모델은 기존 모델에 비해 코드 생성, 수학 문제 해결, 채팅 등에서 인상적인 능력을 보여준다. 모델 가중치와 소스 코드를 포함한 최신 버전의 YUAN 2.0은 Github에서 이용할 수 있다. 

 

 

Overview of the VLSP 2022 -- Abmusu Shared Task: A Data Challenge for Vietnamese Abstractive Multi-document Summarization

 

Abstract:This paper reports the overview of the VLSP 2022 - Vietnamese abstractive multi-document summarization (Abmusu) shared task for Vietnamese News. This task is hosted at the 9$^{th}$ annual workshop on Vietnamese Language and Speech Processing (VLSP 2022). The goal of Abmusu shared task is to develop summarization systems that could create abstractive summaries automatically for a set of documents on a topic. The model input is multiple news documents on the same topic, and the corresponding output is a related abstractive summary. In the scope of Abmusu shared task, we only focus on Vietnamese news summarization and build a human-annotated dataset of 1,839 documents in 600 clusters, collected from Vietnamese news in 8 categories. Participated models are evaluated and ranked in terms of \texttt{ROUGE2-F1} score, the most typical evaluation metric for document summarization problem.

 

추상화:본 논문은 베트남 뉴스에 대한 VLSP 2022-베트남 추상적 다중 문서 요약(Abmusu) 공유 과제의 개요를 보고한다. 이 작업은 매년 9$^{th}$의 베트남어 및 음성 처리 워크숍(VLSP 2022)에서 주최된다. Abmusu 공유 작업의 목표는 주제에 대한 일련의 문서에 대해 자동으로 추상 요약을 생성할 수 있는 요약 시스템을 개발하는 것이다. 모델 입력은 동일한 주제에 대한 복수의 뉴스 문서이며, 그에 대응하는 출력은 관련 추상적 요약이다. 압무수 공유 과제의 범위에서는 베트남 뉴스 요약에만 초점을 맞추고 8개 범주의 베트남 뉴스에서 수집된 600개 클러스터의 1,839개 문서에 대한 인간 주석 데이터 세트를 구축한다. 참여한 모델은 평가되고 \texttt{ 기준으로 순위가 매겨집니다ROUGE2-F1} 점수는 문서 요약 문제의 가장 일반적인 평가 지표이다. 

 

 

A Quantitative Approach to Understand Self-Supervised Models as Cross-lingual Feature Extractors

 

Abstract:In this work, we study the features extracted by English self-supervised learning (SSL) models in cross-lingual contexts and propose a new metric to predict the quality of feature representations. Using automatic speech recognition (ASR) as a downstream task, we analyze the effect of model size, training objectives, and model architecture on the models' performance as a feature extractor for a set of topologically diverse corpora. We develop a novel metric, the Phonetic-Syntax Ratio (PSR), to measure the phonetic and synthetic information in the extracted representations using deep generalized canonical correlation analysis. Results show the contrastive loss in the wav2vec2.0 objective facilitates more effective cross-lingual feature extraction. There is a positive correlation between PSR scores and ASR performance, suggesting that phonetic information extracted by monolingual SSL models can be used for downstream tasks in cross-lingual settings. The proposed metric is an effective indicator of the quality of the representations and can be useful for model selection.

 

추상화:본 연구에서는 교차 언어 맥락에서 영어 자기 지도 학습(SSL) 모델에 의해 추출된 특징을 연구하고 특징 표현의 품질을 예측하기 위한 새로운 메트릭을 제안한다. 다운스트림 작업으로 자동 음성 인식(ASR)을 사용하여 위상적으로 다양한 코퍼스 세트에 대한 특징 추출기로서 모델 크기, 훈련 목표 및 모델 아키텍처가 모델의 성능에 미치는 영향을 분석한다. 우리는 심층 일반화된 표준 상관 분석을 사용하여 추출된 표현에서 음성 및 합성 정보를 측정하기 위한 새로운 메트릭인 PSR(Phonetic-Syntax Ratio)을 개발한다. 결과는 wav2vec2.0 목표의 대조적인 손실이 보다 효과적인 교차 언어 특징 추출을 용이하게 한다는 것을 보여준다. PSR 점수와 ASR 성능 사이에는 양의 상관관계가 있으며, 이는 단일 언어 SSL 모델에 의해 추출된 음성 정보가 교차 언어 설정에서 다운스트림 작업에 사용될 수 있음을 시사한다. 제안된 메트릭은 표현의 품질에 대한 효과적인 지표이며 모델 선택에 유용할 수 있다. 

 

 

반응형

댓글