본문 바로가기
오늘의 자연어 처리

[2023-05-28] 오늘의 자연어처리

by 지환이아빠 2023. 5. 28.
반응형

IndicTrans2: Towards High-Quality and Accessible Machine Translation Models for all 22 Scheduled Indian Languages

 

India has a rich linguistic landscape with languages from 4 major language families spoken by over a billion people. 22 of these languages are listed in the Constitution of India (referred to as scheduled languages) are the focus of this work. Given the linguistic diversity, high-quality and accessible Machine Translation (MT) systems are essential in a country like India. Prior to this work, there was (i) no parallel training data spanning all the 22 languages, (ii) no robust benchmarks covering all these languages and containing content relevant to India, and (iii) no existing translation models which support all the 22 scheduled languages of India. In this work, we aim to address this gap by focusing on the missing pieces required for enabling wide, easy, and open access to good machine translation systems for all 22 scheduled Indian languages. We identify four key areas of improvement: curating and creating larger training datasets, creating diverse and high-quality benchmarks, training multilingual models, and releasing models with open access. Our first contribution is the release of the Bharat Parallel Corpus Collection (BPCC), the largest publicly available parallel corpora for Indic languages. BPCC contains a total of 230M bitext pairs, of which a total of 126M were newly added, including 644K manually translated sentence pairs created as part of this work. Our second contribution is the release of the first n-way parallel benchmark covering all 22 Indian languages, featuring diverse domains, Indian-origin content, and source-original test sets. Next, we present IndicTrans2, the first model to support all 22 languages, surpassing existing models on multiple existing and new benchmarks created as a part of this work. Lastly, to promote accessibility and collaboration, we release our models and associated data with permissive licenses at this https URL.

 

인도는 4개의 주요 언어로 이루어진 풍부한 언어적 경관을 가지고 있다 10억 명이 넘는 사람들이 말하는 가족들. 이 언어들 중 22개는 다음과 같다 인도 헌법(예정된 언어로 언급됨)은 다음과 같은 초점이다 이 작품. 언어적 다양성을 고려할 때 고품질의 접근 가능한 기계 인도와 같은 나라에서는 번역(MT) 시스템이 필수적이다. 이에 앞서 일, (i) 22개 언어 모두에 걸친 병렬 교육 데이터가 없었다, (ii) 이러한 모든 언어를 포함하고 콘텐츠를 포함하는 강력한 벤치마크 없음 인도와 관련이 있으며, (iii) 모든 것을 지원하는 기존 번역 모델은 없습니다 인도의 22개 국어. 이 작업에서, 우리는 이 격차를 해결하는 것을 목표로 한다 광범위하고, 쉽고, 개방적인 사용에 필요한 누락된 부분에 초점을 맞춤으로써 22개의 예약된 인도인 모두를 위한 좋은 기계 번역 시스템에 대한 접근 언어들. 개선해야 할 네 가지 핵심 영역, 즉 큐레이팅 및 생성 다양하고 고품질의 벤치마크를 생성하는 대규모 교육 데이터 세트, 다국어 모델 교육 및 개방형 액세스가 가능한 모델 릴리스. 우리의 첫번째 기여는 바라트 병렬 말뭉치 수집(BBCC)의 공개이다, 인도어를 위해 공개적으로 이용 가능한 가장 큰 병렬 말뭉치. BPCC 총 230M의 바이트 텍스트 쌍을 포함하고 있으며, 그 중 총 126M이 새로 추가되었습니다 의 일부로 생성된 수동 번역 문장 쌍 644K를 포함하여 추가되었습니다 이 작품. 우리의 두 번째 기여는 첫 번째 n-way 병렬의 해제이다 다양한 영역을 특징으로 하는 22개의 모든 인도 언어를 다루는 벤치마크, 인도 원산지 콘텐츠 및 원본 테스트 세트. 다음은 발표하겠습니다 IndicTrans2, 기존 22개 언어를 모두 지원하는 최초의 모델 이 작업의 일부로 생성된 여러 기존 및 새로운 벤치마크에 대한 모델. 마지막으로 접근성과 협업을 촉진하기 위해 모델을 출시하고 허용 라이센스와 관련된 데이터 이 https URL. 

 

 

Training Data Extraction From Pre-trained Language Models: A Survey

 

As the deployment of pre-trained language models (PLMs) expands, pressing security concerns have arisen regarding the potential for malicious extraction of training data, posing a threat to data privacy. This study is the first to provide a comprehensive survey of training data extraction from PLMs. Our review covers more than 100 key papers in fields such as natural language processing and security. First, preliminary knowledge is recapped and a taxonomy of various definitions of memorization is presented. The approaches for attack and defense are then systemized. Furthermore, the empirical findings of several quantitative studies are highlighted. Finally, future research directions based on this review are suggested.

 

사전 훈련된 언어 모델(PLM)의 배포가 확대됨에 따라 악성 추출의 가능성에 대한 보안 우려가 발생했습니다 데이터 개인 정보 보호에 위협이 되는 교육 데이터. 이 연구는 첫번째이다 PLM에서 교육 데이터 추출에 대한 포괄적인 설문 조사를 제공합니다. 우리들의 리뷰는 자연어와 같은 분야의 100개 이상의 주요 논문을 다룬다 처리 및 보안. 첫째, 예비 지식을 수집하고 다양한 기억의 정의에 대한 분류법이 제시된다. 접근 공격과 방어가 체계화된다. 게다가, 경험적 발견들은 몇 가지 정량적 연구가 강조되어 있다. 마지막으로, 향후 연구 이 검토에 기초한 지침이 제안된다. 

 

 

Language Models Implement Simple Word2Vec-style Vector Arithmetic

 

A primary criticism towards language models (LMs) is their inscrutability. This paper presents evidence that, despite their size and complexity, LMs sometimes exploit a computational mechanism familiar from traditional word embeddings: the use of simple vector arithmetic in order to encode abstract relations (e.g., Poland:Warsaw::China:Beijing). We investigate a range of language model sizes (from 124M parameters to 176B parameters) in an in-context learning setting, and find that for a variety of tasks (involving capital cities, upper-casing, and past-tensing), a key part of the mechanism reduces to a simple linear update applied by the feedforward networks. We further show that this mechanism is specific to tasks that require retrieval from pretraining memory, rather than retrieval from local context. Our results contribute to a growing body of work on the mechanistic interpretability of LLMs, and offer reason to be optimistic that, despite the massive and non-linear nature of the models, the strategies they ultimately use to solve tasks can sometimes reduce to familiar and even intuitive algorithms.

 

언어 모델(LM)에 대한 주요 비판은 이해하기 어렵다는 것이다. 이 논문은 크기와 복잡성에도 불구하고 LMs가 때때로 전통적인 단어로부터 친숙한 계산 메커니즘을 이용한다 임베딩: 추상을 인코딩하기 위한 간단한 벡터 산술의 사용 관계(예: 폴란드:바르샤바::중국:베이징). 우리는 다양한 범위를 조사한다 문맥 내 언어 모델 크기(124M 매개 변수 ~ 176B 매개 변수) 학습 설정, 그리고 다양한 작업에 대해 그것을 찾는다(자본금) 도시, 상층부, 그리고 과거에 존재했던 것), 메커니즘의 핵심 부분은 다음과 같이 감소한다 피드포워드 네트워크에 의해 적용되는 간단한 선형 업데이트. 추가로 보여드리겠습니다 이 메커니즘은 검색이 필요한 작업에 특정합니다 로컬 컨텍스트에서 검색하는 것이 아니라 사전 훈련 메모리입니다. 우리의 결과 의 기계적 해석 가능성에 관한 연구의 증가에 기여하다 LLMs, 그리고 거대한 그리고에도 불구하고 낙관적인 이유를 제공합니다 모델의 비선형성, 모델이 궁극적으로 해결하기 위해 사용하는 전략 작업은 때때로 친숙하고 심지어 직관적인 알고리즘으로 축소될 수 있다. 

 

 

반응형

댓글