본문 바로가기
오늘의 자연어 처리

[2023-04-20] 오늘의 자연어처리

by 지환이아빠 2023. 4. 20.
반응형

Romanization-based Large-scale Adaptation of Multilingual Language Models

 

Large multilingual pretrained language models (mPLMs) have become the de facto state of the art for cross-lingual transfer in NLP. However, their large-scale deployment to many languages, besides pretraining data scarcity, is also hindered by the increase in vocabulary size and limitations in their parameter budget. In order to boost the capacity of mPLMs to deal with low-resource and unseen languages, we explore the potential of leveraging transliteration on a massive scale. In particular, we explore the UROMAN transliteration tool, which provides mappings from UTF-8 to Latin characters for all the writing systems, enabling inexpensive romanization for virtually any language. We first focus on establishing how UROMAN compares against other language-specific and manually curated transliterators for adapting multilingual PLMs. We then study and compare a plethora of data- and parameter-efficient strategies for adapting the mPLMs to romanized and non-romanized corpora of 14 diverse low-resource languages. Our results reveal that UROMAN-based transliteration can offer strong performance for many languages, with particular gains achieved in the most challenging setups: on languages with unseen scripts and with limited training data without any vocabulary augmentation. Further analyses reveal that an improved tokenizer based on romanized data can even outperform non-transliteration-based methods in the majority of languages.

 

대규모 다국어 사전 훈련된 언어 모델(mPLM)이 de가 되었다 NLP에서 교차 언어 전송을 위한 사실상의 최신 기술. 하지만, 그들의 데이터 부족을 사전 훈련하는 것 외에도 많은 언어에 대한 대규모 배포는 또한 어휘의 크기와 그들의 한계의 증가로 인해 방해를 받는다 매개 변수 예산. 처리할 mPLM의 용량을 늘리기 위해 자원이 부족하고 보이지 않는 언어를 활용할 수 있는 잠재력을 탐구한다 대규모 번역. 특히, 우리는 UROMAN을 탐구한다 UTF-8에서 라틴 문자로의 매핑을 제공하는 번역 도구 모든 필기 시스템에 대해, 가상으로 저렴한 로마자화를 가능하게 합니다 어떤 언어든. 우리는 먼저 UROMAN이 다른 것들과 어떻게 비교되는지를 확립하는 데 초점을 맞춘다 적응을 위한 언어별 및 수동으로 큐레이션된 번역기 다국어 PLM입니다. 그리고 우리는 수많은 데이터를 연구하고 비교합니다 mPLM을 로마자로 변환하여 적용하기 위한 매개 변수 효율적인 전략 14개의 다양한 저자원 언어로 구성된 로마자화되지 않은 말뭉치. 우리의 결과는 다음과 같다 UROMAN 기반 번역은 많은 사람들에게 강력한 성능을 제공할 수 있다 언어, 가장 어려운 설정에서 달성한 특정 이점: on 보이지 않는 스크립트와 제한된 교육 데이터가 없는 언어 어휘의 증강. 추가 분석을 통해 개선된 토큰화 기능이 있음을 알 수 있습니다 로마자화된 데이터를 기반으로 하면 비반복 기반 방법을 능가할 수도 있습니다 대다수의 언어로. 

 

 

Improving Items and Contexts Understanding with Descriptive Graph for Conversational Recommendation

 

State-of-the-art methods on conversational recommender systems (CRS) leverage external knowledge to enhance both items' and contextual words' representations to achieve high quality recommendations and responses generation. However, the representations of the items and words are usually modeled in two separated semantic spaces, which leads to misalignment issue between them. Consequently, this will cause the CRS to only achieve a sub-optimal ranking performance, especially when there is a lack of sufficient information from the user's input. To address limitations of previous works, we propose a new CRS framework KLEVER, which jointly models items and their associated contextual words in the same semantic space. Particularly, we construct an item descriptive graph from the rich items' textual features, such as item description and categories. Based on the constructed descriptive graph, KLEVER jointly learns the embeddings of the words and items, towards enhancing both recommender and dialog generation modules. Extensive experiments on benchmarking CRS dataset demonstrate that KLEVER achieves superior performance, especially when the information from the users' responses is lacking.

 

대화형 추천 시스템(CRS) 활용에 대한 최첨단 방법 항목과 상황에 맞는 단어의 표현을 개선하기 위한 외부 지식 높은 품질의 권장 사항 및 응답 생성을 달성합니다. 하지만, 그 아이템과 단어의 표현은 보통 두 개의 분리된 형태로 모델링된다 의미 공간, 이는 그들 사이의 오정렬 문제로 이어진다. 결과적으로, 이로 인해 CRS는 차선의 랭킹 성과만 달성하게 된다, 특히 사용자의 정보로부터 충분한 정보가 부족할 때 입력. 이전 작업의 한계를 해결하기 위해, 우리는 새로운 CRS 프레임워크를 제안한다 KLEVER, 아이템과 관련 상황별 단어를 공동으로 모델링합니다 동일한 의미 공간. 특히, 우리는 다음과 같은 항목을 설명하는 그래프를 구성한다 항목 설명 및 범주와 같은 풍부한 항목의 텍스트 기능. 구성된 설명 그래프를 기반으로, KLEVER는 공동으로 학습한다 단어와 아이템의 임베딩, 추천자와 아이템 모두를 향상시키기 위해 대화 상자 생성 모듈. CRS 데이터 세트 벤치마킹에 대한 광범위한 실험 특히 KLEVER가 우수한 성능을 달성한다는 것을 입증한다 사용자의 응답에 대한 정보가 부족합니다. 

 

 

Approximate Nearest Neighbour Phrase Mining for Contextual Speech Recognition

 

This paper presents an extension to train end-to-end Context-Aware Transformer Transducer ( CATT ) models by using a simple, yet efficient method of mining hard negative phrases from the latent space of the context encoder. During training, given a reference query, we mine a number of similar phrases using approximate nearest neighbour search. These sampled phrases are then used as negative examples in the context list alongside random and ground truth contextual information. By including approximate nearest neighbour phrases (ANN-P) in the context list, we encourage the learned representation to disambiguate between similar, but not identical, biasing phrases. This improves biasing accuracy when there are several similar phrases in the biasing inventory. We carry out experiments in a large-scale data regime obtaining up to 7% relative word error rate reductions for the contextual portion of test data. We also extend and evaluate CATT approach in streaming applications.

 

이 논문은 엔드 투 엔드 컨텍스트 인식을 훈련하기 위한 확장을 제시한다 간단하면서도 효율적인 방법을 사용한 Transformer Transducer(CTT) 모델 컨텍스트 인코더의 잠재 공간에서 하드 네거티브 문구를 마이닝합니다. 훈련 중, 참조 쿼리가 주어지면, 우리는 많은 유사한 문구를 채굴한다 가장 가까운 이웃 검색을 사용합니다. 그런 다음 이 샘플링된 구문이 사용됩니다 무작위 및 지상 진실과 함께 문맥 목록의 부정적인 예로서 문맥 정보. 대략적인 가장 가까운 이웃 문구를 포함 (ANN-P) 컨텍스트 목록에서, 우리는 학습된 표현을 장려한다 비슷하지만 동일하지는 않은 편파적인 문구 사이에서 모호성을 분명히 하다. 이것은 향상된다 편향에 유사한 문구가 여러 개 있을 때 편향 정확도 재고 조사를 하다. 우리는 다음을 얻기 위해 대규모 데이터 체제에서 실험을 수행한다 테스트의 상황별 부분에 대해 7%의 상대적인 단어 오류율 감소 또한 스트리밍 애플리케이션에서 CATT 접근 방식을 확장하고 평가합니다. 

 

 

반응형

댓글