본문 바로가기
오늘의 자연어 처리

[2023-07-31] 오늘의 자연어처리

by 지환이아빠 2023. 7. 31.
반응형

What Makes a Good Paraphrase: Do Automated Evaluations Work?

 

Paraphrasing is the task of expressing an essential idea or meaning in different words. But how different should the words be in order to be considered an acceptable paraphrase? And can we exclusively use automated metrics to evaluate the quality of a paraphrase? We attempt to answer these questions by conducting experiments on a German data set and performing automatic and expert linguistic evaluation.

 

의역은 본질적인 사상이나 의미를 표현하는 일이다 다른 말. 하지만 단어가 어떻게 달라져야 할까요 허용 가능한 의역으로 간주되나요? 그리고 우리는 자동화된 것만 사용할 수 있을까요 의역의 품질을 평가하기 위한 메트릭? 우리는 이것들에 대답하려고 시도한다 독일 데이터 세트에 대한 실험을 수행하고 수행하는 질문 자동적이고 전문적인 언어 평가. 

 

 

Improving Natural Language Inference in Arabic using Transformer Models and Linguistically Informed Pre-Training

 

This paper addresses the classification of Arabic text data in the field of Natural Language Processing (NLP), with a particular focus on Natural Language Inference (NLI) and Contradiction Detection (CD). Arabic is considered a resource-poor language, meaning that there are few data sets available, which leads to limited availability of NLP methods. To overcome this limitation, we create a dedicated data set from publicly available resources. Subsequently, transformer-based machine learning models are being trained and evaluated. We find that a language-specific model (AraBERT) performs competitively with state-of-the-art multilingual approaches, when we apply linguistically informed pre-training methods such as Named Entity Recognition (NER). To our knowledge, this is the first large-scale evaluation for this task in Arabic, as well as the first application of multi-task pre-training in this context.

 

이 논문은 다음 분야에서 아랍어 텍스트 데이터의 분류를 다룬다 자연어에 특히 초점을 맞춘 자연어 처리(NLP). Natural Language Processing(Natural Language Processing) 추론(NLI)과 모순 탐지(CD). 아랍어는 a로 간주된다 리소스가 부족한 언어, 즉 사용 가능한 데이터 세트가 거의 없다는 것을 의미합니다 NLP 방법의 가용성이 제한됩니다. 이 한계를 극복하기 위해 우리는 공개 리소스에서 전용 데이터 세트를 생성합니다. 그 다음에, 변압기 기반 기계 학습 모델을 훈련하고 평가하고 있다. 우리가 언어별 모델(AraBERT)이 다음과 같이 경쟁적으로 수행된다는 것을 발견하다 우리가 언어학적으로 정보에 입각하여 적용할 때, 최첨단 다국어 접근법 NER(Named Entity Recognition)과 같은 사전 교육 방법. 우리가 아는 바로는, 이것은 아랍어뿐만 아니라 이 작업에 대한 첫 번째 대규모 평가이다 이러한 맥락에서 다중 작업 사전 훈련의 첫 번째 적용. 

 

 

Scaling TransNormer to 175 Billion Parameters

 

We present TransNormerLLM, the first linear attention-based Large Language Model (LLM) that outperforms conventional softmax attention-based models in terms of both accuracy and efficiency. TransNormerLLM evolves from the previous linear attention architecture TransNormer by making advanced modifications that include positional embedding, linear attention acceleration, gating mechanism, tensor normalization, inference acceleration and stabilization. Specifically, we use LRPE together with an exponential decay to avoid attention dilution issues while allowing the model to retain global interactions between tokens. Additionally, we propose Lightning Attention, a cutting-edge technique that accelerates linear attention by more than twice in runtime and reduces memory usage by a remarkable four times. To further enhance the performance of TransNormer, we leverage a gating mechanism to smooth training and a new tensor normalization scheme to accelerate the model, resulting in an impressive acceleration of over 20%. Furthermore, we have developed a robust inference algorithm that ensures numerical stability and consistent inference speed, regardless of the sequence length, showcasing superior efficiency during both training and inference stages. Scalability is at the heart of our model's design, enabling seamless deployment on large-scale clusters and facilitating expansion to even more extensive models, all while maintaining outstanding performance metrics. Rigorous validation of our model design is achieved through a series of comprehensive experiments on our self-collected corpus, boasting a size exceeding 6TB and containing over 2 trillion tokens. To ensure data quality and relevance, we implement a new self-cleaning strategy to filter our collected data. Our pre-trained models will be released to foster community advancements in efficient LLMs.

 

트랜스노머를 소개합니다LLM, 최초의 선형 주의 기반 Large Language 기존 소프트맥스 어텐션 기반 모델을 능가하는 모델(LLM) 정확성과 효율성이라는 두 가지 용어가 있습니다. 트랜스노머LLM은 이전보다 진화합니다 선형 주의 아키텍처 TransNormer는 다음과 같은 고급 수정을 통해 위치 임베딩, 선형 주의 가속, 게이팅 메커니즘을 포함한다, 텐서 정규화, 추론 가속 및 안정화. 구체적으로, 주의 희석을 피하기 위해 지수 붕괴와 함께 LRPE를 사용한다 모델이 토큰 간의 글로벌 상호 작용을 유지할 수 있도록 하는 동안 문제가 발생합니다. 또한, 번개 어텐션(Lightning Attention)이라는 첨단 기술을 제안한다 런타임에 선형 작업 속도를 2배 이상 높이고 메모리 절감 현저한 4배의 용법. 성능을 더욱 향상시키기 위해 트랜스노머, 우리는 원활한 훈련과 새로운 텐서를 위해 게이팅 메커니즘을 활용한다 모델을 가속화하기 위한 정규화 계획으로 인상적인 결과를 초래한다 20% 이상의 가속도. 게다가, 우리는 강력한 추론을 개발했다 수치적 안정성과 일관된 추론 속도를 보장하는 알고리즘, 시퀀스 길이에 관계없이 두 가지 모두에서 우수한 효율성을 보여줍니다 훈련 및 추론 단계. 확장성은 당사 모델의 핵심입니다 설계, 대규모 클러스터에서 원활한 구축 및 원활한 운영 지원 뛰어난 성능을 유지하면서 더욱 광범위한 모델로 확장 성능 메트릭. 모델 설계의 엄격한 검증이 달성되었습니다 우리의 자가진단 말뭉치에 대한 일련의 포괄적인 실험을 통해, 6TB가 넘는 크기와 2조 개가 넘는 토큰을 포함하고 있습니다. 보장하기 위해 데이터 품질 및 관련성, 필터링을 위한 새로운 자체 청소 전략을 구현합니다 우리가 수집한 자료. 우리의 사전 훈련된 모델은 지역 사회를 육성하기 위해 출시될 것이다 효율적인 LLM의 진보. 

 

 

반응형

댓글