본문 바로가기
오늘의 자연어 처리

[2023-03-18] 오늘의 자연어처리

by 지환이아빠 2023. 3. 18.
반응형

Team SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual approaches for news genre, topic and persuasion technique classification

 

This paper describes our approach for SemEval-2023 Task 3: Detecting the category, the framing, and the persuasion techniques in online news in a multi-lingual setup. For Subtask 1 (News Genre), we propose an ensemble of fully trained and adapter mBERT models which was ranked joint-first for German, and had the highest mean rank of multi-language teams. For Subtask 2 (Framing), we achieved first place in 3 languages, and the best average rank across all the languages, by using two separate ensembles: a monolingual RoBERTa-MUPPETLARGE and an ensemble of XLM-RoBERTaLARGE with adapters and task adaptive pretraining. For Subtask 3 (Persuasion Techniques), we train a monolingual RoBERTa-Base model for English and a multilingual mBERT model for the remaining languages, which achieved top 10 for all languages, including 2nd for English. For each subtask, we compare monolingual and multilingual approaches, and consider class imbalance techniques.

 

이 논문은 SemEval-2023 과제 3: 탐지를 위한 우리의 접근 방식을 설명한다 온라인 뉴스에서 카테고리, 프레임, 그리고 설득 기술 다국어 설정. 하위 작업 1(뉴스 장르)의 경우, 우리는 다음과 같은 앙상블을 제안한다 완전한 훈련과 어댑터 mBERT 모델은 독일에서 공동 1위에 올랐다, 그리고 다국어 팀의 평균 순위가 가장 높았다. 하위 작업 2(프레임화)의 경우, 우리는 3개 국어에서 1등을 했고, 모든 언어에서 최고의 평균 순위를 얻었다 두 개의 개별 앙상블을 사용하여 언어: 단일 언어 RoBERTa-MUPPET LARGE 및 어댑터 및 작업이 포함된 XLM-RoBERTa LARGE 앙상블 적응적 사전 훈련. 하위 작업 3(설득 기법)의 경우 다음을 교육합니다 영어를 위한 단일 언어 RoBERTa-Base 모델 및 다음을 위한 다국어 mBERT 모델 나머지 언어들은 2위를 포함한 모든 언어에서 상위 10위를 달성했다 영어를 위해서. 각 하위 작업에 대해 단일 언어와 다국어를 비교합니다 접근법, 그리고 클래스 불균형 기술을 고려한다. 

 

 

Exploring Distributional Shifts in Large Language Models for Code Analysis

 

We systematically study the capacity of two large language models for code - CodeT5 and Codex - to generalize to out-of-domain data. In this study, we consider two fundamental applications - code summarization, and code generation. We split data into domains following its natural boundaries - by an organization, by a project, and by a module within the software project. This makes recognition of in-domain vs out-of-domain data at the time of deployment trivial. We establish that samples from each new domain present both models with a significant challenge of distribution shift. We study how well different established methods can adapt models to better generalize to new domains. Our experiments show that while multitask learning alone is a reasonable baseline, combining it with few-shot finetuning on examples retrieved from training data can achieve very strong performance. In fact, according to our experiments, this solution can outperform direct finetuning for very low-data scenarios. Finally, we consider variations of this approach to create a more broadly applicable method to adapt to multiple domains at once. We find that in the case of code generation, a model adapted to multiple domains simultaneously performs on par with those adapted to each domain individually.

 

우리는 코드에 대한 두 개의 큰 언어 모델의 용량을 체계적으로 연구한다 CodeT5 및 Codex - 도메인 외부 데이터로 일반화합니다. 이 연구에서, 우리는 코드 요약 및 코드라는 두 가지 기본 응용 프로그램을 고려합니다 시대. 우리는 데이터를 자연적인 경계를 따라 도메인으로 나눈다 조직, 프로젝트별, 소프트웨어 프로젝트 내 모듈별로 구성됩니다. 이것. 배포 시 도메인 내 데이터와 도메인 외부 데이터를 인식합니다 자질구레한. 우리는 각각의 새로운 도메인의 샘플이 두 모델을 제시한다는 것을 확립한다 중요한 문제를 안고 있습니다. 우리는 얼마나 다른지 연구한다 확립된 방법은 모델을 새로운 도메인으로 더 잘 일반화하도록 조정할 수 있다. 우리들의 실험은 멀티태스킹 학습만으로도 합리적인 기준이 되는 것을 보여준다, 교육 데이터에서 검색된 예제에 대한 퓨샷 미세 조정과 결합 매우 강력한 성능을 달성할 수 있습니다. 사실, 우리의 실험에 따르면, 이 솔루션은 매우 낮은 데이터 시나리오에서 직접 미세 조정을 능가할 수 있습니다. 마지막으로, 우리는 더 광범위하게 만들기 위해 이 접근법의 변형을 고려한다 여러 도메인에 동시에 적용할 수 있는 방법입니다. 우리는 그것을 발견한다 코드 생성의 경우, 여러 도메인에 동시에 적용되는 모델 각 도메인에 개별적으로 적용된 것과 동등한 성능을 발휘합니다. 

 

 

Block-wise Bit-Compression of Transformer-based Models

 

With the popularity of the recent Transformer-based models represented by BERT, GPT-3 and ChatGPT, there has been state-of-the-art performance in a range of natural language processing tasks. However, the massive computations, huge memory footprint, and thus high latency of Transformer-based models is an inevitable challenge for the cloud with high real-time requirement. To tackle the issue, we propose BBCT, a method of block-wise bit-compression for transformer without retraining. Our method achieves more fine-grained compression of the whole transformer, including embedding, matrix multiplication, GELU, softmax, layer normalization, and all the intermediate results. As a case, we compress an efficient BERT with the method of BBCT. Our benchmark test results on General Language Understanding Evaluation (GLUE) show that BBCT can achieve less than 1% accuracy drop in most tasks.

 

다음으로 대표되는 최근 트랜스포머 기반 모델의 인기와 함께 BERT, GPT-3 및 ChatGPT는 다양한 범위에서 최첨단 성능을 제공합니다 자연어 처리 작업을 수행합니다. 하지만, 거대한 계산은 따라서 트랜스포머 기반 모델의 높은 지연 시간은 실시간 요구사항이 높은 클라우드에 대한 불가피한 도전 과제입니다. 태클하다 문제는, 우리는 BBCT, 블록별 비트 압축 방법을 제안한다 재교육을 받지 않은 변압기. 우리의 방법은 더 세밀한 것을 달성한다 임베딩, 매트릭스를 포함한 전체 변압기의 압축 곱셈, GELU, 소프트맥스, 레이어 정규화 및 모든 중간값 결과. 사례로서, 우리는 BBCT 방법으로 효율적인 BERT를 압축한다. 우리들의 일반 언어 이해 평가(GLUE)에 대한 벤치마크 테스트 결과는 다음과 같습니다 BBCT는 대부분의 작업에서 1% 미만의 정확도 감소를 달성할 수 있다. 

 

 

반응형

댓글