본문 바로가기
오늘의 자연어 처리

[2023-03-02] 오늘의 자연어처리

by 지환이아빠 2023. 3. 2.
반응형

Weighted Sampling for Masked Language Modeling

 

Masked Language Modeling (MLM) is widely used to pretrain language models. The standard random masking strategy in MLM causes the pre-trained language models (PLMs) to be biased toward high-frequency tokens. Representation learning of rare tokens is poor and PLMs have limited performance on downstream tasks. To alleviate this frequency bias issue, we propose two simple and effective Weighted Sampling strategies for masking tokens based on the token frequency and training loss. We apply these two strategies to BERT and obtain Weighted-Sampled BERT (WSBERT). Experiments on the Semantic Textual Similarity benchmark (STS) show that WSBERT significantly improves sentence embeddings over BERT. Combining WSBERT with calibration methods and prompt learning further improves sentence embeddings. We also investigate fine-tuning WSBERT on the GLUE benchmark and show that Weighted Sampling also improves the transfer learning capability of the backbone PLM. We further analyze and provide insights into how WSBERT improves token embeddings.

 

마스킹 언어 모델링(MLM)은 언어 모델을 사전 훈련하는 데 널리 사용된다. MLM의 표준 랜덤 마스킹 전략은 사전 훈련된 언어를 유발한다 모델(PLM)은 고주파 토큰에 편향됩니다. 표현 희귀 토큰에 대한 학습이 부족하고 PLM은 다운스트림에서 성능이 제한적입니다 이 주파수 편향 문제를 완화하기 위해, 우리는 두 가지 단순하고 토큰을 기반으로 토큰을 마스킹하기 위한 효과적인 가중 샘플링 전략 빈도 및 훈련 손실. 우리는 이 두 가지 전략을 BERT에 적용하고 다음을 얻는다 가중 샘플링 BERT(WSBERT). 의미론적 텍스트 유사성에 관한 실험 벤치마크(STS)는 WSBERT가 문장 임베딩을 크게 향상시킨다는 것을 보여준다 BERT를 통해. WSBERT를 교정 방법 및 신속한 학습과 결합 문장 임베딩을 더욱 향상시킨다. 우리는 또한 WSBERT를 미세 조정하는 것을 조사한다 GLUE 벤치마크 및 가중 샘플링이 전송을 개선한다는 것을 보여줍니다 백본 PLM의 학습 능력. 추가 분석 및 제공 WSBERT가 토큰 임베딩을 개선하는 방법에 대한 통찰력. 

 

 

Weighted Sampling for Masked Language Modeling

 

Masked Language Modeling (MLM) is widely used to pretrain language models. The standard random masking strategy in MLM causes the pre-trained language models (PLMs) to be biased toward high-frequency tokens. Representation learning of rare tokens is poor and PLMs have limited performance on downstream tasks. To alleviate this frequency bias issue, we propose two simple and effective Weighted Sampling strategies for masking tokens based on the token frequency and training loss. We apply these two strategies to BERT and obtain Weighted-Sampled BERT (WSBERT). Experiments on the Semantic Textual Similarity benchmark (STS) show that WSBERT significantly improves sentence embeddings over BERT. Combining WSBERT with calibration methods and prompt learning further improves sentence embeddings. We also investigate fine-tuning WSBERT on the GLUE benchmark and show that Weighted Sampling also improves the transfer learning capability of the backbone PLM. We further analyze and provide insights into how WSBERT improves token embeddings.

 

마스킹 언어 모델링(MLM)은 언어 모델을 사전 훈련하는 데 널리 사용된다. MLM의 표준 랜덤 마스킹 전략은 사전 훈련된 언어를 유발한다 모델(PLM)은 고주파 토큰에 편향됩니다. 표현 희귀 토큰에 대한 학습이 부족하고 PLM은 다운스트림에서 성능이 제한적입니다 이 주파수 편향 문제를 완화하기 위해, 우리는 두 가지 단순하고 토큰을 기반으로 토큰을 마스킹하기 위한 효과적인 가중 샘플링 전략 빈도 및 훈련 손실. 우리는 이 두 가지 전략을 BERT에 적용하고 다음을 얻는다 가중 샘플링 BERT(WSBERT). 의미론적 텍스트 유사성에 관한 실험 벤치마크(STS)는 WSBERT가 문장 임베딩을 크게 향상시킨다는 것을 보여준다 BERT를 통해. WSBERT를 교정 방법 및 신속한 학습과 결합 문장 임베딩을 더욱 향상시킨다. 우리는 또한 WSBERT를 미세 조정하는 것을 조사한다 GLUE 벤치마크 및 가중 샘플링이 전송을 개선한다는 것을 보여줍니다 백본 PLM의 학습 능력. 추가 분석 및 제공 WSBERT가 토큰 임베딩을 개선하는 방법에 대한 통찰력. 

 

 

Automatically Classifying Emotions based on Text: A Comparative Exploration of Different Datasets

 

Emotion Classification based on text is a task with many applications which has received growing interest in recent years. This paper presents a preliminary study with the goal to help researchers and practitioners gain insight into relatively new datasets as well as emotion classification in general. We focus on three datasets that were recently presented in the related literature, and we explore the performance of traditional as well as state-of-the-art deep learning models in the presence of different characteristics in the data. We also explore the use of data augmentation in order to improve performance. Our experimental work shows that state-of-the-art models such as RoBERTa perform the best for all cases. We also provide observations and discussion that highlight the complexity of emotion classification in these datasets and test out the applicability of the models to actual social media posts we collected and labeled.

 

텍스트를 기반으로 한 감정 분류는 많은 응용 프로그램이 있는 작업이다 최근 몇 년 동안 점점 더 많은 관심을 받고 있다. 이 논문은 다음을 제시한다 연구자들과 실무자들이 얻는 것을 돕는 것을 목표로 하는 예비 연구 감정 분류뿐만 아니라 비교적 새로운 데이터 세트에 대한 통찰력 일반의. 우리는 최근 관련에서 제시된 세 가지 데이터 세트에 초점을 맞춘다 문학, 그리고 우리는 전통적인 것뿐만 아니라 전통적인 것의 성과를 탐구한다 다양한 상황에서 최첨단 딥 러닝 모델 데이터의 특성. 우리는 또한 데이터 증강의 사용을 탐구한다 실적 개선을 명하다. 우리의 실험 연구는 최첨단 기술이 RoBERTa와 같은 모델은 모든 경우에 대해 최상의 성능을 발휘합니다. 우리는 또한 제공한다 감정의 복잡성을 강조하는 관찰과 토론 이러한 데이터 세트에서 분류하고 모델의 적용 가능성을 테스트합니다 우리가 수집하고 레이블링한 실제 소셜 미디어 게시물에. 

 

 

반응형

댓글