CNN-Trans-Enc: A CNN-Enhanced Transformer-Encoder On Top Of Static BERT representations for Document Classification
BERT achieves remarkable results in text classification tasks, it is yet not fully exploited, since only the last layer is used as a representation output for downstream classifiers. The most recent studies on the nature of linguistic features learned by BERT, suggest that different layers focus on different kinds of linguistic features. We propose a CNN-Enhanced Transformer-Encoder model which is trained on top of fixed BERT $[CLS]$ representations from all layers, employing Convolutional Neural Networks to generate QKV feature maps inside the Transformer-Encoder, instead of linear projections of the input into the embedding space. CNN-Trans-Enc is relatively small as a downstream classifier and doesn't require any fine-tuning of BERT, as it ensures an optimal use of the $[CLS]$ representations from all layers, leveraging different linguistic features with more meaningful, and generalizable QKV representations of the input. Using BERT with CNN-Trans-Enc keeps $98.9\%$ and $94.8\%$ of current state-of-the-art performance on the IMDB and SST-5 datasets respectably, while obtaining new state-of-the-art on YELP-5 with $82.23$ ($8.9\%$ improvement), and on Amazon-Polarity with $0.98\%$ ($0.2\%$ improvement) (K-fold Cross Validation on a 1M sample subset from both datasets). On the AG news dataset CNN-Trans-Enc achieves $99.94\%$ of the current state-of-the-art, and achieves a new top performance with an average accuracy of $99.51\%$ on DBPedia-14. Index terms: Text Classification, Natural Language Processing, Convolutional Neural Networks, Transformers, BERT
BERT는 텍스트 분류 작업에서 괄목할 만한 결과를 얻었지만, 아직 그렇지 않다. 마지막 계층만 표현 출력으로 사용되므로 완전히 활용됩니다. 다운스트림 분류자의 경우. 언어의 본질에 대한 가장 최근의 연구들 BERT에 의해 학습된 특징들, 다른 계층들이 다른 것에 초점을 맞춘다는 것을 암시한다. 언어적 특징의 종류 우리는 CNN 강화 트랜스포머 인코더를 제안한다. 모든 것의 고정된 BERT $[CLS]$ 표현 위에 훈련된 모델 레이어, 컨볼루션 신경망(Convolutional Neural Networks)을 사용하여 QKV 피쳐 맵을 생성합니다. 입력의 선형 투영 대신 Transformer-Encoder 내부 내장 공간 CNN-Trans-Enc는 다운스트림만큼 상대적으로 작다. 분류기 및 BERT의 미세 조정이 필요하지 않습니다. 모든 계층에서 $[CLS]$ 표현의 최적 사용, 활용 보다 의미 있고 일반화 가능한 QKV를 가진 다양한 언어적 특징들 입력의 표현 CNN-Trans-Enc와 함께 BERT를 사용하면 $98.9\%$를 유지하고 IMDB 및 SST-5 데이터 세트에서 현재 최첨단 성능의 $94.8\%$ $82.23$로 YELP-5에 대한 새로운 최첨단 기술을 획득하는 동시에, 존경할 만한 일입니다. ($8.9\%$ 개선), 아마존-폴라리티에서는 $0.98\%$($0).2\%$ 개선)(양쪽에서 1M 표본 부분 집합에 대한 K-폴드 교차 검증 데이터 세트). AG 뉴스 데이터 세트에서 CNN-Trans-Enc는 $99.94\%$를 달성한다. 최신 기술, 그리고 평균으로 새로운 최고 성과를 달성합니다. DBPedia-14에서 $99.51\%$의 정확도. 색인 용어: 텍스트 분류, 자연어 처리, 컨볼루션 신경망, 변압기, BERT
CNN-Trans-Enc: A CNN-Enhanced Transformer-Encoder On Top Of Static BERT representations for Document Classification
BERT achieves remarkable results in text classification tasks, it is yet not fully exploited, since only the last layer is used as a representation output for downstream classifiers. The most recent studies on the nature of linguistic features learned by BERT, suggest that different layers focus on different kinds of linguistic features. We propose a CNN-Enhanced Transformer-Encoder model which is trained on top of fixed BERT $[CLS]$ representations from all layers, employing Convolutional Neural Networks to generate QKV feature maps inside the Transformer-Encoder, instead of linear projections of the input into the embedding space. CNN-Trans-Enc is relatively small as a downstream classifier and doesn't require any fine-tuning of BERT, as it ensures an optimal use of the $[CLS]$ representations from all layers, leveraging different linguistic features with more meaningful, and generalizable QKV representations of the input. Using BERT with CNN-Trans-Enc keeps $98.9\%$ and $94.8\%$ of current state-of-the-art performance on the IMDB and SST-5 datasets respectably, while obtaining new state-of-the-art on YELP-5 with $82.23$ ($8.9\%$ improvement), and on Amazon-Polarity with $0.98\%$ ($0.2\%$ improvement) (K-fold Cross Validation on a 1M sample subset from both datasets). On the AG news dataset CNN-Trans-Enc achieves $99.94\%$ of the current state-of-the-art, and achieves a new top performance with an average accuracy of $99.51\%$ on DBPedia-14. Index terms: Text Classification, Natural Language Processing, Convolutional Neural Networks, Transformers, BERT
BERT는 텍스트 분류 작업에서 괄목할 만한 결과를 얻었지만, 아직 그렇지 않다. 마지막 계층만 표현 출력으로 사용되므로 완전히 활용됩니다. 다운스트림 분류자의 경우. 언어의 본질에 대한 가장 최근의 연구들 BERT에 의해 학습된 특징들, 다른 계층들이 다른 것에 초점을 맞춘다는 것을 암시한다. 언어적 특징의 종류 우리는 CNN 강화 트랜스포머 인코더를 제안한다. 모든 것의 고정된 BERT $[CLS]$ 표현 위에 훈련된 모델 레이어, 컨볼루션 신경망(Convolutional Neural Networks)을 사용하여 QKV 피쳐 맵을 생성합니다. 입력의 선형 투영 대신 Transformer-Encoder 내부 내장 공간 CNN-Trans-Enc는 다운스트림만큼 상대적으로 작다. 분류기 및 BERT의 미세 조정이 필요하지 않습니다. 모든 계층에서 $[CLS]$ 표현의 최적 사용, 활용 보다 의미 있고 일반화 가능한 QKV를 가진 다양한 언어적 특징들 입력의 표현 CNN-Trans-Enc와 함께 BERT를 사용하면 $98.9\%$를 유지하고 IMDB 및 SST-5 데이터 세트에서 현재 최첨단 성능의 $94.8\%$ $82.23$로 YELP-5에 대한 새로운 최첨단 기술을 획득하는 동시에, 존경할 만한 일입니다. ($8.9\%$ 개선), 아마존-폴라리티에서는 $0.98\%$($0).2\%$ 개선)(양쪽에서 1M 표본 부분 집합에 대한 K-폴드 교차 검증 데이터 세트). AG 뉴스 데이터 세트에서 CNN-Trans-Enc는 $99.94\%$를 달성한다. 최신 기술, 그리고 평균으로 새로운 최고 성과를 달성합니다. DBPedia-14에서 $99.51\%$의 정확도. 색인 용어: 텍스트 분류, 자연어 처리, 컨볼루션 신경망, 변압기, BERT
ImageArg: A Multi-modal Tweet Dataset for Image Persuasiveness Mining
The growing interest in developing corpora of persuasive texts has promoted applications in automated systems, e.g., debating and essay scoring systems; however, there is little prior work mining image persuasiveness from an argumentative perspective. To expand persuasiveness mining into a multi-modal realm, we present a multi-modal dataset, ImageArg, consisting of annotations of image persuasiveness in tweets. The annotations are based on a persuasion taxonomy we developed to explore image functionalities and the means of persuasion. We benchmark image persuasiveness tasks on ImageArg using widely-used multi-modal learning methods. The experimental results show that our dataset offers a useful resource for this rich and challenging topic, and there is ample room for modeling improvement.
설득력 있는 텍스트의 말뭉치를 개발하는 것에 대한 증가하는 관심은 촉진되었다. 토론 및 논술 채점 시스템과 같은 자동화 시스템의 응용 프로그램 그러나, 이미지 마이닝에 대한 이전 작업은 거의 없다. 논쟁적 관점 설득력 있는 마이닝을 멀티모달로 확장하기 위해 영역, 우리는 다중 모달 데이터 세트인 ImageArg를 제시한다. 트윗의 이미지 설득력. 그 주석들은 설득에 기반을 두고 있다. 분류학은 이미지 기능과 수단을 탐구하기 위해 개발되었습니다. 설득. 우리는 다음을 사용하여 ImageArg에서 이미지 설득 작업을 벤치마킹한다. 널리 사용되는 다중 학습 방법 실험 결과는 다음과 같다. 우리의 데이터 세트는 이 풍부하고 도전적인 주제에 유용한 리소스를 제공합니다. 모델링 개선을 위한 충분한 여지가 있습니다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-09-18] 오늘의 자연어처리 (0) | 2022.09.18 |
---|---|
[2022-09-17] 오늘의 자연어처리 (0) | 2022.09.17 |
[2022-09-15] 오늘의 자연어처리 (0) | 2022.09.15 |
[2022-09-14] 오늘의 자연어처리 (1) | 2022.09.14 |
[2022-09-13] 오늘의 자연어처리 (0) | 2022.09.13 |
댓글