본문 바로가기
오늘의 자연어 처리

[2022-09-15] 오늘의 자연어처리

by 지환이아빠 2022. 9. 15.
반응형

Non-Parametric Temporal Adaptation for Social Media Topic Classification

 

User-generated social media data is constantly changing as new trends influence online discussion, causing distribution shift in test data for social media NLP applications. In addition, training data is often subject to change as user data is deleted. Most current NLP systems are static and rely on fixed training data. As a result, they are unable to adapt to temporal change -- both test distribution shift and deleted training data -- without frequent, costly re-training. In this paper, we study temporal adaptation through the task of longitudinal hashtag prediction and propose a non-parametric technique as a simple but effective solution: non-parametric classifiers use datastores which can be updated, either to adapt to test distribution shift or training data deletion, without re-training. We release a new benchmark dataset comprised of 7.13M Tweets from 2021, along with their hashtags, broken into consecutive temporal buckets. We compare parametric neural hashtag classification and hashtag generation models, which need re-training for adaptation, with a non-parametric, training-free dense retrieval method that returns the nearest neighbor's hashtags based on text embedding distance. In experiments on our longitudinal Twitter dataset we find that dense nearest neighbor retrieval has a relative performance gain of 64.12% over the best parametric baseline on test sets that exhibit distribution shift without requiring gradient-based re-training. Furthermore, we show that our datastore approach is particularly well-suited to dynamically deleted user data, with negligible computational cost and performance loss. Our novel benchmark dataset and empirical analysis can support future inquiry into the important challenges presented by temporality in the deployment of AI systems on real-world user data.

 

사용자 생성 소셜 미디어 데이터는 새로운 트렌드로 끊임없이 변화하고 있습니다. 온라인 토론에 영향을 미쳐 소셜 테스트 데이터의 배포 전환을 유발합니다. 미디어 NLP 응용 프로그램 또한 교육 데이터는 종종 변경될 수 있습니다. 사용자 데이터가 삭제될 때 현재 대부분의 NLP 시스템은 정적이며 고정에 의존합니다. 훈련 자료 결과적으로, 그들은 시간적 변화에 적응할 수 없다 - 둘 다. 테스트 배포 이동 및 삭제된 교육 데이터 - 빈번하고 비용이 많이 들지 않음 재훈련 이 논문에서, 우리는 시간적 적응을 다음과 같은 과제를 통해 연구한다. 세로 해시태그 예측과 비모수 기법을 제안한다. 단순하지만 효과적인 솔루션: 비모수 분류기는 다음과 같은 데이터스토어를 사용합니다. 테스트 분포 이동 또는 교육 데이터에 적응하기 위해 업데이트할 수 있습니다. 삭제, 재교육 없이. 다음과 같이 구성된 새로운 벤치마크 데이터 세트를 출시합니다. 해시태그와 함께 2021년 713만 개의 트윗이 연속적으로 분할되었습니다. 시간 양동이 우리는 파라메트릭 신경 해시태그 분류를 비교한다. 적응을 위한 재교육이 필요한 해시태그 생성 모델, a. 가장 가까운 값을 반환하는 비모수적, 훈련 없는 고밀도 검색 방법 텍스트 포함 거리에 기반한 이웃의 해시태그. 우리의 실험에서 세로형 트위터 데이터 세트 우리는 밀도가 가장 가까운 이웃 검색이 테스트에서 최상의 매개 변수 기준선에 비해 64.12%의 상대적 성능 향상 기울기 기반 없이 분포 이동을 나타내는 집합 재훈련 또한, 우리는 우리의 데이터스토어 접근 방식이 특히 무시해도 될 정도의 계산으로 동적으로 삭제된 사용자 데이터에 대한 적절한 관리 비용 및 성능 손실 새로운 벤치마크 데이터 세트 및 경험적 분석 에 의해 제시된 중요한 과제에 대한 향후 조사를 지원할 수 있다. 실제 사용자 데이터에 AI 시스템을 배치하는 데 있어 시간적 여유가 있다. 

 

 

CovidMis20: COVID-19 Misinformation Detection System on Twitter Tweets using Deep Learning Models

 

Online news and information sources are convenient and accessible ways to learn about current issues. For instance, more than 300 million people engage with posts on Twitter globally, which provides the possibility to disseminate misleading information. There are numerous cases where violent crimes have been committed due to fake news. This research presents the CovidMis20 dataset (COVID-19 Misinformation 2020 dataset), which consists of 1,375,592 tweets collected from February to July 2020. CovidMis20 can be automatically updated to fetch the latest news and is publicly available at: this https URL. This research was conducted using Bi-LSTM deep learning and an ensemble CNN+Bi-GRU for fake news detection. The results showed that, with testing accuracy of 92.23% and 90.56%, respectively, the ensemble CNN+Bi-GRU model consistently provided higher accuracy than the Bi-LSTM model.

 

온라인 뉴스와 정보 출처는 편리하고 접근하기 쉬운 방법이다. 시사 문제를 배우다 예를 들어, 3억 명 이상의 사람들이 참여합니다. 전 세계적으로 트위터에 게시물을 게시하여 유포할 수 있는 가능성을 제공한다. 오해의 소지가 있는 정보 강력범죄가 발생한 사례는 수없이 많다. 가짜 뉴스로 인해 저질러진. 이 연구는 CovidMis20 데이터 세트를 제시한다. (COVID-19 잘못된 정보 2020 데이터 세트) 1,375,592개의 트윗으로 구성되어 있습니다. 2020년 2월부터 7월까지 수집되었다. CovidMis20 자동 업데이트 가능 최신 뉴스를 가져오고 다음 사이트에서 공개적으로 볼 수 있습니다. 이 https URL. 이 연구는 다음을 사용하여 수행되었다. 가짜 뉴스 탐지를 위한 Bi-LSTM 딥 러닝과 앙상블 CNN+Bi-GRU. 그 결과는 시험 정확도가 각각 92.23%와 90.56%로 나타났다. 앙상블 CNN+Bi-GRU 모델은 일관되게 더 높은 정확도를 제공했다. Bi-LSTM 모델. 

 

 

CovidMis20: COVID-19 Misinformation Detection System on Twitter Tweets using Deep Learning Models

 

Online news and information sources are convenient and accessible ways to learn about current issues. For instance, more than 300 million people engage with posts on Twitter globally, which provides the possibility to disseminate misleading information. There are numerous cases where violent crimes have been committed due to fake news. This research presents the CovidMis20 dataset (COVID-19 Misinformation 2020 dataset), which consists of 1,375,592 tweets collected from February to July 2020. CovidMis20 can be automatically updated to fetch the latest news and is publicly available at: this https URL. This research was conducted using Bi-LSTM deep learning and an ensemble CNN+Bi-GRU for fake news detection. The results showed that, with testing accuracy of 92.23% and 90.56%, respectively, the ensemble CNN+Bi-GRU model consistently provided higher accuracy than the Bi-LSTM model.

 

온라인 뉴스와 정보 출처는 편리하고 접근하기 쉬운 방법이다. 시사 문제를 배우다 예를 들어, 3억 명 이상의 사람들이 참여합니다. 전 세계적으로 트위터에 게시물을 게시하여 유포할 수 있는 가능성을 제공한다. 오해의 소지가 있는 정보 강력범죄가 발생한 사례는 수없이 많다. 가짜 뉴스로 인해 저질러진. 이 연구는 CovidMis20 데이터 세트를 제시한다. (COVID-19 잘못된 정보 2020 데이터 세트) 1,375,592개의 트윗으로 구성되어 있습니다. 2020년 2월부터 7월까지 수집되었다. CovidMis20 자동 업데이트 가능 최신 뉴스를 가져오고 다음 사이트에서 공개적으로 볼 수 있습니다. 이 https URL. 이 연구는 다음을 사용하여 수행되었다. 가짜 뉴스 탐지를 위한 Bi-LSTM 딥 러닝과 앙상블 CNN+Bi-GRU. 그 결과는 시험 정확도가 각각 92.23%와 90.56%로 나타났다. 앙상블 CNN+Bi-GRU 모델은 일관되게 더 높은 정확도를 제공했다. Bi-LSTM 모델. 

 

 

반응형

댓글