본문 바로가기
오늘의 자연어 처리

[2023-01-04] 오늘의 자연어처리

by 지환이아빠 2023. 1. 4.
반응형

Russia-Ukraine war: Modeling and Clustering the Sentiments Trends of Various Countries

 

With Twitter's growth and popularity, a huge number of views are shared by users on various topics, making this platform a valuable information source on various political, social, and economic issues. This paper investigates English tweets on the Russia-Ukraine war to analyze trends reflecting users' opinions and sentiments regarding the conflict. The tweets' positive and negative sentiments are analyzed using a BERT-based model, and the time series associated with the frequency of positive and negative tweets for various countries is calculated. Then, we propose a method based on the neighborhood average for modeling and clustering the time series of countries. The clustering results provide valuable insight into public opinion regarding this conflict. Among other things, we can mention the similar thoughts of users from the United States, Canada, the United Kingdom, and most Western European countries versus the shared views of Eastern European, Scandinavian, Asian, and South American nations toward the conflict.

 

트위터의 성장과 인기와 함께, 많은 수의 조회수는 다음과 같이 공유된다 다양한 주제에 대한 사용자들, 이 플랫폼을 가치 있는 정보원으로 만든다 다양한 정치적, 사회적, 경제적 문제들. 이 논문은 영어를 조사한다 사용자의 의견을 반영한 동향 분석을 위한 러시아-우크라이나 전쟁 트윗 그리고 그 갈등에 대한 감정들. 트윗의 긍정적이고 부정적입니다 정서는 BERT 기반 모델과 시계열을 사용하여 분석된다 다양한 긍정적인 트윗과 부정적인 트윗의 빈도와 관련이 있다 국가가 계산됩니다. 그런 다음, 우리는 이웃을 기반으로 한 방법을 제안한다 국가의 시계열을 모델링하고 군집화하기 위한 평균. 그 클러스터링 결과는 이것에 관한 여론에 대한 귀중한 통찰력을 제공한다 갈등. 무엇보다도, 우리는 사용자들의 비슷한 생각을 언급할 수 있다 미국, 캐나다, 영국 및 대부분의 서유럽 국가 대 동유럽, 스칸디나비아, 아시아, 그리고 공동의 견해 분쟁을 향한 남미 국가들. 

 

 

Is word segmentation necessary for Vietnamese sentiment classification?

 

To the best of our knowledge, this paper made the first attempt to answer whether word segmentation is necessary for Vietnamese sentiment classification. To do this, we presented five pre-trained monolingual S4- based language models for Vietnamese, including one model without word segmentation, and four models using RDRsegmenter, uitnlp, pyvi, or underthesea toolkits in the pre-processing data phase. According to comprehensive experimental results on two corpora, including the VLSP2016-SA corpus of technical article reviews from the news and social media and the UIT-VSFC corpus of the educational survey, we have two suggestions. Firstly, using traditional classifiers like Naive Bayes or Support Vector Machines, word segmentation maybe not be necessary for the Vietnamese sentiment classification corpus, which comes from the social domain. Secondly, word segmentation is necessary for Vietnamese sentiment classification when word segmentation is used before using the BPE method and feeding into the deep learning model. In this way, the RDRsegmenter is the stable toolkit for word segmentation among the uitnlp, pyvi, and underthesea toolkits.

 

우리가 아는 한, 이 논문은 첫 번째 답변을 시도했다 베트남 정서 분류를 위해 단어 분할이 필요한지 여부. 이를 위해 사전 훈련된 5개의 단일 언어 S4 기반 언어 모델을 제시했다 베트남어의 경우, 단어 분할이 없는 모델 1개와 모델 4개를 포함하여 사전 처리에서 RDR segmenter, unitnlp, pyvi 또는 수중 툴킷 사용 데이터 단계. 두 말뭉치에 대한 포괄적인 실험 결과에 따르면, 뉴스의 기술 기사 리뷰의 VLSP 2016-SA 말뭉치를 포함한다 소셜 미디어와 교육 조사의 UIT-VSFC 말뭉치, 우리는 두 가지가 있다 제안들. 첫째, Naive Bayes 또는 Support와 같은 전통적인 분류기를 사용합니다 Vector Machines, 단어 분할은 베트남인에게 필요하지 않을 수 있습니다 감정 분류 말뭉치, 사회적 영역에서 왔다. 두번째로, 단어 분할은 다음과 같은 경우 베트남 정서 분류에 필요하다 단어 분할은 BPE 방법을 사용하고 깊은 곳에 입력하기 전에 사용됩니다 학습 모형. 이러한 방식으로, RDR 세그먼트는 단어를 위한 안정적인 툴킷이다 유닛nlp, pyvi 및 해저 툴킷 사이의 분할. 

 

 

CORGI-PM: A Chinese Corpus For Gender Bias Probing and Mitigation

 

As natural language processing (NLP) for gender bias becomes a significant interdisciplinary topic, the prevalent data-driven techniques such as large-scale language models suffer from data inadequacy and biased corpus, especially for languages with insufficient resources such as Chinese. To this end, we propose a Chinese cOrpus foR Gender bIas Probing and Mitigation CORGI-PM, which contains 32.9k sentences with high-quality labels derived by following an annotation scheme specifically developed for gender bias in the Chinese context. Moreover, we address three challenges for automatic textual gender bias mitigation, which requires the models to detect, classify, and mitigate textual gender bias. We also conduct experiments with state-of-the-art language models to provide baselines. To our best knowledge, CORGI-PM is the first sentence-level Chinese corpus for gender bias probing and mitigation.

 

젠더 편향을 위한 자연어 처리(NLP)가 중요해지면서 학제간 주제, 일반적인 데이터 기반 기술은 다음과 같다 대규모 언어 모델은 데이터 부족과 편향된 말뭉치로 어려움을 겪는다, 특히 중국어와 같이 자원이 부족한 언어의 경우. 여기까지 끝으로, 우리는 R 젠더 bias 조사 및 완화를 위한 중국 corpus를 제안한다 CORGI-PM은 32.9k 문장을 포함하고 있으며, 다음과 같이 도출된 고품질 레이블이 있습니다 성 편견을 위해 특별히 개발된 주석 체계를 따른다 중국어의 문맥. 또한, 우리는 자동 텍스트에 대한 세 가지 과제를 해결한다 젠더 편향 완화, 모델이 감지, 분류, 그리고 필요하다 텍스트의 성 편견을 완화하다. 우리는 또한 최첨단 기술로 실험을 수행한다 기준선을 제공하는 언어 모델. 우리가 아는 한, CORGI-PM은 성 편견 조사 및 완화를 위한 첫 번째 문장 수준의 중국어 말뭉치. 

 

 

반응형

댓글