본문 바로가기
오늘의 자연어 처리

[2022-09-09] 오늘의 자연어처리

by 지환이아빠 2022. 9. 9.
반응형

Depression Symptoms Modelling from Social Media Text: An Active Learning Approach

 

A fundamental component of user-level social media language based clinical depression modelling is depression symptoms detection (DSD). Unfortunately, there does not exist any DSD dataset that reflects both the clinical insights and the distribution of depression symptoms from the samples of self-disclosed depressed population. In our work, we describe an Active Learning (AL) framework which uses an initial supervised learning model that leverages 1) a state-of-the-art large mental health forum text pre-trained language model further fine-tuned on a clinician annotated DSD dataset, 2) a Zero-Shot learning model for DSD, and couples them together to harvest depression symptoms related samples from our large self-curated Depression Tweets Repository (DTR). Our clinician annotated dataset is the largest of its kind. Furthermore, DTR is created from the samples of tweets in self-disclosed depressed users Twitter timeline from two datasets, including one of the largest benchmark datasets for user-level depression detection from Twitter. This further helps preserve the depression symptoms distribution of self-disclosed Twitter users tweets. Subsequently, we iteratively retrain our initial DSD model with the harvested data. We discuss the stopping criteria and limitations of this AL process, and elaborate the underlying constructs which play a vital role in the overall AL process. We show that we can produce a final dataset which is the largest of its kind. Furthermore, a DSD and a Depression Post Detection (DPD) model trained on it achieves significantly better accuracy than their initial version.

 

사용자 수준 소셜 미디어 언어 기반 임상 기술의 기본 구성 요소 우울증 모델링은 우울증 증상 감지(DSD)이다. 불행하게도, 임상 통찰력을 모두 반영하는 DSD 데이터 세트가 존재하지 않는다. 그리고 자가 진단 검체의 우울증 증상 분포 침체된 인구 우리의 작업에서, 우리는 능동적 학습(AL)을 설명한다. 1) a를 활용하는 초기 지도 학습 모델을 사용하는 프레임워크 최첨단 대형 정신 건강 포럼 텍스트 사전 훈련된 언어 모델 DSD 데이터 세트에 주석이 달린 임상의의 세부 조정, 2) 제로샷 DSD를 위한 학습 모델, 그리고 우울증을 수확하기 위해 그것들을 함께 결합한다. 자체 큐레이션된 대규모 우울증 트윗의 증상 관련 샘플 리포지토리(DTR). 우리의 임상의 주석이 달린 데이터 세트는 그 종류 중 가장 크다. 또한, DTR은 자체 공개 트윗의 샘플로부터 생성된다. 우울한 사용자 트위터 타임라인은 두 개의 데이터셋 중 하나를 포함하여 Twitter에서 사용자 수준 우울증 감지를 위한 가장 큰 벤치마크 데이터 세트. 이것은 또한 우울증 증상 분포를 보존하는 데 도움이 된다. 트위터 사용자들의 트윗을 스스로 공개했습니다. 그 후, 우리는 반복적으로 재교육한다. 수집된 데이터가 포함된 초기 DSD 모델입니다. 우리는 정지 기준에 대해 논의합니다. 이 AL 프로세스의 한계, 그리고 다음과 같은 기본 구조를 상세히 설명한다. 전체 AL 프로세스에서 중요한 역할을 합니다. 우리는 우리가 생산할 수 있다는 것을 보여준다. 그 종류 중 가장 큰 최종 데이터 세트. 게다가, DSD와 a. 그것에 대해 훈련된 우울증 사후 감지(DPD) 모델은 상당한 성과를 달성한다. 초기 버전보다 정확도가 더 높습니다. 

 

 

Decoding Demographic un-fairness from Indian Names

 

Demographic classification is essential in fairness assessment in recommender systems or in measuring unintended bias in online networks and voting systems. Important fields like education and politics, which often lay a foundation for the future of equality in society, need scrutiny to design policies that can better foster equality in resource distribution constrained by the unbalanced demographic distribution of people in the country. We collect three publicly available datasets to train state-of-the-art classifiers in the domain of gender and caste classification. We train the models in the Indian context, where the same name can have different styling conventions (Jolly Abraham/Kumar Abhishikta in one state may be written as Abraham Jolly/Abishikta Kumar in the other). Finally, we also perform cross-testing (training and testing on different datasets) to understand the efficacy of the above models. We also perform an error analysis of the prediction models. Finally, we attempt to assess the bias in the existing Indian system as case studies and find some intriguing patterns manifesting in the complex demographic layout of the sub-continent across the dimensions of gender and caste.

 

인구통계학적 분류는 추천인의 공정성 평가에 필수적이다. 온라인 네트워크 및 투표 시스템에서 의도하지 않은 편향을 측정하는 시스템 또는 시스템. 교육과 정치와 같은 중요한 분야들은 종종 기초를 놓는다. 사회의 평등의 미래, 할 수 있는 정책을 설계하기 위해 정밀 조사가 필요하다. 불균형한 사람들에 의해 제약된 자원 분배의 평등을 더 잘 촉진한다. 그 나라 사람들의 인구 분포 우리는 최첨단 기술을 훈련하기 위해 공개적으로 사용 가능한 세 가지 데이터 세트를 수집한다. 성별 및 카스트 분류 영역의 분류자. 우리는 훈련한다. 같은 이름이 다른 스타일을 가질 수 있는 인도 문맥의 모델들 규약 (Jolly Abraham/Kumar Abhishikta 한 주의)은 다음과 같이 쓸 수 있다. 다른 한 편에서는 아브라함 졸리/아비식타 쿠마르). 마지막으로, 우리는 또한 공연한다. 교차 분석(다른 데이터 세트에 대한 교육 및 테스트)을 통해 다음을 이해할 수 있습니다. 위 모델의 효능. 우리는 또한 예측 모델의 오류 분석을 수행한다. 드디어 저희가. 사례 연구로서 기존 인도 시스템의 편견을 평가하려고 시도한다. 의 복잡한 인구통계학적 배치에서 나타나는 몇 가지 흥미로운 패턴을 발견하다. 성별과 카스트의 차원에 걸친 아대륙 

 

 

On the Effectiveness of Compact Biomedical Transformers

 

Language models pre-trained on biomedical corpora, such as BioBERT, have recently shown promising results on downstream biomedical tasks. Many existing pre-trained models, on the other hand, are resource-intensive and computationally heavy owing to factors such as embedding size, hidden dimension, and number of layers. The natural language processing (NLP) community has developed numerous strategies to compress these models utilising techniques such as pruning, quantisation, and knowledge distillation, resulting in models that are considerably faster, smaller, and subsequently easier to use in practice. By the same token, in this paper we introduce six lightweight models, namely, BioDistilBERT, BioTinyBERT, BioMobileBERT, DistilBioBERT, TinyBioBERT, and CompactBioBERT which are obtained either by knowledge distillation from a biomedical teacher or continual learning on the Pubmed dataset via the Masked Language Modelling (MLM) objective. We evaluate all of our models on three biomedical tasks and compare them with BioBERT-v1.1 to create efficient lightweight models that perform on par with their larger counterparts. All the models will be publicly available on our Huggingface profile at this https URL and the codes used to run the experiments will be available at this https URL.

 

BioBERT와 같은 바이오메디컬 코퍼스에서 사전 훈련된 언어 모델은 최근 하류 생물 의학 과제에서 유망한 결과를 보여주었다. 기존 다수 반면에 사전 훈련된 모델은 리소스 집약적이고 임베딩 크기, 숨김 등의 요인으로 인해 계산적으로 무겁습니다. 차원 및 레이어 수입니다. 자연어 처리(NLP) 커뮤니티는 이러한 모델을 활용하기 위해 수많은 전략을 개발했습니다. 가지치기, 양자화, 지식증류와 같은 기술, 결과 훨씬 더 빠르고, 더 작으며, 결과적으로 사용하기 쉬운 모델에서 실제로 마찬가지로, 이 논문에서 우리는 6개의 경량화를 소개한다. 모델, 즉 BioDistilB.ERT, BioTinyBERT, BioMobileERT, 증류 바이오 BERT, 타이니바이오비ERT 및 Compact BioB지식으로 얻은 ERT 생의학 교사로부터의 증류 또는 Pubmed에 대한 지속적인 학습 마스크 언어 모델링(MLM) 목표를 통한 데이터 세트. 모든 것을 평가합니다. 세 가지 생물의학 작업에 대한 우리의 모델을 BioBERT-v1.1과 비교합니다. 대형 모델과 동등한 성능을 발휘하는 효율적인 경량 모델을 제작합니다. 상대편 모든 모델은 포옹 페이스에서 공개적으로 사용할 수 있습니다. 이 https URL의 프로파일 및 실행에 사용된 코드 실험은 에서 이용 가능하다. 이 https URL. 

 

 

반응형

댓글