본문 바로가기
오늘의 자연어 처리

[2023-01-10] 오늘의 자연어처리

by 지환이아빠 2023. 1. 10.
반응형

Causal Categorization of Mental Health Posts using Transformers

 

With recent developments in digitization of clinical psychology, NLP research community has revolutionized the field of mental health detection on social media. Existing research in mental health analysis revolves around the cross-sectional studies to classify users' intent on social media. For in-depth analysis, we investigate existing classifiers to solve the problem of causal categorization which suggests the inefficiency of learning based methods due to limited training samples. To handle this challenge, we use transformer models and demonstrate the efficacy of a pre-trained transfer learning on "CAMS" dataset. The experimental result improves the accuracy and depicts the importance of identifying cause-and-effect relationships in the underlying text.

 

최근 임상심리학의 디지털화 발전과 함께 NLP 연구 커뮤니티는 사회에서 정신 건강 탐지 분야에 혁명을 일으켰다 미디어. 정신 건강 분석의 기존 연구는 다음과 같이 진행된다 소셜 미디어에 대한 사용자의 의도를 분류하기 위한 횡단적 연구. 심층적인 경우 분석, 우리는 인과 관계의 문제를 해결하기 위해 기존 분류기를 조사한다 학습 기반 방법의 비효율성을 제안하는 분류 제한된 훈련 샘플. 이 문제를 해결하기 위해 변압기 모델을 사용합니다 그리고 "CAMS"에서 사전 훈련된 전이 학습의 효과를 입증한다 데이터 집합. 실험 결과는 정확도를 향상시키고 다음을 묘사한다 근본적인 원인과 결과 관계를 식별하는 것의 중요성 본문. 

 

 

CiT: Curation in Training for Effective Vision-Language Data

 

Large vision-language models are generally applicable to many downstream tasks, but come at an exorbitant training cost that only large institutions can afford. This paper trades generality for efficiency and presents Curation in Training (CiT), a simple and efficient vision-text learning algorithm that couples a data objective into training. CiT automatically yields quality data to speed-up contrastive image-text training and alleviates the need for an offline data filtering pipeline, allowing broad data sources (including raw image-text pairs from the web). CiT contains two loops: an outer loop curating the training data and an inner loop consuming the curated training data. The text encoder connects the two loops. Given metadata for tasks of interest, e.g., class names, and a large pool of image-text pairs, CiT alternatively selects relevant training data from the pool by measuring the similarity of their text embeddings and embeddings of the metadata. In our experiments, we observe that CiT can speed up training by over an order of magnitude, especially if the raw data size is large.

 

대형 비전 언어 모델은 일반적으로 많은 다운스트림에 적용할 수 있습니다 업무, 그러나 큰 기관들만이 할 수 있는 엄청난 훈련 비용이 든다 이 논문은 효율성을 위해 일반성을 교환하고 큐레이션을 제시한다 간단하고 효율적인 비전 텍스트 학습 알고리즘인 훈련(CiT) 데이터 목표를 교육에 결합합니다. CIT는 자동으로 품질 데이터를 생성합니다 대조 이미지 텍스트 훈련을 가속화하고 필요성을 완화한다 오프라인 데이터 필터링 파이프라인, 광범위한 데이터 소스(로우 데이터 포함) 허용 웹에서 이미지-텍스트 쌍). CiT는 두 개의 루프를 포함한다: 외부 루프 큐레이팅 훈련 데이터와 내부 루프가 큐레이티드 훈련 데이터를 소비한다. 그 텍스트 인코더는 두 루프를 연결합니다. 관심 있는 작업에 대한 메타데이터가 주어지면, 예를 들어, 클래스 이름과 이미지-텍스트 쌍의 큰 풀, 또는 CiT 유사성을 측정하여 풀에서 관련 교육 데이터를 선택합니다 메타데이터의 텍스트 임베딩 및 임베딩. 우리의 실험에서, 우리는 CiT가 훈련 속도를 10배 이상 높일 수 있음을 관찰한다, 특히 원시 데이터 크기가 큰 경우에는 더욱 그렇습니다. 

 

 

Topics as Entity Clusters: Entity-based Topics from Language Models and Graph Neural Networks

 

Topic models aim to reveal the latent structure behind a corpus, typically conducted over a bag-of-words representation of documents. In the context of topic modeling, most vocabulary is either irrelevant for uncovering underlying topics or contains strong relationships with relevant concepts, impacting the interpretability of these topics. Furthermore, their limited expressiveness and dependency on language demand considerable computation resources. Hence, we propose a novel approach for cluster-based topic modeling that employs conceptual entities. Entities are language-agnostic representations of real-world concepts rich in relational information. To this end, we extract vector representations of entities from (i) an encyclopedic corpus using a language model; and (ii) a knowledge base using a graph neural network. We demonstrate that our approach consistently outperforms other state-of-the-art topic models across coherency metrics and find that the explicit knowledge encoded in the graph-based embeddings provides more coherent topics than the implicit knowledge encoded with the contextualized embeddings of language models.

 

주제 모델은 말뭉치 뒤에 있는 잠재 구조를 밝히는 것을 목표로 한다. 일반적으로 문서의 단어 단위 표현을 통해 수행됩니다. 의 맥락에서 주제 모델링, 대부분의 어휘는 기초를 찾는 것과 무관하다 주제 또는 관련 개념과의 강력한 관계를 포함하여 영향을 줍니다 이 주제들의 해석 가능성. 게다가, 그들의 제한된 표현력과 언어에 대한 의존성은 상당한 계산 자원을 필요로 한다. 그래서 우리는 를 사용하는 클러스터 기반 주제 모델링을 위한 새로운 접근 방식을 제안합니다 개념적 실체. 엔티티는 언어에 구애받지 않는 표현이다 관계 정보가 풍부한 현실 세계 개념. 이를 위해, 우리는 (i) 백과사전 말뭉치에서 개체의 벡터 표현을 사용한다 언어 모델; 그리고 (ii) 그래프 신경망을 사용하는 지식 기반. 우리가 우리의 접근 방식이 다른 최첨단 기술을 지속적으로 능가한다는 것을 보여준다 일관성 메트릭에 걸친 주제 모델과 명시적 지식을 찾습니다 그래프 기반 임베딩으로 인코딩된 것은 보다 일관성 있는 주제를 제공한다 언어의 문맥화된 임베딩으로 암호화된 암묵적 지식 모형. 

 

 

반응형

댓글