Mitigating Data Sparsity for Short Text Topic Modeling by Topic-Semantic Contrastive Learning
To overcome the data sparsity issue in short text topic modeling, existing methods commonly rely on data augmentation or the data characteristic of short texts to introduce more word co-occurrence information. However, most of them do not make full use of the augmented data or the data characteristic: they insufficiently learn the relations among samples in data, leading to dissimilar topic distributions of semantically similar text pairs. To better address data sparsity, in this paper we propose a novel short text topic modeling framework, Topic-Semantic Contrastive Topic Model (TSCTM). To sufficiently model the relations among samples, we employ a new contrastive learning method with efficient positive and negative sampling strategies based on topic semantics. This contrastive learning method refines the representations, enriches the learning signals, and thus mitigates the sparsity issue. Extensive experimental results show that our TSCTM outperforms state-of-the-art baselines regardless of the data augmentation availability, producing high-quality topics and topic distributions.
짧은 텍스트 주제 모델링에서 데이터 희소성 문제를 해결하기 위해 기존 방법은 일반적으로 데이터 확대 또는 짧은 데이터 특성에 의존한다. 더 많은 단어 동시 발생 정보를 소개하는 텍스트. 하지만 대부분은 증강 데이터 또는 데이터 특성을 완전히 활용하지 않음: 데이터에서 샘플 간의 관계를 충분히 학습하지 못하여 유사하지 않음 의미론적으로 유사한 텍스트 쌍의 주제 분포. 데이터를 더 잘 처리하려면 희소성, 이 논문에서 우리는 새로운 짧은 텍스트 주제 모델링 프레임워크를 제안한다. 주제-의미론적 대비 주제 모델(TSCTM). 충분히 모델링하기 위해 샘플 간의 관계, 우리는 새로운 대조 학습 방법을 사용한다. 주제 의미론에 기반한 효율적인 긍정 및 부정 샘플링 전략. 이 대조적인 학습 방법은 표현을 정교하게 하고, 풍부하게 한다. 학습 신호, 따라서 희소성 문제를 완화합니다. 광범위한 실험 결과는 TSCTM이 최첨단 기준선을 능가한다는 것을 보여준다. 데이터 확대 가용성, 고품질 주제 및 주제 생성 분포
Automatic Generation of Socratic Subquestions for Teaching Math Word Problems
Socratic questioning is an educational method that allows students to discover answers to complex problems by asking them a series of thoughtful questions. Generation of didactically sound questions is challenging, requiring understanding of the reasoning process involved in the problem. We hypothesize that such questioning strategy can not only enhance the human performance, but also assist the math word problem (MWP) solvers. In this work, we explore the ability of large language models (LMs) in generating sequential questions for guiding math word problem-solving. We propose various guided question generation schemes based on input conditioning and reinforcement learning. On both automatic and human quality evaluations, we find that LMs constrained with desirable question properties generate superior questions and improve the overall performance of a math word problem solver. We conduct a preliminary user study to examine the potential value of such question generation models in the education domain. Results suggest that the difficulty level of problems plays an important role in determining whether questioning improves or hinders human performance. We discuss the future of using such questioning strategies in education.
소크라테스식 질문은 학생들이 다음을 할 수 있도록 하는 교육적인 방법이다. 복잡한 문제에 대한 일련의 사려 깊은 질문을 함으로써 답을 발견하다. 문의사항. 교훈적으로 건전한 질문을 생성하는 것은 어렵고, 필요하다. 문제와 관련된 추론 과정에 대한 이해 우리는 가정한다. 그러한 질문 전략이 인간의 성과를 향상시킬 수 있을 뿐만 아니라, 또한 MWP(Math Word Problem) 해결사를 지원합니다. 이 작업에서, 우리는 다음을 탐구한다. 대형 언어 모델(LM)의 능력은 다음을 위한 순차적 질문을 생성한다. 수학 단어 문제 해결을 지도하는 것. 우리는 다양한 안내 질문을 제안한다. 입력 조건화 및 강화 학습에 기반한 생성 체계. 온 자동 및 인간 품질 평가 모두, 우리는 LM이 다음과 같이 제한된다는 것을 발견했다. 바람직한 질문 속성은 우수한 질문을 생성하고 개선합니다. 수학 단어 문제 해결사의 전반적인 성능. 우리는 예비 조사를 실시한다. 이러한 질문 생성 모델의 잠재적 가치를 조사하기 위한 사용자 연구 교육의 영역 결과는 문제의 난이도를 시사합니다. 질문이 개선되거나 방해되는지를 결정하는 데 중요한 역할을 한다. 인간의 행위 우리는 이러한 질문 전략을 사용하는 미래에 대해 논의한다. 교육에 있어서
NLP meets psychotherapy: Using predicted client emotions and self-reported client emotions to measure emotional coherence
Emotions are experienced and expressed through various response systems. Coherence between emotional experience and emotional expression is considered important to clients' well being. To date, emotional coherence (EC) has been studied at a single time point using lab-based tasks with relatively small datasets. No study has examined EC between the subjective experience of emotions and emotion expression in therapy or whether this coherence is associated with clients' well being. Natural language Processing (NLP) approaches have been applied to identify emotions from psychotherapy dialogue, which can be implemented to study emotional processes on a larger scale. However, these methods have yet to be used to study coherence between emotional experience and emotional expression over the course of therapy and whether it relates to clients' well-being. This work presents an end-to-end approach where we use emotion predictions from our transformer based emotion recognition model to study emotional coherence and its diagnostic potential in psychotherapy research. We first employ our transformer based approach on a Hebrew psychotherapy dataset to automatically label clients' emotions at utterance level in psychotherapy dialogues. We subsequently investigate the emotional coherence between clients' self-reported emotional states and our model-based emotion predictions. We also examine the association between emotional coherence and clients' well being. Our findings indicate a significant correlation between clients' self-reported emotions and positive and negative emotions expressed verbally during psychotherapy sessions. Coherence in positive emotions was also highly correlated with clients well-being. These results illustrate how NLP can be applied to identify important emotional processes in psychotherapy to improve diagnosis and treatment for clients suffering from mental-health problems.
감정은 다양한 반응 시스템을 통해 경험되고 표현된다. 감정적 경험과 감정 표현 사이의 일관성을 고려한다. 고객의 행복에 중요한. 지금까지, 감정적 일관성(EC)은 다음과 같다. 비교적 작은 실험실 기반 작업을 사용하여 단일 시점에서 연구. 데이터 집합입니다. 어떠한 연구도 EC를 주관적인 경험 사이에서 조사하지 않았다. 치료에서 감정과 감정 표현 또는 이 일관성이 있는지 여부 고객의 행복과 관련된. 자연어 처리(NLP) 심리 치료 대화에서 감정을 식별하기 위한 접근법이 적용되었다. 그것은 감정적 과정을 더 큰 규모로 연구하기 위해 구현될 수 있다. 그러나, 이러한 방법들은 감정적인 것들 사이의 일관성을 연구하기 위해 아직 사용되지 않았다. 치료 과정과 그것의 여부에 대한 경험과 감정 표현 고객의 행복과 관련이 있습니다. 이 작업은 다음과 같은 엔드 투 엔드 접근 방식을 제공합니다. 우리는 변압기 기반 감정 인식 모델의 감정 예측을 사용한다. 심리 치료에서 감정적 일관성과 진단 가능성을 연구하다 조사. 우리는 먼저 히브리어를 기반으로 한 변압기 기반 접근 방식을 채택한다. 말을 할 때 고객의 감정에 자동으로 라벨을 붙이는 심리 치료 데이터 세트 심리 치료 대화의 수준. 우리는 그 후에 감정을 조사한다. 고객의 자기 인식 감정 상태와 우리의 모델 기반 사이의 일관성 감정 예측 우리는 또한 감정 사이의 연관성을 조사한다. 일관성과 고객의 행복. 우리의 연구 결과는 상당한 의미가 있음을 보여준다. 고객의 자기 연민 감정과 긍정적이고 부정적인 감정 사이의 상관 관계 심리 치료 중에 구두로 표현된 감정 일관성 긍정적인 감정은 또한 고객의 행복과 높은 상관관계가 있었다. 이것들 결과는 NLP가 중요한 감정을 식별하기 위해 어떻게 적용될 수 있는지 보여준다. 고객의 진단 및 치료를 개선하기 위한 심리 치료 과정 정신 건강 문제로 고통받고 있는
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-11-28] 오늘의 자연어처리 (0) | 2022.11.28 |
---|---|
[2022-11-27] 오늘의 자연어처리 (0) | 2022.11.27 |
[2022-11-25] 오늘의 자연어처리 (0) | 2022.11.25 |
[2022-11-24] 오늘의 자연어처리 (0) | 2022.11.24 |
[2022-11-23] 오늘의 자연어처리 (0) | 2022.11.23 |
댓글