On Unsupervised Training of Link Grammar Based Language Models
In this short note we explore what is needed for the unsupervised training of graph language models based on link grammars. First, we introduce the ter-mination tags formalism required to build a language model based on a link grammar formalism of Sleator and Temperley [21] and discuss the influence of context on the unsupervised learning of link grammars. Second, we pro-pose a statistical link grammar formalism, allowing for statistical language generation. Third, based on the above formalism, we show that the classical dissertation of Yuret [25] on discovery of linguistic relations using lexical at-traction ignores contextual properties of the language, and thus the approach to unsupervised language learning relying just on bigrams is flawed. This correlates well with the unimpressive results in unsupervised training of graph language models based on bigram approach of Yuret.
이 짧은 메모에서 우리는 감독되지 않은 훈련에 무엇이 필요한지 탐구한다. 링크 문법을 기반으로 한 그래프 언어 모델. 먼저, 우리는 그것을 소개한다. 링크 기반 언어 모델을 구축하는 데 필요한 종단 태그 형식주의 Sleator와 Temperley의 문법 형식주의 [21]와 영향력에 대해 논의합니다. 링크 문법의 감독되지 않은 학습에 대한 맥락. 둘째, 우리는 a를 제안한다. 통계적 연결 문법 형식주의, 통계적 언어를 허용한다. 시대. 셋째, 위의 형식주의에 기초하여, 우리는 고전적인 것을 보여준다. 어휘를 이용한 언어 관계의 발견에 관한 Yuret[25]의 논문. at-volution은 언어의 문맥적 속성을 무시하며, 따라서 빅그램에만 의존하는 비지도 언어 학습에 대한 접근 방식은 결함이 있다. 이것은 감독되지 않은 훈련의 인상적이지 않은 결과와 잘 상관된다. 유렛의 빅람 접근법에 기반한 그래프 언어 모델.
Reweighting Strategy based on Synthetic Data Identification for Sentence Similarity
Semantically meaningful sentence embeddings are important for numerous tasks in natural language processing. To obtain such embeddings, recent studies explored the idea of utilizing synthetically generated data from pretrained language models (PLMs) as a training corpus. However, PLMs often generate sentences much different from the ones written by human. We hypothesize that treating all these synthetic examples equally for training deep neural networks can have an adverse effect on learning semantically meaningful embeddings. To analyze this, we first train a classifier that identifies machine-written sentences, and observe that the linguistic features of the sentences identified as written by a machine are significantly different from those of human-written sentences. Based on this, we propose a novel approach that first trains the classifier to measure the importance of each sentence. The distilled information from the classifier is then used to train a reliable sentence embedding model. Through extensive evaluation on four real-world datasets, we demonstrate that our model trained on synthetic data generalizes well and outperforms the existing baselines. Our implementation is publicly available at this https URL.
의미론적으로 의미 있는 문장 임베딩은 수많은 작업에 중요하다. 자연어 처리로. 그러한 임베딩을 얻기 위해, 최근 연구들 사전 교육에서 합성 생성된 데이터를 활용하는 아이디어를 탐구했다. 언어 모델(PLM)을 훈련 코퍼스로 사용합니다. 그러나 PLM은 종종 다음을 생성합니다. 인간이 쓴 문장과는 많이 다른 문장들 라는 가설을 세웠다. 심층 신경망을 훈련시키기 위해 이 모든 합성 사례를 동등하게 취급한다. 의미적으로 의미 있는 임베딩을 학습하는 데 악영향을 미칠 수 있습니다. 로. 이것을 분석하고, 우리는 먼저 기계로 작성된 것을 식별하는 분류기를 훈련시킨다. 문장들, 그리고 문장들의 언어적 특징들이 식별되는 것을 관찰한다. 기계가 쓴 것과 사람이 쓴 것은 크게 다르다. 문장들. 이를 바탕으로, 우리는 먼저 다음을 훈련시키는 새로운 접근법을 제안한다. 각 문장의 중요성을 측정하는 분류기. 증류된 분류기의 정보는 신뢰할 수 있는 문장을 훈련시키는 데 사용된다. 내장 모델 4개의 실제 데이터 세트에 대한 광범위한 평가를 통해 합성 데이터에 대해 훈련된 우리의 모델이 잘 일반화되고 있음을 입증한다. 기존 기준선을 능가합니다. NAT 구현은 다음 사이트에서 공개적으로 사용할 수 있습니다. 이 https URL.
Neural Topic Modeling of Psychotherapy Sessions
In this work, we compare different neural topic modeling methods in learning the topical propensities of different psychiatric conditions from the psychotherapy session transcripts parsed from speech recordings. We also incorporate temporal modeling to put this additional interpretability to action by parsing out topic similarities as a time series in a turn-level resolution. We believe this topic modeling framework can offer interpretable insights for the therapist to optimally decide his or her strategy and improve the psychotherapy effectiveness.
이 연구에서, 우리는 학습에서 다른 신경 주제 모델링 방법을 비교한다. 정신 질환과 다른 정신 질환의 주제적 경향 음성 녹음에서 파싱된 심리 치료 세션 녹취록 저희도. 시간적 모델링을 통합하여 이러한 추가적인 해석 가능성을 실행에 옮긴다. 턴 레벨 해상도에서 주제 유사성을 시계열로 구문 분석함으로써. 우리는 이 주제 모델링 프레임워크가 해석 가능한 통찰력을 제공할 수 있다고 믿는다. 치료사는 자신의 전략을 최적으로 결정하고 개선한다. 심리 요법의 효과
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-09-01] 오늘의 자연어처리 (0) | 2022.09.01 |
---|---|
[2022-08-31] 오늘의 자연어처리 (0) | 2022.08.31 |
[2022-08-30] 오늘의 자연어처리 (0) | 2022.08.30 |
[2022-08-30] 오늘의 자연어처리 (0) | 2022.08.30 |
[2022-08-29] 오늘의 자연어처리 (0) | 2022.08.29 |
댓글