본문 바로가기
오늘의 자연어 처리

[2023-07-12] 오늘의 자연어처리

by 지환이아빠 2023. 7. 12.

DebateKG: Automatic Policy Debate Case Creation with Semantic Knowledge Graphs


Recent work within the Argument Mining community has shown the applicability of Natural Language Processing systems for solving problems found within competitive debate. One of the most important tasks within competitive debate is for debaters to create high quality debate cases. We show that effective debate cases can be constructed using constrained shortest path traversals on Argumentative Semantic Knowledge Graphs. We study this potential in the context of a type of American Competitive Debate, called Policy Debate, which already has a large scale dataset targeting it called DebateSum. We significantly improve upon DebateSum by introducing 53180 new examples, as well as further useful metadata for every example, to the dataset. We leverage the txtai semantic search and knowledge graph toolchain to produce and contribute 9 semantic knowledge graphs built on this dataset. We create a unique method for evaluating which knowledge graphs are better in the context of producing policy debate cases. A demo which automatically generates debate cases, along with all other code and the Knowledge Graphs, are open-sourced and made available to the public here: this https URL


Argument Mining 커뮤니티 내의 최근 연구는 적용 가능성을 보여주었다 에서 발견된 문제를 해결하기 위한 자연어 처리 시스템의 경쟁적인 토론. 경쟁적 토론에서 가장 중요한 과제 중 하나 토론자들이 양질의 토론 사례를 만드는 것이다. 우리는 그것이 효과적이라는 것을 보여준다 토론 사례는 제한된 최단 경로 횡단을 사용하여 구성될 수 있다 논증적 의미론적 지식 그래프. 우리는 이 잠재력을 맥락에서 연구한다 이미 정책 토론이라고 불리는 미국 경쟁 토론의 유형의 디베이트섬(DebateSum)이라는 대규모 데이터 세트를 보유하고 있다. 우리는 중요하다 추가뿐만 아니라 53180개의 새로운 사례를 도입함으로써 디베이트섬을 개선한다 데이터 세트에 대한 모든 예에 유용한 메타데이터. 우리는 txtai를 활용한다 시맨틱 검색 및 지식 그래프 툴체인을 생성하고 기여 9 이 데이터 세트에 구축된 의미론적 지식 그래프. 다음을 위한 고유한 방법을 만듭니다 정책 생산의 맥락에서 어떤 지식 그래프가 더 나은지 평가 사건을 토의하다. 모두와 함께 토론 사례를 자동으로 생성하는 데모 다른 코드와 지식 그래프는 오픈 소스이며 사용 가능하다 여기 공개: 이 https URL 



Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing


Cross-lingual semantic parsing transfers parsing capability from a high-resource language (e.g., English) to low-resource languages with scarce training data. Previous work has primarily considered silver-standard data augmentation or zero-shot methods, however, exploiting few-shot gold data is comparatively unexplored. We propose a new approach to cross-lingual semantic parsing by explicitly minimizing cross-lingual divergence between probabilistic latent variables using Optimal Transport. We demonstrate how this direct guidance improves parsing from natural languages using fewer examples and less training. We evaluate our method on two datasets, MTOP and MultiATIS++SQL, establishing state-of-the-art results under a few-shot cross-lingual regime. Ablation studies further reveal that our method improves performance even without parallel input translations. In addition, we show that our model better captures cross-lingual structure in the latent space to improve semantic representation similarity.


언어 간 시맨틱 구문 분석은 다음과 같이 구문 분석 기능을 전달합니다 자원이 풍부한 언어(예: 영어)에서 자원이 적은 언어까지 교육 자료. 이전 작업에서는 주로 실버 표준 데이터를 고려했습니다 그러나 퓨샷 골드 데이터를 활용하는 것은 확대 또는 제로샷 방법이다 비교적 미개척의. 우리는 언어 간 의미론에 대한 새로운 접근법을 제안한다 확률론적 간의 언어 간 차이를 명시적으로 최소화하여 구문 분석 Optimal Transport(최적 전송)를 사용하는 잠재 변수. 우리는 이것이 어떻게 직접적인지 보여준다 안내는 더 적은 예제와 더 적은 예제를 사용하여 자연어에서 구문 분석을 개선합니다 훈련. 우리는 두 개의 데이터 세트인 MTOP와 MultiATIS++SQL에서 우리의 방법을 평가한다, 몇 번의 교차 언어 체제 하에서 최첨단 결과를 확립하는 것. 절제 연구는 또한 우리의 방법이 성능을 향상시킨다는 것을 보여준다 병렬 입력 변환을 사용하지 않습니다. 게다가, 우리는 우리의 모델이 더 낫다는 것을 보여준다 의미론적 개선을 위해 잠재 공간에서 교차 언어 구조를 캡처한다 표현의 유사성. 



How word semantics and phonology affect handwriting of Alzheimer's patients: a machine learning based analysis


Using kinematic properties of handwriting to support the diagnosis of neurodegenerative disease is a real challenge: non-invasive detection techniques combined with machine learning approaches promise big steps forward in this research field. In literature, the tasks proposed focused on different cognitive skills to elicitate handwriting movements. In particular, the meaning and phonology of words to copy can compromise writing fluency. In this paper, we investigated how word semantics and phonology affect the handwriting of people affected by Alzheimer's disease. To this aim, we used the data from six handwriting tasks, each requiring copying a word belonging to one of the following categories: regular (have a predictable phoneme-grapheme correspondence, e.g., cat), non-regular (have atypical phoneme-grapheme correspondence, e.g., laugh), and non-word (non-meaningful pronounceable letter strings that conform to phoneme-grapheme conversion rules). We analyzed the data using a machine learning approach by implementing four well-known and widely-used classifiers and feature selection. The experimental results showed that the feature selection allowed us to derive a different set of highly distinctive features for each word type. Furthermore, non-regular words needed, on average, more features but achieved excellent classification performance: the best result was obtained on a non-regular, reaching an accuracy close to 90%.


필기의 운동학적 특성을 사용하여 진단 지원 신경퇴행성 질환은 진정한 도전이다: 비침습적 검출 기계 학습 접근법과 결합된 기술은 큰 진전을 약속한다 이 연구 분야에서. 문학에서, 제안된 과제들은 다른 것에 초점을 맞추었다 필기 동작을 유도하는 인지 기술. 특히, 그 의미는 그리고 복사할 단어의 음운론은 쓰기 유창성을 손상시킬 수 있다. 이 논문에서, 우리는 단어 의미론과 음운론이 어떻게 필기에 영향을 미치는지 조사했다 알츠하이머병에 걸린 사람들. 이 목표를 위해, 우리는 6개의 데이터를 사용했다 필기 작업, 각 작업은 다음 중 하나에 속하는 단어를 복사해야 합니다 다음 범주: 정규(예측 가능한 음소-단백질 정리 있음) 대응 관계(예: 고양이), 비정규적(비정형 음소-비정형 음소) 대응(예: 웃음) 및 비단어(의미 없는 발음 가능한 문자) 음소-단백질염 변환 규칙을 준수하는 문자열). 우리는 분석했다 기계 학습 접근법을 사용하는 데이터는 잘 알려진 4가지와 널리 사용되는 분류기 및 기능 선택. 실험 결과는 보여주었다 특징 선택은 우리가 다른 높은 집합을 도출할 수 있게 해주었다 각 단어 유형에 대한 고유한 기능. 게다가 부정기적인 단어들이 필요했고, 평균적으로 더 많은 기능이 있지만 우수한 분류 성능을 달성했습니다: 비정규적으로 얻은 최고의 결과는 다음과 같은 정확도에 도달했다 90%. 



