A Novel Multi-Task Learning Approach for Context-Sensitive Compound Type Identification in Sanskrit
The phenomenon of compounding is ubiquitous in Sanskrit. It serves for achieving brevity in expressing thoughts, while simultaneously enriching the lexical and structural formation of the language. In this work, we focus on the Sanskrit Compound Type Identification (SaCTI) task, where we consider the problem of identifying semantic relations between the components of a compound word. Earlier approaches solely rely on the lexical information obtained from the components and ignore the most crucial contextual and syntactic information useful for SaCTI. However, the SaCTI task is challenging primarily due to the implicitly encoded context-sensitive semantic relation between the compound components. Thus, we propose a novel multi-task learning architecture which incorporates the contextual information and enriches the complementary syntactic information using morphological tagging and dependency parsing as two auxiliary tasks. Experiments on the benchmark datasets for SaCTI show 6.1 points (Accuracy) and 7.7 points (F1-score) absolute gain compared to the state-of-the-art system. Further, our multi-lingual experiments demonstrate the efficacy of the proposed architecture in English and Marathi languages.The code and datasets are publicly available at this https URL
혼합 현상은 산스크리트어 어디에나 있다. 을 위한 것이다 생각을 표현하는 데 있어 간결함을 달성하는 동시에 더 풍부하게 한다. 언어의 어휘적, 구조적 형성 이 작업에서 우리는 산스크리트 복합 유형 식별(SaCTI) 과제, 여기서 우리는 다음을 고려한다. 화합물의 성분들 사이의 의미론적 관계를 식별하는 문제 단어. 이전의 접근 방식은 오직 에서 얻은 어휘 정보에 의존한다. 구성 요소 및 가장 중요한 문맥 및 구문 정보를 무시합니다. SaCTI에 유용합니다. 그러나 SaCTI 작업은 주로 다음과 같은 이유로 어렵다. 화합물 간의 문맥에 민감한 의미론적 관계를 암묵적으로 인코딩한다. 구성 요소들. 따라서, 우리는 다음과 같은 새로운 멀티태스킹 학습 아키텍처를 제안한다. 문맥 정보와 상호 보완적인 구문 정보를 풍부하게 한다. 형태학적 태깅과 의존성 파싱을 두 가지 보조 작업으로 사용한다. SaCTI에 대한 벤치마크 데이터 세트에 대한 실험은 6.1 포인트(정확도)와 최첨단 시스템 대비 7.7점(F1점) 절대득점 또한, 우리의 다국어 실험은 제안된 것의 효과를 보여준다. 영어와 마라티어로 된 건축.코드와 데이터셋은 이 https URL에서 공개적으로 사용 가능
Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense Reasoning
Commonsense reasoning is an appealing topic in natural language processing (NLP) as it plays a fundamental role in supporting the human-like actions of NLP systems. With large-scale language models as the backbone, unsupervised pre-training on numerous corpora shows the potential to capture commonsense knowledge. Current pre-trained language model (PLM)-based reasoning follows the traditional practice using perplexity metric. However, commonsense reasoning is more than existing probability evaluation, which is biased by word frequency. This paper reconsiders the nature of commonsense reasoning and proposes a novel commonsense reasoning metric, Non-Replacement Confidence (NRC). In detail, it works on PLMs according to the Replaced Token Detection (RTD) pre-training objective in ELECTRA, in which the corruption detection objective reflects the confidence on contextual integrity that is more relevant to commonsense reasoning than existing probability. Our proposed novel method boosts zero-shot performance on two commonsense reasoning benchmark datasets and further seven commonsense question-answering datasets. Our analysis shows that pre-endowed commonsense knowledge, especially for RTD-based PLMs, is essential in downstream reasoning.
상식적인 추론은 자연어 처리에서 매력적인 주제이다. (NLP) 그것은 인간과 같은 행동을 지원하는 데 근본적인 역할을 하기 때문에. NLP 시스템. 대규모 언어 모델을 중추로 하여, 감독되지 않은 수많은 말뭉치에 대한 사전 훈련은 상식을 포착할 수 있는 잠재력을 보여준다. 지식. 현재의 사전 훈련된 언어 모델(PLM) 기반 추론은 다음과 같다. 난해한 척도를 사용하는 전통적인 관행 하지만, 상식적인 추론은 단어 빈도에 의해 편향된 기존 확률 평가보다 더 많은 확률. 이 논문은 상식적 추론의 본질을 재고하고 소설을 제안한다. 상식 추론 메트릭, NRC(Non-Replacement Confidence)입니다. 자세히 말하자면, 그것은 대체 토큰 탐지(RTD) 사전 교육에 따라 PLM에서 작업 ELCTRA의 목표, 여기서 부패 감지 목표는 다음을 반영한다. 상식과 더 관련이 있는 문맥적 무결성에 대한 자신감 기존 확률보다 추론. 우리가 제안한 새로운 방법은 제로샷을 증가시킨다. 두 개의 상식적인 추론 벤치마크 데이터 세트 및 추가 7개에 대한 성능 상식적인 질문 검색 데이터 세트. 우리의 분석에 따르면 그것은 미리 허락된 것이다. 상식적인 지식은 특히 RTD 기반 PLM에 필수적이다. 하류 추리
Few-Shot Table-to-Text Generation with Prefix-Controlled Generator
Neural table-to-text generation approaches are data-hungry, limiting their adaptation for low-resource real-world applications. Previous works mostly resort to Pre-trained Language Models (PLMs) to generate fluent summaries of a table. However, they often contain hallucinated contents due to the uncontrolled nature of PLMs. Moreover, the topological differences between tables and sequences are rarely studied. Last but not least, fine-tuning on PLMs with a handful of instances may lead to over-fitting and catastrophic forgetting. To alleviate these problems, we propose a prompt-based approach, Prefix-Controlled Generator (i.e., PCG), for few-shot table-to-text generation. We prepend a task-specific prefix for a PLM to make the table structure better fit the pre-trained input. In addition, we generate an input-specific prefix to control the factual contents and word order of the generated text. Both automatic and human evaluations on different domains (humans, books and songs) of the Wikibio dataset show substantial improvements over baseline approaches.
신경 테이블 대 텍스트 생성 접근 방식은 데이터가 많이 필요하기 때문에 제한적이다. 저자원 실생활 애플리케이션을 위한 적응. 전작들이 대부분이다. 사전 훈련된 언어 모델(PLM)에 의존하여 유창한 요약 정보를 생성합니다. 그러나, 그것들은 종종 환각된 내용물을 포함한다. PLM의 통제되지 않는 특성. 게다가, 사이의 위상적 차이. 테이블과 시퀀스는 거의 연구되지 않습니다. 마지막으로, 미세 조정: 소수의 사례가 있는 PLM은 과적합 및 치명적인 결과를 초래할 수 있습니다. 망각의 이러한 문제를 완화하기 위해, 우리는 신속한 기반 접근법을 제안한다. 프리픽스 제어 생성기(예: PCG)로, 몇 번의 샷으로 테이블에서 텍스트로 생성할 수 있습니다. 테이블 구조를 개선하기 위해 PLM에 작업별 접두사를 추가한다. 사전 교육된 입력에 맞춥니다. 또한 다음과 같은 입력 관련 접두사를 생성합니다. 생성된 텍스트의 사실 내용 및 어순을 제어합니다. 둘다요. 서로 다른 영역(도메인, 책 및 노래)에 대한 자동 및 인간 평가 위키비오 데이터 세트의 기본 접근 방식에 비해 상당한 개선을 보여준다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-08-26] 오늘의 자연어처리 (0) | 2022.08.26 |
---|---|
[2022-08-25] 오늘의 자연어처리 (0) | 2022.08.25 |
[2022-08-24] 오늘의 자연어처리 (0) | 2022.08.24 |
[2022-08-24] 오늘의 자연어처리 (0) | 2022.08.24 |
[2022-08-23] 오늘의 자연어처리 (0) | 2022.08.23 |
댓글