Synergistic Anchored Contrastive Pre-training for Few-Shot Relation Extraction
Abstract:Few-shot Relation Extraction (FSRE) aims to extract relational facts from a sparse set of labeled corpora. Recent studies have shown promising results in FSRE by employing Pre-trained Language Models (PLMs) within the framework of supervised contrastive learning, which considers both instances and label facts. However, how to effectively harness massive instance-label pairs to encompass the learned representation with semantic richness in this learning paradigm is not fully explored. To address this gap, we introduce a novel synergistic anchored contrastive pre-training framework. This framework is motivated by the insight that the diverse viewpoints conveyed through instance-label pairs capture incomplete yet complementary intrinsic textual semantics. Specifically, our framework involves a symmetrical contrastive objective that encompasses both sentence-anchored and label-anchored contrastive losses. By combining these two losses, the model establishes a robust and uniform representation space. This space effectively captures the reciprocal alignment of feature distributions among instances and relational facts, simultaneously enhancing the maximization of mutual information across diverse perspectives within the same relation. Experimental results demonstrate that our framework achieves significant performance enhancements compared to baseline models in downstream FSRE tasks. Furthermore, our approach exhibits superior adaptability to handle the challenges of domain shift and zero-shot relation extraction. Our code is available online at this https URL.
추상화:FSRE(Free-shot Relationary Extraction)는 레이블이 지정된 코퍼스의 희소 집합에서 관계적 사실을 추출하는 것을 목표로 한다. 최근의 연구들은 사례와 라벨 사실을 모두 고려하는 지도 대조 학습의 틀 내에서 사전 훈련된 언어 모델(PLM)을 사용함으로써 FSRE에서 유망한 결과를 보여주었다. 그러나 이 학습 패러다임에서 의미론적 풍부함을 가진 학습된 표현을 포괄하기 위해 대규모 인스턴스-라벨 쌍을 효과적으로 활용하는 방법은 완전히 탐구되지 않았다. 이러한 격차를 해결하기 위해, 우리는 새로운 시너지 앵커드 대조 사전 훈련 프레임워크를 도입한다. 이 프레임워크는 인스턴스-라벨 쌍을 통해 전달되는 다양한 관점이 불완전하지만 보완적인 본질적인 텍스트 의미를 포착한다는 통찰력에 의해 동기 부여된다. 특히, 우리의 프레임워크는 문장 고정 및 레이블 고정 대조 손실을 모두 포함하는 대칭 대조 목표를 포함한다. 이 두 손실을 결합하여 모형은 견고하고 균일한 표현 공간을 구축한다. 이 공간은 사례와 관계적 사실 사이의 특징 분포의 상호 정렬을 효과적으로 포착하여 동일한 관계 내에서 다양한 관점에 걸친 상호 정보의 극대화를 동시에 강화한다. 실험 결과는 우리의 프레임워크가 다운스트림 FSRE 작업에서 기준선 모델에 비해 상당한 성능 향상을 달성한다는 것을 보여준다. 또한, 우리의 접근 방식은 도메인 이동 및 제로 샷 관계 추출의 문제를 처리하는 데 탁월한 적응력을 보여준다. 저희 코드는 이 https URL에서 온라인으로 사용할 수 있습니다.
Can ChatGPT be Your Personal Medical Assistant?
Abstract:The advanced large language model (LLM) ChatGPT has shown its potential in different domains and remains unbeaten due to its characteristics compared to other LLMs. This study aims to evaluate the potential of using a fine-tuned ChatGPT model as a personal medical assistant in the Arabic language. To do so, this study uses publicly available online questions and answering datasets in Arabic language. There are almost 430K questions and answers for 20 disease-specific categories. GPT-3.5-turbo model was fine-tuned with a portion of this dataset. The performance of this fine-tuned model was evaluated through automated and human evaluation. The automated evaluations include perplexity, coherence, similarity, and token count. Native Arabic speakers with medical knowledge evaluated the generated text by calculating relevance, accuracy, precision, logic, and originality. The overall result shows that ChatGPT has a bright future in medical assistance.
추상화:고급 LLM(Large Language Model) ChatGPT은 다른 LLM에 비해 다양한 도메인에서 가능성을 보여주었고 특성상 무패 행진을 유지하고 있다. 본 연구는 아랍어 개인 의료 보조자로서 미세 tuned ChatGPT 모델의 활용 가능성을 평가하고자 한다. 이를 위해 본 연구는 아랍어로 공개된 온라인 질문과 답변 데이터셋을 활용한다. 20개의 질병별 범주에 대한 질문과 답변은 거의 43만 개에 달한다. GPT-3.5-터보 모델은 이 데이터 세트의 일부로 미세 조정되었다. 이 미세 조정 모델의 성능은 자동화 및 인체 평가를 통해 평가되었다. 자동화된 평가에는 당혹감, 일관성, 유사성 및 토큰 카운트가 포함된다. 의학적 지식을 가진 아랍어 원어민은 생성된 텍스트를 관련성, 정확성, 정밀성, 논리성, 독창성 등을 산출하여 평가하였다. 전체적인 결과는 ChatGPT가 의료 지원 분야에서 미래가 밝다는 것을 보여준다.
Multi-Granularity Information Interaction Framework for Incomplete Utterance Rewriting
Abstract:Recent approaches in Incomplete Utterance Rewriting (IUR) fail to capture the source of important words, which is crucial to edit the incomplete utterance, and introduce words from irrelevant utterances. We propose a novel and effective multi-task information interaction framework including context selection, edit matrix construction, and relevance merging to capture the multi-granularity of semantic information. Benefiting from fetching the relevant utterance and figuring out the important words, our approach outperforms existing state-of-the-art models on two benchmark datasets Restoration-200K and CANAND in this field. Code will be provided on \url{this https URL}.
추상화:IUR(Incomplete Utterence Rewriting)에서의 최근 접근법은 불완전한 발화를 편집하고 관련 없는 발화에서 단어를 도입하는 데 중요한 중요한 단어의 출처를 포착하는 데 실패한다. 의미 정보의 다중 세분성을 포착하기 위해 컨텍스트 선택, 편집 매트릭스 구성 및 관련성 병합을 포함한 새롭고 효과적인 다중 작업 정보 상호 작용 프레임워크를 제안한다. 관련 발화를 가져오고 중요한 단어를 파악하는 이점을 얻은 우리의 접근 방식은 이 분야의 두 벤치마크 데이터 세트 Restore-200K 및 CANAND에서 기존의 최첨단 모델을 능가한다. 코드는 \url{this https URL}에서 제공됩니다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-12-23] 오늘의 자연어처리 (1) | 2023.12.23 |
---|---|
[2023-12-22] 오늘의 자연어처리 (1) | 2023.12.22 |
[2023-12-20] 오늘의 자연어처리 (0) | 2023.12.20 |
[2023-12-19] 오늘의 자연어처리 (0) | 2023.12.19 |
[2023-12-18] 오늘의 자연어처리 (0) | 2023.12.18 |
댓글