본문 바로가기
오늘의 자연어 처리

[2023-02-06] 오늘의 자연어처리

by 지환이아빠 2023. 2. 6.
반응형

Unsupervised Entity Alignment for Temporal Knowledge Graphs

 

Entity alignment (EA) is a fundamental data integration task that identifies equivalent entities between different knowledge graphs (KGs). Temporal Knowledge graphs (TKGs) extend traditional knowledge graphs by introducing timestamps, which have received increasing attention. State-of-the-art time-aware EA studies have suggested that the temporal information of TKGs facilitates the performance of EA. However, existing studies have not thoroughly exploited the advantages of temporal information in TKGs. Also, they perform EA by pre-aligning entity pairs, which can be labor-intensive and thus inefficient. In this paper, we present DualMatch which effectively fuses the relational and temporal information for EA. DualMatch transfers EA on TKGs into a weighted graph matching problem. More specifically, DualMatch is equipped with an unsupervised method, which achieves EA without necessitating seed alignment. DualMatch has two steps: (i) encoding temporal and relational information into embeddings separately using a novel label-free encoder, Dual-Encoder; and (ii) fusing both information and transforming it into alignment using a novel graph-matching-based decoder, GM-Decoder. DualMatch is able to perform EA on TKGs with or without supervision, due to its capability of effectively capturing temporal information. Extensive experiments on three real-world TKG datasets offer the insight that DualMatch outperforms the state-of-the-art methods in terms of H@1 by 2.4% - 10.7% and MRR by 1.7% - 7.6%, respectively.

 

엔티티 정렬(EA)은 다음을 식별하는 기본 데이터 통합 작업입니다 서로 다른 지식 그래프(KG) 간의 동등한 엔티티. 시간적 지식 그래프(TKG)는 다음을 도입하여 전통적인 지식 그래프를 확장합니다 점점 더 많은 관심을 받고 있는 타임스탬프. 최첨단 시간 인식 EA 연구는 TKG의 시간적 정보를 제안했다 EA의 수행을 용이하게 합니다. 그러나 기존 연구는 그렇지 않다 TKG에서 시간 정보의 이점을 철저히 활용했다. 또한, 그들은 노동 집약적일 수 있으므로 개체 쌍을 사전 정렬하여 EA를 수행합니다 비효율적인. 이 논문에서, 우리는 관계를 효과적으로 융합하는 듀얼 매치를 제시한다 그리고 EA에 대한 시간 정보. DualMatch는 TKG의 EA를 가중으로 전송합니다 그래프 일치 문제. 좀 더 구체적으로 말하면, 듀얼 매치는 시드 정렬 없이 EA를 달성하는 비지도 방법. DualMatch는 두 단계로 구성됩니다. (i) 시간 및 관계 정보를 인코딩합니다 라벨이 없는 새로운 인코더, 듀얼 인코더를 사용하여 별도로 임베딩한다. 그리고 (ii) 두 정보를 융합하고 소설을 사용하여 정렬로 변환하기 그래프 매칭 기반 디코더, GM-디코더. DualMatch는 다음에서 EA를 수행할 수 있습니다 효과적인 능력으로 인해 감독 유무에 관계없이 TKG 시간적 정보를 포착하는 것. 세 가지 실제 TKG에 대한 광범위한 실험 데이터셋은 DualMatch가 최첨단 기술을 능가한다는 통찰력을 제공합니다 H@1은 2.4% - 10.7%, MRR은 1.7% - 7.6%의 방법을 사용합니다. 

 

 

$IC^3$: Image Captioning by Committee Consensus

 

If you ask a human to describe an image, they might do so in a thousand different ways. Traditionally, image captioning models are trained to approximate the reference distribution of image captions, however, doing so encourages captions that are viewpoint-impoverished. Such captions often focus on only a subset of the possible details, while ignoring potentially useful information in the scene. In this work, we introduce a simple, yet novel, method: "Image Captioning by Committee Consensus" ($IC^3$), designed to generate a single caption that captures high-level details from several viewpoints. Notably, humans rate captions produced by $IC^3$ at least as helpful as baseline SOTA models more than two thirds of the time, and $IC^3$ captions can improve the performance of SOTA automated recall systems by up to 84%, indicating significant material improvements over existing SOTA approaches for visual description. Our code is publicly available at this https URL

 

만약 당신이 인간에게 이미지를 묘사해달라고 요청한다면, 그들은 아마 천 번에 그렇게 할 것이다 여러 가지 방법. 전통적으로, 이미지 캡션 모델은 다음과 같이 훈련된다 그러나 이미지 캡션의 기준 분포를 근사화합니다 관점에서 강조되는 캡션을 권장합니다. 그러한 캡션은 종종 초점을 맞춘다 잠재적으로 유용한 정보를 무시한 채 가능한 세부 정보의 하위 집합에 대해서만 현장의 정보. 이 작품에서 우리는 간단하면서도 참신한 것을 소개한다, 방법: "위원회 합의에 의한 이미지 캡션"($IC^3$), 다음과 같이 설계되었습니다 여러 개의 세부 사항을 캡처하는 단일 캡션을 생성합니다 시점. 특히, 인간은 $IC^3$에 의해 생성된 캡션을 적어도 다음과 같이 평가한다 기준 SOTA 모델로서 3분의 2 이상의 시간과 $IC^3$로 유용하다 캡션은 SOTA 자동 리콜 시스템의 성능을 최대로 향상시킬 수 있습니다 84%, 기존 SOTA 접근 방식에 비해 상당한 수준의 재료 개선을 나타냄 시각적인 설명을 위해. 우리의 코드는 다음에서 공개적으로 이용할 수 있다 이 https URL 

 

 

Multimodal Chain-of-Thought Reasoning in Language Models

 

Large language models (LLMs) have shown impressive performance on complex reasoning by leveraging chain-of-thought (CoT) prompting to generate intermediate reasoning chains as the rationale to infer the answer. However, existing CoT studies are mostly isolated in the language modality with LLMs, where LLMs are hard to deploy. To elicit CoT reasoning in multimodality, a possible solution is to fine-tune small language models by fusing the vision and language features to perform CoT reasoning. The key challenge is that those language models tend to generate hallucinated reasoning chains that mislead the answer inference. To mitigate the effect of such mistakes, we propose Multimodal-CoT that incorporates vision features in a decoupled training framework. The framework separates the rationale generation and answer inference into two stages. By incorporating the vision features in both stages, the model is able to generate effective rationales that contribute to answer inference. With Multimodal-CoT, our model under 1 billion parameters outperforms the previous state-of-the-art LLM (GPT-3.5) by 16% (75.17%->91.68%) on the ScienceQA benchmark and even surpasses human performance. Code is publicly available at this https URL.

 

LLM(대규모 언어 모델)은 복잡한 환경에서 인상적인 성능을 보여주었습니다 생성을 유도하는 사고 체인(CoT)을 활용하여 추론 답을 추론하기 위한 이론적 근거로서 중간 추론 체인. 하지만, 기존 CoT 연구는 LLM을 사용한 언어 양식에서 대부분 분리된다, LLM을 배포하기 어려운 곳입니다. 다중 양식에서 CoT 추론을 유도하기 위해, a 가능한 해결책은 비전을 융합하여 작은 언어 모델을 미세 조정하는 것이다 그리고 CoT 추론을 수행하기 위한 언어 기능. 중요한 과제는 그것들이 언어 모델은 오해를 불러일으키는 환각적인 추론 체인을 생성하는 경향이 있다 추론에 답하다. 그러한 실수의 영향을 완화하기 위해, 우리는 제안한다 비전 기능을 분리된 교육에 통합하는 멀티모달-CoT 골조. 프레임워크는 이론적 근거 생성과 답변을 분리합니다 두 단계로 추론하다. 두 단계 모두에 비전 기능을 통합함으로써, 모델은 답변에 기여하는 효과적인 근거를 생성할 수 있다 추론. Multimodal-CoT를 사용한 우리의 모델은 10억 개의 매개 변수 아래에 있다 이전의 최첨단 LLM(GPT-3.5)을 16%(75.17%->91.68%) 능가한다 사이언스지에 있는QA는 벤치마크하고 심지어 인간의 성과를 능가한다. 코드는 이 https URL에서 공개적으로 사용할 수 있습니다. 

 

 

반응형

댓글