본문 바로가기
오늘의 자연어 처리

[2022-08-17] 오늘의 자연어처리

by 지환이아빠 2022. 8. 17.
반응형

Exploring Generative Models for Joint Attribute Value Extraction from Product Titles

 

Attribute values of the products are an essential component in any e-commerce platform. Attribute Value Extraction (AVE) deals with extracting the attributes of a product and their values from its title or description. In this paper, we propose to tackle the AVE task using generative frameworks. We present two types of generative paradigms, namely, word sequence-based and positional sequence-based, by formulating the AVE task as a generation problem. We conduct experiments on two datasets where the generative approaches achieve the new state-of-the-art results. This shows that we can use the proposed framework for AVE tasks without additional tagging or task-specific model design.

 

제품의 속성 값은 모든 전자 상거래에서 필수적인 구성 요소입니다. 단상의 속성 값 추출(AVE)은 속성 추출을 처리합니다. 제품의 제목 또는 설명에서 제품과 제품의 가치를 확인합니다. 이 논문에서, 우리는 생성 프레임워크를 사용하여 AVE 과제를 해결할 것을 제안한다. 우리는 두개를 제시한다. 생성 패러다임의 유형, 즉 워드 시퀀스 기반 및 위치 AVE 작업을 생성 문제로 공식화함으로써 시퀀스 기반. 지휘하다 생성적 접근법이 새로운 것을 달성하는 두 데이터 세트에 대한 실험 최첨단의 결과 이것은 우리가 제안된 프레임워크를 다음에 사용할 수 있다는 것을 보여준다. 추가 태그 또는 작업별 모델 설계가 없는 AVE 작업. 

 

 

ConTextual Mask Auto-Encoder for Dense Passage Retrieval

 

Dense passage retrieval aims to retrieve the relevant passages of a query from a large corpus based on dense representations (i.e., vectors) of the query and the passages. Recent studies have explored improving pre-trained language models to boost dense retrieval performance. This paper proposes CoT-MAE (ConTextual Masked Auto-Encoder), a simple yet effective generative pre-training method for dense passage retrieval. CoT-MAE employs an asymmetric encoder-decoder architecture that learns to compress the sentence semantics into a dense vector through self-supervised and context-supervised masked auto-encoding. Precisely, self-supervised masked auto-encoding learns to model the semantics of the tokens inside a text span, and context-supervised masked auto-encoding learns to model the semantical correlation between the text spans. We conduct experiments on large-scale passage retrieval benchmarks and show considerable improvements over strong baselines, demonstrating the high efficiency of CoT-MAE.

 

조밀한 경로 검색은 쿼리의 관련 경로를 검색하는 것을 목표로 한다. 쿼리의 조밀한 표현(즉, 벡터)을 기반으로 한 대규모 말뭉치에서 그리고 그 구절들. 최근 연구는 사전 훈련된 언어 개선을 탐구했다. 고밀도 검색 성능을 향상시키는 모델입니다. 본 논문은 CoT-MAE를 제안한다. (콘텍스트 마스크된 자동 인코더), 간단하면서도 효과적인 생성 조밀한 통로 검색을 위한 사전 교육 방법. CoT-MAE는 비대칭을 사용한다. 문장 의미론을 압축하는 방법을 배우는 인코더-아키텍처 스스로 감독하고 상황에 따라 감독된 마스크를 통해 조밀한 벡터로. 자동 추출의 정확하게, 자기 지도 마스크 자동 인코딩은 모델링하는 법을 배운다. 텍스트 범위 내에서 토큰의 의미론 및 컨텍스트 감독 마스킹 자동 검색은 텍스트 간의 의미적 상관 관계를 모델링하는 방법을 배웁니다. 스팬. 우리는 대규모 통로 검색 벤치마크에 대한 실험을 수행하고 강한 기준선에 비해 상당한 개선을 보여주며, 높은 수준을 입증합니다. CoT-MAE의 효율성 

 

 

A Hybrid Model of Classification and Generation for Spatial Relation Extraction

 

Extracting spatial relations from texts is a fundamental task for natural language understanding and previous studies only regard it as a classification task, ignoring those spatial relations with null roles due to their poor information. To address the above issue, we first view spatial relation extraction as a generation task and propose a novel hybrid model HMCGR for this task. HMCGR contains a generation and a classification model, while the former can generate those null-role relations and the latter can extract those non-null-role relations to complement each other. Moreover, a reflexivity evaluation mechanism is applied to further improve the accuracy based on the reflexivity principle of spatial relation. Experimental results on SpaceEval show that HMCGR outperforms the SOTA baselines significantly.

 

텍스트에서 공간 관계를 추출하는 것은 자연에 대한 기본적인 작업이다. 언어 이해와 이전의 연구는 그것을 분류로만 간주한다. 태스크, 빈약한 관계로 인해 null 역할이 있는 공간 관계를 무시합니다. 정보. 위의 문제를 해결하기 위해, 우리는 먼저 공간 관계를 본다. 생성 과제로 추출하고 이를 위한 새로운 하이브리드 모델 HMCGR을 제안한다. 작업. HMCGR은 세대와 분류 모델을 포함하고 있는 반면, 전자는 Null-Role 관계를 생성할 수 있고 후자는 이를 추출할 수 있습니다. 서로 보완할 수 있는 비직역적 관계. 게다가, 반사성. 평가 메커니즘은 다음을 기반으로 정확도를 더욱 향상시키기 위해 적용된다. 공간 관계의 반사성 원리 SpaceEval에 대한 실험 결과 HMCGR이 SOTA 기준선을 크게 능가한다는 것을 보여줍니다. 

 

 

반응형

댓글