본문 바로가기
오늘의 자연어 처리

[2022-08-17] 오늘의 자연어처리

by 지환이아빠 2022. 8. 17.
반응형

Exploring Generative Models for Joint Attribute Value Extraction from Product Titles

 

Attribute values of the products are an essential component in any e-commerce platform. Attribute Value Extraction (AVE) deals with extracting the attributes of a product and their values from its title or description. In this paper, we propose to tackle the AVE task using generative frameworks. We present two types of generative paradigms, namely, word sequence-based and positional sequence-based, by formulating the AVE task as a generation problem. We conduct experiments on two datasets where the generative approaches achieve the new state-of-the-art results. This shows that we can use the proposed framework for AVE tasks without additional tagging or task-specific model design.

 

제품의 속성 값은 모든 전자 상거래에서 필수적인 구성 요소입니다. 단상의 속성 값 추출(AVE)은 속성 추출을 처리합니다. 제품의 제목 또는 설명에서 제품과 제품의 가치를 확인합니다. 이 논문에서, 우리는 생성 프레임워크를 사용하여 AVE 과제를 해결할 것을 제안한다. 우리는 두개를 제시한다. 생성 패러다임의 유형, 즉 워드 시퀀스 기반 및 위치 AVE 작업을 생성 문제로 공식화함으로써 시퀀스 기반. 지휘하다 생성적 접근법이 새로운 것을 달성하는 두 데이터 세트에 대한 실험 최첨단의 결과 이것은 우리가 제안된 프레임워크를 다음에 사용할 수 있다는 것을 보여준다. 추가 태그 또는 작업별 모델 설계가 없는 AVE 작업. 

 

 

Structural Biases for Improving Transformers on Translation into Morphologically Rich Languages

 

Machine translation has seen rapid progress with the advent of Transformer-based models. These models have no explicit linguistic structure built into them, yet they may still implicitly learn structured relationships by attending to relevant tokens. We hypothesize that this structural learning could be made more robust by explicitly endowing Transformers with a structural bias, and we investigate two methods for building in such a bias. One method, the TP-Transformer, augments the traditional Transformer architecture to include an additional component to represent structure. The second method imbues structure at the data level by segmenting the data with morphological tokenization. We test these methods on translating from English into morphologically rich languages, Turkish and Inuktitut, and consider both automatic metrics and human evaluations. We find that each of these two approaches allows the network to achieve better performance, but this improvement is dependent on the size of the dataset. In sum, structural encoding methods make Transformers more sample-efficient, enabling them to perform better from smaller amounts of data.

 

기계 번역은 의 출현과 함께 빠른 발전을 보았다. 변압기 기반 모델. 이 모델들은 명확한 언어 구조를 가지고 있지 않다. 그것들에 내장되어 있지만, 그들은 여전히 구조화된 관계를 암묵적으로 배울 수 있다. 관련 토큰에 참여함으로써. 우리는 이 구조적 학습이 트랜스포머에 구조를 명시적으로 부여함으로써 더 견고해질 수 있다. 편향, 그리고 우리는 그러한 편향에 건설하는 두 가지 방법을 조사한다. 한 가지 방법, TP-Transformer, 전통적인 Transformer 아키텍처를 다음과 같이 확장합니다. 구조를 나타내는 추가 구성요소를 포함합니다. 두 번째 방법 데이터를 형태학으로 분할하여 데이터 수준에서 구조를 주입합니다. 토큰화 우리는 이 방법들을 영어에서 로 번역하는 것을 시험한다. 형태학적으로 풍부한 언어, 터키어와 이누크티투트, 그리고 둘 다 고려하라. 자동 측정 기준 및 인간 평가. 우리는 이 두 가지 각각이 접근 방식은 네트워크가 더 나은 성능을 달성하도록 허용하지만, 이것은 데이터 집합의 크기에 따라 개선이 달라집니다. 요약하면, 구조적이다. 인코딩 방법은 트랜스포머를 더 효율적으로 만들어 다음을 가능하게 한다. 데이터 양이 적을수록 성능이 향상됩니다. 

 

 

An Answer Verbalization Dataset for Conversational Question Answerings over Knowledge Graphs

 

We introduce a new dataset for conversational question answering over Knowledge Graphs (KGs) with verbalized answers. Question answering over KGs is currently focused on answer generation for single-turn questions (KGQA) or multiple-tun conversational question answering (ConvQA). However, in a real-world scenario (e.g., voice assistants such as Siri, Alexa, and Google Assistant), users prefer verbalized answers. This paper contributes to the state-of-the-art by extending an existing ConvQA dataset with multiple paraphrased verbalized answers. We perform experiments with five sequence-to-sequence models on generating answer responses while maintaining grammatical correctness. We additionally perform an error analysis that details the rates of models' mispredictions in specified categories. Our proposed dataset extended with answer verbalization is publicly available with detailed documentation on its usage for wider utility.

 

우리는 대화식 질문 답변을 위한 새로운 데이터 세트를 소개한다. 언어화된 답변이 포함된 지식 그래프(KG)입니다. KG를 통한 질문 답변은 현재 단일 턴 질문(KGQA)에 대한 답변 생성에 초점을 맞추고 있습니다. 다중 튜닝 대화식 질문 응답(ConvQA). 하지만, a에서는 실제 시나리오(예: Siri, Alexa 및 Google과 같은 음성 비서) Assistant), 사용자는 언어화된 답변을 선호합니다. 이 논문은 에 기여한다. 여러 개의 기존 ConvQA 데이터 세트를 확장하여 최신 기술 제공 말로 바꾸어 말한 대답 우리는 5개로 실험을 한다. 시퀀스 대 시퀀스 모델 유지 관리 중 응답 응답 생성 문법상의 정확성 자세한 오류 분석을 추가로 수행합니다. 지정된 범주에서 모형의 잘못된 예측 비율입니다. 우리의 제안 답변 언어화로 확장된 데이터 세트는 세부적으로 공개적으로 사용할 수 있습니다. 보다 광범위한 유용성을 위한 그것의 사용에 대한 문서. 

 

 

반응형

댓글