본문 바로가기
오늘의 자연어 처리

[2022-11-17] 오늘의 자연어처리

by 지환이아빠 2022. 11. 17.
반응형

FolkScope: Intention Knowledge Graph Construction for Discovering E-commerce Commonsense

 

As stated by Oren Etzioni, ``commonsense is the dark matter of artificial intelligence''. In e-commerce, understanding users' needs or intentions requires substantial commonsense knowledge, e.g., ``A user bought an iPhone and a compatible case because the user wanted the phone to be protected''. In this paper, we present FolkScope, an intention knowledge graph construction framework, to reveal the structure of humans' minds about purchasing items on e-commerce platforms such as Amazon. As commonsense knowledge is usually ineffable and not expressed explicitly, it is challenging to perform any kind of information extraction. Thus, we propose a new approach that leverages the generation power of large-scale language models and human-in-the-loop annotations to semi-automatically construct the knowledge graph. We annotate a large amount of assertions for both plausibility and typicality of an intention that can explain a purchasing or co-purchasing behavior, where the intention can be an open reason or a predicate falling into one of 18 categories aligning with ConceptNet, e.g., IsA, MadeOf, UsedFor, etc. Then we populate the annotated information to all automatically generated ones, and further structurize the assertions using pattern mining and conceptualization to form more condensed and abstractive knowledge. We evaluate our knowledge graph using both intrinsic quality measures and a downstream application, i.e., recommendation. The comprehensive study shows that our knowledge graph can well model e-commerce commonsense knowledge and can have many potential applications.

 

오렌 에치오니가 말했듯이, "상식은 인공의 암흑 물질이다. 지능'. 전자 상거래에서 사용자의 요구나 의도를 이해하는 것 ''사용자가 아이폰을 구입하고'' 사용자가 전화기를 보호하기를 원했기 때문에 호환되는 경우'. 이 점에서. 논문, 우리는 의도 지식 그래프 구성인 FolkScope를 제시한다. 프레임워크, 아이템 구매에 대한 인간의 마음의 구조를 드러내기 위해. 아마존과 같은 전자 상거래 플랫폼 상식적인 지식은 보통 표현할 수 없고 명시적으로 표현되지 않으며, 어떤 종류의 일을 수행하는 것은 어렵다. 정보 추출의. 따라서, 우리는 다음을 활용하는 새로운 접근법을 제안한다. 대규모 언어 모델과 루프 내 인간의 생성 능력 주석을 사용하여 지식 그래프를 반자동으로 구성할 수 있습니다. 우리는 a에 주석을 달았다. 의도의 타당성과 전형성 모두에 대한 많은 주장. 그것은 구매 또는 공동 구매 행동을 설명할 수 있다. 열린 이유일 수도 있고 18개 범주 중 하나로 분류되는 술어일 수도 있다. 예를 들어 IsA, MadeOf, UsedFor 등과 같이 ConceptNet을 사용합니다. 그리고 나서 우리는 그것을 채운다. 주석이 달린 정보를 자동으로 생성된 모든 정보에 추가합니다. 패턴 마이닝과 개념화를 사용하여 주장을 구조화합니다. 보다 요약되고 추상적인 지식 우리는 우리의 지식 그래프를 평가한다. 본질적인 품질 측정과 다운스트림 애플리케이션, 즉, 권고. 포괄적인 연구는 우리의 지식 그래프가 잘 될 수 있다는 것을 보여준다. 전자 상거래 상식을 모델링하고 많은 잠재력을 가질 수 있다. 적용들. 

 

 

CSynGEC: Incorporating Constituent-based Syntax for Grammatical Error Correction with a Tailored GEC-Oriented Parser

 

Recently, Zhang et al. (2022) propose a syntax-aware grammatical error correction (GEC) approach, named SynGEC, showing that incorporating tailored dependency-based syntax of the input sentence is quite beneficial to GEC. This work considers another mainstream syntax formalism, i.e., constituent-based syntax. By drawing on the successful experience of SynGEC, we first propose an extended constituent-based syntax scheme to accommodate errors in ungrammatical sentences. Then, we automatically obtain constituency trees of ungrammatical sentences to train a GEC-oriented constituency parser by using parallel GEC data as a pivot. For syntax encoding, we employ the graph convolutional network (GCN). Experimental results show that our method, named CSynGEC, yields substantial improvements over strong baselines. Moreover, we investigate the integration of constituent-based and dependency-based syntax for GEC in two ways: 1) intra-model combination, which means using separate GCNs to encode both kinds of syntax for decoding in a single model; 2)inter-model combination, which means gathering and selecting edits predicted by different models to achieve final corrections. We find that the former method improves recall over using one standalone syntax formalism while the latter improves precision, and both lead to better F0.5 values.

 

최근, Zhang 등(2022)은 구문 인식 문법 오류를 제안한다. SynGEC라는 이름의 수정(GEC) 접근 방식을 사용하여 맞춤형 통합을 보여줍니다. 입력 문장의 의존성 기반 구문은 GEC에 상당히 유익하다. 이것. 작업은 또 다른 주류 구문 형식주의, 즉 구성 요소 기반을 고려한다. 구문. SynGEC의 성공적인 경험을 바탕으로, 우리는 먼저 제안한다. 비문법적 오류를 수용하기 위한 확장된 구성 요소 기반 구문 체계 문장들. 그런 다음, 우리는 자동으로 비문법적인 구성 트리를 얻는다. 병렬 GEC를 사용하여 GEC 지향 유권자 파서를 훈련하는 문장 데이터를 피벗으로 사용합니다. 구문 인코딩을 위해 그래프 컨볼루션 네트워크를 사용한다. (GCN). 실험 결과 CSynGEC라는 이름의 우리의 방법은 강력한 기준선에 비해 실질적인 개선 게다가, 우리는 조사한다. GEC에 대한 구성요소 기반 및 종속성 기반 구문의 통합을 두 가지로 수행합니다. 방법: 1) 모델 내 결합, 즉 별도의 GCN을 사용하여 인코딩하는 것을 의미합니다. 단일 모델에서 디코딩을 위한 두 종류의 구문; 2) 모델 간 조합, 다른 모델에 의해 예측된 편집을 수집하고 선택하는 것을 의미합니다. 최종 수정을 하다 우리는 전자의 방법이 리콜을 개선한다는 것을 발견했다. 하나의 독립형 구문 형식주의를 사용하는 반면 후자는 정밀도를 향상시킨다. 둘 다 더 나은 F0.5 값으로 이어집니다. 

 

 

RobBERT-2022: Updating a Dutch Language Model to Account for Evolving Language Use

 

Large transformer-based language models, e.g. BERT and GPT-3, outperform previous architectures on most natural language processing tasks. Such language models are first pre-trained on gigantic corpora of text and later used as base-model for finetuning on a particular task. Since the pre-training step is usually not repeated, base models are not up-to-date with the latest information. In this paper, we update RobBERT, a RoBERTa-based state-of-the-art Dutch language model, which was trained in 2019. First, the tokenizer of RobBERT is updated to include new high-frequent tokens present in the latest Dutch OSCAR corpus, e.g. corona-related words. Then we further pre-train the RobBERT model using this dataset. To evaluate if our new model is a plug-in replacement for RobBERT, we introduce two additional criteria based on concept drift of existing tokens and alignment for novel tokens.We found that for certain language tasks this update results in a significant performance increase. These results highlight the benefit of continually updating a language model to account for evolving language use.

 

BERT 및 GPT-3과 같은 대형 변압기 기반 언어 모델이 성능을 능가합니다. 대부분의 자연어 처리 작업에 대한 이전 아키텍처. 그런 언어 모델은 처음에 거대한 텍스트 말뭉치에 대해 사전 훈련을 받고 나중에 다음과 같이 사용된다. 특정 작업에 대한 미세 조정을 위한 기본 모델. 사전 교육 단계는 다음과 같습니다. 일반적으로 반복되지 않으며, 기본 모델이 최신 버전이 아닙니다. 정보. 본 논문에서, 우리는 RobBERT를 기반으로 하는 최첨단 RobBERT를 업데이트한다. 2019년에 훈련된 네덜란드어 모델. 먼저, 의 토큰화기. RobBERT가 최신 고주파 토큰을 포함하도록 업데이트되었습니다. 네덜란드어 OSCAR 말뭉치(예: 코로나 관련 단어). 그런 다음 추가로 사전 교육을 실시합니다. 이 데이터 세트를 사용한 RobBERT 모델. 새 모델이 플러그인인지 평가하기 위해 RobBERT의 대체, 우리는 개념에 기초한 두 가지 추가 기준을 소개한다. 기존 토큰의 드리프트 및 새 토큰에 대한 정렬.우리는 그것을 찾았다. 이 업데이트를 통해 상당한 성능을 얻을 수 있는 특정 언어 작업 증가하다. 이러한 결과는 지속적으로 업데이트할 경우의 이점을 강조합니다. 진화하는 언어 사용을 설명하기 위한 언어 모델. 

 

 

반응형

댓글