본문 바로가기
오늘의 자연어 처리

[2023-05-02] 오늘의 자연어처리

by 지환이아빠 2023. 5. 2.
반응형

A logical word embedding for learning grammar

 

We introduce the logical grammar emdebbing (LGE), a model inspired by pregroup grammars and categorial grammars to enable unsupervised inference of lexical categories and syntactic rules from a corpus of text. LGE produces comprehensible output summarizing its inferences, has a completely transparent process for producing novel sentences, and can learn from as few as a hundred sentences.

 

우리는 논리 문법 emdebbing(LGE)을 소개하는데, 이는 에서 영감을 얻은 모델이다 사전 그룹 문법과 범주형 문법은 감독되지 않은 추론을 가능하게 한다 텍스트 말뭉치의 어휘 범주 및 구문 규칙. LGE가 생산하다 그것의 추론을 요약한 이해할 수 있는 출력은 완전히 투명하다 새로운 문장을 만드는 과정, 그리고 100개의 적은 것으로부터 배울 수 있다 문장들. 

 

 

Visual Referential Games Further the Emergence of Disentangled Representations

 

Natural languages are powerful tools wielded by human beings to communicate information. Among their desirable properties, compositionality has been the main focus in the context of referential games and variants, as it promises to enable greater systematicity to the agents which would wield it. The concept of disentanglement has been shown to be of paramount importance to learned representations that generalise well in deep learning, and is thought to be a necessary condition to enable systematicity. Thus, this paper investigates how do compositionality at the level of the emerging languages, disentanglement at the level of the learned representations, and systematicity relate to each other in the context of visual referential games. Firstly, we find that visual referential games that are based on the Obverter architecture outperforms state-of-the-art unsupervised learning approach in terms of many major disentanglement metrics. Secondly, we expand the previously proposed Positional Disentanglement (PosDis) metric for compositionality to (re-)incorporate some concerns pertaining to informativeness and completeness features found in the Mutual Information Gap (MIG) disentanglement metric it stems from. This extension allows for further discrimination between the different kind of compositional languages that emerge in the context of Obverter-based referential games, in a way that neither the referential game accuracy nor previous metrics were able to capture. Finally we investigate whether the resulting (emergent) systematicity, as measured by zero-shot compositional learning tests, correlates with any of the disentanglement and compositionality metrics proposed so far. Throughout the training process, statically significant correlation coefficients can be found both positive and negative depending on the moment of the measure.

 

자연어는 인간이 의사소통을 위해 휘두르는 강력한 도구이다 정보. 그들의 바람직한 특성 중에서, 구성성은 다음과 같다 참조 게임 및 변형의 맥락에서 주요 초점을 약속합니다 그것을 휘두르는 요원들에게 더 큰 체계성을 가능하게 한다. 의 개념 분리는 학문에 있어서 가장 중요한 것으로 나타났다 딥 러닝에서 잘 일반화되는 표현, 그리고 생각되는 표현 체계화를 가능하게 하는 데 필요한 조건. 그러므로, 이 논문은 어떻게 조사한다 신흥 언어 수준에서 구성성을 수행하고, 얽힘을 해제합니다 학습된 표현의 수준, 그리고 각각과 관련된 체계성 시각적 참조 게임의 맥락에서 다른. 먼저, 우리는 시각적인 것을 발견한다 Obverter 아키텍처를 기반으로 하는 참조 게임이 성능을 능가합니다 많은 전공 측면에서 최첨단 비지도 학습 접근법 분리 메트릭입니다. 둘째로, 우리는 이전에 제안된 위치를 확장한다 일부를 (재) 통합하기 위한 구성성에 대한 분리(PosDis) 메트릭 정보성 및 완전성 기능과 관련된 우려 사항 MIG(Mutual Information Gap) 분리 메트릭은 이 메트릭에서 비롯됩니다. 이것. 확장은 다른 종류의 차별을 더 허용한다 Obverter 기반의 맥락에서 나타나는 구성 언어 참조 게임, 참조 게임 정확도나 참조 게임이 아닌 방식으로 이전 메트릭을 캡처할 수 있었습니다. 마지막으로 우리는 그것이 제로샷 구성으로 측정한 결과(비상) 체계성 분리 및 구성과 관련된 학습 테스트 지금까지 제안된 측정 기준. 교육 과정 전반에 걸쳐 정적으로 유의한 상관 계수는 양과 음 모두에서 발견될 수 있다 조치의 순간에 따라. 

 

 

Made of Steel? Learning Plausible Materials for Components in the Vehicle Repair Domain

 

We propose a novel approach to learn domain-specific plausible materials for components in the vehicle repair domain by probing Pretrained Language Models (PLMs) in a cloze task style setting to overcome the lack of annotated datasets. We devise a new method to aggregate salient predictions from a set of cloze query templates and show that domain-adaptation using either a small, high-quality or a customized Wikipedia corpus boosts performance. When exploring resource-lean alternatives, we find a distilled PLM clearly outperforming a classic pattern-based algorithm. Further, given that 98% of our domain-specific components are multiword expressions, we successfully exploit the compositionality assumption as a way to address data sparsity.

 

우리는 도메인별로 그럴듯한 자료를 학습하기 위한 새로운 접근법을 제안한다 사전 학습된 언어 모델을 탐색하여 차량 수리 도메인의 구성 요소 주석이 달린 부족함을 극복하기 위해 클로즈 작업 스타일 설정에서 (PLM) 데이터 세트. 우리는 일련의 중요한 예측을 집계하는 새로운 방법을 고안한다 쿼리 템플릿을 닫고 소규모 도메인을 사용하여 도메인 적응을 보여줍니다, 고품질 또는 맞춤형 위키피디아 말뭉치는 성능을 향상시킵니다. 언제 자원에 의존하지 않는 대안을 탐구하면서, 우리는 증류된 PLM을 명확하게 발견한다 전통적인 패턴 기반 알고리즘을 능가합니다. 게다가, 우리의 98%가 도메인별 구성 요소는 다중 단어 표현식이며, 성공적으로 활용합니다 데이터 희소성을 해결하기 위한 방법으로서의 구성성 가정. 

 

 

반응형

댓글