Language Models Understand Us, Poorly
Some claim language models understand us. Others won't hear it. To clarify, I investigate three views of human language understanding: as-mapping, as-reliability and as-representation. I argue that while behavioral reliability is necessary for understanding, internal representations are sufficient; they climb the right hill. I review state-of-the-art language and multi-modal models: they are pragmatically challenged by under-specification of form. I question the Scaling Paradigm: limits on resources may prohibit scaled-up models from approaching understanding. Last, I describe how as-representation advances a science of understanding. We need work which probes model internals, adds more of human language, and measures what models can learn.
어떤 사람들은 언어 모델이 우리를 이해한다고 주장한다. 다른 사람들은 안 들을 거야. 분명히 하자면, 나는 인간 언어 이해의 세 가지 관점을 조사한다: as-contract, 신뢰성과 표현성을 모두 갖추고 있습니다. 나는 행동적 신뢰성은 있지만 이해를 위해 필요하며, 내부 표현으로 충분합니다. 오른쪽 언덕을 오르다 최첨단 언어와 멀티 모달 리뷰를 합니다. 모델: 형식 지정이 부족하기 때문에 실용적으로 어려움을 겪습니다. i 확장 패러다임에 대한 질문: 리소스 제한으로 인해 확장되지 않을 수 있습니다. 이해에 근접한 모델들. 마지막으로, 어떻게 표현하는지 설명하겠습니다. 이해의 과학을 발전시키다 내부 모델을 조사하는 작업이 필요합니다. 더 많은 인간 언어를 추가하고 모델이 배울 수 있는 것을 측정합니다.
CEntRE: A paragraph-level Chinese dataset for Relation Extraction among Enterprises
Enterprise relation extraction aims to detect pairs of enterprise entities and identify the business relations between them from unstructured or semi-structured text data, and it is crucial for several real-world applications such as risk analysis, rating research and supply chain security. However, previous work mainly focuses on getting attribute information about enterprises like personnel and corporate business, and pays little attention to enterprise relation extraction. To encourage further progress in the research, we introduce the CEntRE, a new dataset constructed from publicly available business news data with careful human annotation and intelligent data processing. Extensive experiments on CEntRE with six excellent models demonstrate the challenges of our proposed dataset.
엔터프라이즈 관계 추출은 엔터프라이즈 엔티티 쌍을 탐지하는 것을 목표로 합니다. 비구조적 또는 비구조적 방식으로 그들 사이의 비즈니스 관계를 식별한다. 반구조화된 텍스트 데이터, 그리고 그것은 몇몇 실제 세계에 중요하다. 위험 분석, 등급 조사 및 공급망 보안과 같은 응용 프로그램입니다. 그러나 이전 작업은 주로 다음과 같은 속성 정보를 얻는 데 초점을 맞추고 있다. 인사 및 기업 사업과 같은 기업, 그리고 거의 관심을 기울이지 않는다. 기업 관계 추출 연구의 진보를 장려하기 위해, 우리는 공개적으로 사용할 수 있는 것으로 구성된 새로운 데이터 세트인 CENtRE를 소개한다. 신중한 인간 주석과 지능적인 데이터를 가진 비즈니스 뉴스 데이터 처리. 6개의 우수한 모델을 사용한 CentRE에 대한 광범위한 실험 제안된 데이터 세트의 문제를 보여 줍니다.
Hybrid-Regressive Neural Machine Translation
In this work, we empirically confirm that non-autoregressive translation with an iterative refinement mechanism (IR-NAT) suffers from poor acceleration robustness because it is more sensitive to decoding batch size and computing device setting than autoregressive translation (AT). Inspired by it, we attempt to investigate how to combine the strengths of autoregressive and non-autoregressive translation paradigms better. To this end, we demonstrate through synthetic experiments that prompting a small number of AT's predictions can promote one-shot non-autoregressive translation to achieve the equivalent performance of IR-NAT. Following this line, we propose a new two-stage translation prototype called hybrid-regressive translation (HRT). Specifically, HRT first generates discontinuous sequences via autoregression (e.g., make a prediction every k tokens, k>1) and then fills in all previously skipped tokens at once in a non-autoregressive manner. We also propose a bag of techniques to effectively and efficiently train HRT without adding any model parameters. HRT achieves the state-of-the-art BLEU score of 28.49 on the WMT En-De task and is at least 1.5x faster than AT, regardless of batch size and device. In addition, another bonus of HRT is that it successfully inherits the good characteristics of AT in the deep-encoder-shallow-decoder architecture. Concretely, compared to the vanilla HRT with a 6-layer encoder and 6-layer decoder, the inference speed of HRT with a 12-layer encoder and 1-layer decoder is further doubled on both GPU and CPU without BLEU loss.
이 연구에서, 우리는 비자기 회귀 변환을 경험적으로 확인한다. 반복적 정제 메커니즘(IR-NAT)이 가속도가 좋지 않음 배치 크기 및 컴퓨팅 디코딩에 더 민감하기 때문에 견고성 자동 회귀 변환(AT)보다 장치 설정입니다. 그것에 영감을 받아, 우리는 시도한다. 자기회귀와 자기회귀의 장점을 결합하는 방법을 조사하다 비자기 회귀 변환 패러다임을 개선합니다. 이를 위해, 우리는 시범을 보인다. 적은 수의 AT의 예측을 유도하는 합성 실험을 통해 동일한 결과를 얻기 위해 원샷 비자기 회귀 번역을 촉진할 수 있습니다. IR-NAT의 성능. 이 선에 따라, 우리는 새로운 2단계 단계를 제안한다. 하이브리드 회귀 번역(HRT)이라는 번역 프로토타입 구체적으로 말하면, HRT는 먼저 자기 회귀를 통해 불연속적인 시퀀스를 생성한다(예: make a an a. 예측 every k 토큰, k>1)를 선택한 다음 이전에 건너뛴 모든 토큰을 채웁니다. 즉시 비자동 회귀 방식으로 우리는 또한 다음과 같은 기술을 제안한다. 모델 매개 변수를 추가하지 않고 효과적이고 효율적으로 HRT를 교육합니다. HRT WMT En-De 작업에서 최첨단 BLEU 점수 28.49를 달성하고 배치 크기 및 장치에 관계없이 AT보다 최소 1.5배 더 빠릅니다. 게다가. HRT의 또 다른 장점은 좋은 특성을 성공적으로 계승한다는 것이다. 딥 인코더-shallow-decoder 아키텍처에서 AT의. 구체적으로, 와 비교해서 6계층 인코더와 6계층 디코더가 있는 바닐라 HRT, 추론 속도 12계층 인코더와 1계층 디코더를 사용하는 HRT의 경우 두 가지 모두에서 추가로 두 배가 됩니다. BLEU 손실이 없는 GPU 및 CPU.
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-10-23] 오늘의 자연어처리 (0) | 2022.10.23 |
---|---|
[2022-10-22] 오늘의 자연어처리 (0) | 2022.10.22 |
[2022-10-20] 오늘의 자연어처리 (0) | 2022.10.20 |
[2022-10-19] 오늘의 자연어처리 (0) | 2022.10.19 |
[2022-10-19] 오늘의 자연어처리 (0) | 2022.10.19 |
댓글