본문 바로가기
오늘의 자연어 처리

[2023-04-24] 오늘의 자연어처리

by 지환이아빠 2023. 4. 24.
반응형

GPT-NER: Named Entity Recognition via Large Language Models

 

Despite the fact that large-scale Language Models (LLM) have achieved SOTA performances on a variety of NLP tasks, its performance on NER is still significantly below supervised baselines. This is due to the gap between the two tasks the NER and LLMs: the former is a sequence labeling task in nature while the latter is a text-generation model. In this paper, we propose GPT-NER to resolve this issue. GPT-NER bridges the gap by transforming the sequence labeling task to a generation task that can be easily adapted by LLMs e.g., the task of finding location entities in the input text "Columbus is a city" is transformed to generate the text sequence "@@Columbus## is a city", where special tokens @@## marks the entity to extract. To efficiently address the "hallucination" issue of LLMs, where LLMs have a strong inclination to over-confidently label NULL inputs as entities, we propose a self-verification strategy by prompting LLMs to ask itself whether the extracted entities belong to a labeled entity tag. We conduct experiments on five widely adopted NER datasets, and GPT-NER achieves comparable performances to fully supervised baselines, which is the first time as far as we are concerned. More importantly, we find that GPT-NER exhibits a greater ability in the low-resource and few-shot setups, when the amount of training data is extremely scarce, GPT-NER performs significantly better than supervised models. This demonstrates the capabilities of GPT-NER in real-world NER applications where the number of labeled examples is limited.

 

대규모 언어 모델(LLM)이 SOTA를 달성했음에도 불구하고 다양한 NLP 작업에 대한 성능, NER에 대한 성능은 여전히 유지됩니다 감독된 기준선보다 현저히 낮습니다. 이것은 사이의 간격 때문이다 NER과 LLM의 두 가지 작업: 전자는 본질적으로 시퀀스 레이블링 작업이다 후자는 텍스트 생성 모델이다. 본 논문에서는 이 문제를 해결하기 위해 GPT-NER를 제안한다. GPT-NER는 다리를 연결합니다 시퀀스 레이블링 작업을 다음과 같은 생성 작업으로 변환함으로써 간격 LLM에 의해 쉽게 조정됩니다. 예를 들어, 입력에서 위치 엔티티를 찾는 작업입니다 텍스트 "Columbus is a city"가 텍스트 시퀀스를 생성하도록 변환됩니다 "@@@Columbus##는 도시이다", 여기서 특별 토큰 @@##는 엔티티를 다음과 같이 표시한다 압축풀기. LLMs의 "광각성" 문제를 효율적으로 해결하기 위해 LLMs NULL 입력을 엔티티로 지나치게 자신 있게 레이블링하는 경향이 강합니다 LLM이 스스로에게 질문하도록 유도함으로써 자체 검증 전략을 제안한다 추출된 엔티티는 레이블이 지정된 엔티티 태그에 속합니다. 우리는 널리 채택된 5개의 NER 데이터 세트와 GPT-NER에 대한 실험을 수행한다 완전히 감독된 기준선에 필적하는 성능을 달성합니다 우리에 관한 한 처음으로. 더 중요한 건 GPT-NER가 낮은 리소스 및 퓨샷 설정에서 더 큰 능력을 발휘합니다 교육 데이터의 양이 극도로 부족하며, GPT-NER은 상당한 성능을 발휘한다 감독 모델보다 더 나은. 이것은 GPT-NER의 기능을 보여준다 레이블이 지정된 예제의 수가 제한되는 실제 NER 응용 프로그램. 

 

 

Decouple Non-parametric Knowledge Distillation For End-to-end Speech Translation

 

Existing techniques often attempt to make knowledge transfer from a powerful machine translation (MT) to speech translation (ST) model with some elaborate techniques, which often requires transcription as extra input during training. However, transcriptions are not always available, and how to improve the ST model performance without transcription, i.e., data efficiency, has rarely been studied in the literature. In this paper, we propose Decoupled Non-parametric Knowledge Distillation (DNKD) from data perspective to improve the data efficiency. Our method follows the knowledge distillation paradigm. However, instead of obtaining the teacher distribution from a sophisticated MT model, we construct it from a non-parametric datastore via k-Nearest-Neighbor (kNN) retrieval, which removes the dependence on transcription and MT model. Then we decouple the classic knowledge distillation loss into target and non-target distillation to enhance the effect of the knowledge among non-target logits, which is the prominent "dark knowledge". Experiments on MuST-C corpus show that, the proposed method can achieve consistent improvement over the strong baseline without requiring any transcription.

 

기존 기술은 종종 강력한 기술로부터 지식을 이전하려고 시도한다 기계 번역(MT)에서 음성 번역(ST) 모델로 약간 정교함 종종 훈련 중에 추가 입력으로 전사를 요구하는 기술. 그러나 전사가 항상 가능한 것은 아니며 ST를 개선하는 방법은 전사가 없는 모델 성능, 즉 데이터 효율성은 거의 없습니다 문학을 공부했다. 이 논문에서, 우리는 분리된 비모수를 제안한다 데이터 관점에서의 지식 증류(DNKD)를 통한 데이터 개선 효율성. 우리의 방법은 지식 증류 패러다임을 따른다. 하지만, 정교한 MT 모델로부터 선생님 분포를 얻는 대신, 우리는 kNN(k-Nearest-Neighbor)을 통해 비모수 데이터스토어에서 데이터스토어 구성 검색을 통해 전사 및 MT 모델에 대한 의존성을 제거할 수 있습니다. 그러면 저희가 고전적인 지식 증류 손실을 대상과 비대상으로 분리하다 비표적 로짓 간 지식의 효과를 향상시키기 위한 증류, 그것은 눈에 띄는 "어두운 지식"이다. MuST-C 말뭉치에 대한 실험은 보여준다 제안된 방법은 강자에 비해 일관된 개선을 달성할 수 있다 전사를 필요로 하지 않는 기준선. 

 

 

A Latent Space Theory for Emergent Abilities in Large Language Models

 

Languages are not created randomly but rather to communicate information. There is a strong association between languages and their underlying meanings, resulting in a sparse joint distribution that is heavily peaked according to their correlations. Moreover, these peak values happen to match with the marginal distribution of languages due to the sparsity. With the advent of LLMs trained on big data and large models, we can now precisely assess the marginal distribution of languages, providing a convenient means of exploring the sparse structures in the joint distribution for effective inferences. In this paper, we categorize languages as either unambiguous or {\epsilon}-ambiguous and present quantitative results to demonstrate that the emergent abilities of LLMs, such as language understanding, in-context learning, chain-of-thought prompting, and effective instruction fine-tuning, can all be attributed to Bayesian inference on the sparse joint distribution of languages.

 

언어는 무작위로 만들어지는 것이 아니라 정보를 전달하기 위해 만들어진다. 언어와 언어의 근본적인 의미 사이에는 강한 연관성이 있다, 그 결과에 따라 심하게 정점에 있는 희소한 관절 분포를 초래한다 그들의 상관관계. 게다가, 이러한 피크 값은 다음과 일치합니다 희소성으로 인한 언어의 한계 분포. LLM의 등장으로 빅데이터와 대규모 모델에 대해 교육을 받은 우리는 이제 한계를 정확하게 평가할 수 있다 언어의 분포, 희소성을 탐구하는 편리한 수단을 제공한다 효과적인 추론을 위한 공동 분포의 구조. 이 논문에서, 우리는 언어를 모호하지 않거나 (epsilon)-언어로 분류한다 의 출현 능력을 증명하기 위해 양적 결과를 제시하다 언어 이해, 상황별 학습, 사고 체계와 같은 LLM 프롬프트 및 효과적인 명령 미세 조정은 모두 다음과 같은 결과를 가져올 수 있습니다 언어의 희박한 공동 분포에 대한 베이지안 추론. 

 

 

반응형

댓글