본문 바로가기
오늘의 자연어 처리

[2023-08-09] 오늘의 자연어처리

by 지환이아빠 2023. 8. 9.
반응형

Improving Few-shot and Zero-shot Entity Linking with Coarse-to-Fine Lexicon-based Retriever

 

Few-shot and zero-shot entity linking focus on the tail and emerging entities, which are more challenging but closer to real-world scenarios. The mainstream method is the ''retrieve and rerank'' two-stage framework. In this paper, we propose a coarse-to-fine lexicon-based retriever to retrieve entity candidates in an effective manner, which operates in two layers. The first layer retrieves coarse-grained candidates by leveraging entity names, while the second layer narrows down the search to fine-grained candidates within the coarse-grained ones. In addition, this second layer utilizes entity descriptions to effectively disambiguate tail or new entities that share names with existing popular entities. Experimental results indicate that our approach can obtain superior performance without requiring extensive finetuning in the retrieval stage. Notably, our approach ranks the 1st in NLPCC 2023 Shared Task 6 on Chinese Few-shot and Zero-shot Entity Linking.

 

몇 발 안 되는 개체와 제로 샷 개체를 연결하여 꼬리와 신흥에 초점을 맞춥니다 더 도전적이지만 실제 시나리오에 더 가까운 엔티티입니다. 그 주류 방법은 "선택하고 순위를 다시 매기는" 2단계 프레임워크이다. 이 점에서. 논문, 우리는 엔티티를 검색하기 위해 거친 것부터 미세한 것까지 어휘 기반 검색기를 제안한다 두 개의 층으로 운영되는 효과적인 방식으로 후보자들. 첫번째 계층은 엔터티 이름을 활용하여 거칠게 분류된 후보를 검색합니다 두 번째 레이어는 검색 범위를 세분화하여 내부의 세분화된 후보자로 좁힙니다 결이 굵은 것. 또한 이 두 번째 계층은 엔티티를 활용합니다 이름을 공유하는 꼬리 또는 새 엔티티를 효과적으로 구분하는 설명 기존의 인기 있는 개체들과 함께. 실험 결과는 우리의 접근 방식이 광범위한 미세 조정 없이 우수한 성능을 얻을 수 있다 회수 단계. 특히, 우리의 접근 방식은 NLPCC 2023 공유 작업에서 1위를 차지한다 중국의 몇 발과 영발 개체 연결에 대한 6. 

 

 

Detecting Spells in Fantasy Literature with a Transformer Based Artificial Intelligence

 

Transformer architectures and models have made significant progress in language-based tasks. In this area, is BERT one of the most widely used and freely available transformer architecture. In our work, we use BERT for context-based phrase recognition of magic spells in the Harry Potter novel series. Spells are a common part of active magic in fantasy novels. Typically, spells are used in a specific context to achieve a supernatural effect. A series of investigations were conducted to see if a Transformer architecture could recognize such phrases based on their context in the Harry Potter saga. For our studies a pre-trained BERT model was used and fine-tuned utilising different datasets and training methods to identify the searched context. By considering different approaches for sequence classification as well as token classification, it is shown that the context of spells can be recognised. According to our investigations, the examined sequence length for fine-tuning and validation of the model plays a significant role in context recognition. Based on this, we have investigated whether spells have overarching properties that allow a transfer of the neural network models to other fantasy universes as well. The application of our model showed promising results and is worth to be deepened in subsequent studies.

 

트랜스포머 아키텍처 및 모델은 다음과 같은 분야에서 상당한 발전을 이루었습니다 언어 기반 작업. 이 영역에서 BERT는 가장 널리 사용되는 것 중 하나이며 자유롭게 사용할 수 있는 변압기 아키텍처. 우리의 작업에서, 우리는 BERT를 사용한다 해리포터 소설의 마법 주문에 대한 문맥 기반 문구 인식 시리즈. 주문은 판타지 소설에서 능동적인 마법의 일반적인 부분이다. 일반적으로. 주문은 초자연적인 효과를 얻기 위해 특정 맥락에서 사용된다. a 트랜스포머 아키텍처를 확인하기 위해 일련의 조사가 수행되었습니다 해리포터 시리즈에 나오는 그들의 문맥에 근거하여 그러한 문구들을 인식할 수 있었다. 우리의 연구를 위해 사전 훈련된 BERT 모델이 사용되었고 미세 조정되었다 검색된 컨텍스트를 식별하기 위한 다양한 데이터 세트 및 교육 방법. 타고 토큰뿐만 아니라 시퀀스 분류를 위한 다양한 접근 방식 고려 분류, 주문의 맥락을 인식할 수 있음을 보여준다. 우리의 조사에 따르면, 미세 조정을 위해 조사된 시퀀스 길이는 그리고 모델의 검증은 상황 인식에 중요한 역할을 한다. 이를 바탕으로 주문이 가장 중요한 특성을 갖는지 조사했다 뉴럴 네트워크 모델을 다른 판타지 우주로 전송할 수 있게 해줍니다 뿐만 아니라. 우리 모델의 적용은 유망한 결과를 보여주었고 할 가치가 있다 후속 연구에 몰두하다. 

 

 

KITLM: Domain-Specific Knowledge InTegration into Language Models for Question Answering

 

Large language models (LLMs) have demonstrated remarkable performance in a wide range of natural language tasks. However, as these models continue to grow in size, they face significant challenges in terms of computational costs. Additionally, LLMs often lack efficient domain-specific understanding, which is particularly crucial in specialized fields such as aviation and healthcare. To boost the domain-specific understanding, we propose, KITLM, a novel knowledge base integration approach into language model through relevant information infusion. By integrating pertinent knowledge, not only the performance of the language model is greatly enhanced, but the model size requirement is also significantly reduced while achieving comparable performance. Our proposed knowledge-infused model surpasses the performance of both GPT-3.5-turbo and the state-of-the-art knowledge infusion method, SKILL, achieving over 1.5 times improvement in exact match scores on the MetaQA. KITLM showed a similar performance boost in the aviation domain with AeroQA. The drastic performance improvement of KITLM over the existing methods can be attributed to the infusion of relevant knowledge while mitigating noise. In addition, we release two curated datasets to accelerate knowledge infusion research in specialized fields: a) AeroQA, a new benchmark dataset designed for multi-hop question-answering within the aviation domain, and b) Aviation Corpus, a dataset constructed from unstructured text extracted from the National Transportation Safety Board reports. Our research contributes to advancing the field of domain-specific language understanding and showcases the potential of knowledge infusion techniques in improving the performance of language models on question-answering.

 

대형 언어 모델(LLM)은 A에서 놀라운 성능을 입증했다 광범위한 자연어 과제. 그러나 이러한 모델이 계속해서 성장함에 따라 규모 면에서, 그들은 계산 비용 측면에서 상당한 도전에 직면해 있다. 또한 LLM은 효율적인 도메인별 이해가 부족한 경우가 많은데, 이는 다음과 같다 특히 항공 및 의료와 같은 전문 분야에서 중요하다. 로. 도메인별 이해를 높이고, 우리는 새로운 지식인 KITLM을 제안한다 관련 정보를 통해 언어 모델에 대한 기본 통합 접근 방식 주입하다. 관련 지식을 통합함으로써, 그 성능뿐만 아니라 언어 모델은 크게 향상되었지만 모델 크기 요구 사항 또한 그렇다 유사한 성능을 달성하면서도 현저하게 감소했습니다. 우리의 제안 지식을 주입한 모델은 GPT-3.5-터보와 더 나은 성능을 모두 능가한다 최첨단 지식 주입 방법, 스킬, 1.5배 이상 달성 메타QA에서 정확한 매치 점수 향상. KITLM도 유사한 결과를 보였다 AeroQA를 통해 항공 영역의 성능 향상. 파격적인 퍼포먼스 기존 방법보다 KITLM의 개선은 다음과 같은 이유에서 비롯될 수 있습니다 소음을 완화하면서 관련 지식을 주입합니다. 게다가, 우리는 출시한다 전문 지식 주입 연구를 가속화하기 위한 두 개의 큐레이션된 데이터 세트 필드: a) 멀티홉을 위해 설계된 새로운 벤치마크 데이터 세트인 AeroQA 항공 영역 내에서 질의응답, b) 항공 코퍼스, a 내셔널에서 추출한 비정형 텍스트로 구성된 데이터 세트 교통안전위원회 보고입니다. 우리의 연구는 발전에 기여한다 도메인별 언어 이해 분야와 잠재력을 보여준다 언어 모델의 성능 향상을 위한 지식 주입 기술 질문을 받고. 

 

 

반응형

댓글