본문 바로가기
오늘의 자연어 처리

[2022-10-18] 오늘의 자연어처리

by 지환이아빠 2022. 10. 18.
반응형

HashFormers: Towards Vocabulary-independent Pre-trained Transformers

 

Transformer-based pre-trained language models are vocabulary-dependent, mapping by default each token to its corresponding embedding. This one-to-one mapping results into embedding matrices that occupy a lot of memory (i.e. millions of parameters) and grow linearly with the size of the vocabulary. Previous work on on-device transformers dynamically generate token embeddings on-the-fly without embedding matrices using locality-sensitive hashing over morphological information. These embeddings are subsequently fed into transformer layers for text classification. However, these methods are not pre-trained. Inspired by this line of work, we propose HashFormers, a new family of vocabulary-independent pre-trained transformers that support an unlimited vocabulary (i.e. all possible tokens in a corpus) given a substantially smaller fixed-sized embedding matrix. We achieve this by first introducing computationally cheap hashing functions that bucket together individual tokens to embeddings. We also propose three variants that do not require an embedding matrix at all, further reducing the memory requirements. We empirically demonstrate that HashFormers are more memory efficient compared to standard pre-trained transformers while achieving comparable predictive performance when fine-tuned on multiple text classification tasks. For example, our most efficient HashFormer variant has a negligible performance degradation (0.4\% on GLUE) using only 99.1K parameters for representing the embeddings compared to 12.3-38M parameters of state-of-the-art models.

 

트랜스포머 기반 사전 훈련된 언어 모델은 어휘에 의존적이다. 기본적으로 각 토큰을 해당 임베딩에 매핑합니다. 이 일대일. 많은 메모리(즉, 메모리)를 차지하는 임베딩 행렬로 매핑하는 결과. 수백만 개의 매개 변수)와 어휘의 크기에 따라 선형적으로 증가합니다. 온 디바이스 트랜스포머에 대한 이전 작업은 토큰 임베딩을 동적으로 생성합니다. 로컬리티에 민감한 해시를 사용하여 매트릭스를 내장하지 않고 즉시 사용 가능 형태학적 정보 이러한 임베딩은 나중에 에 공급됩니다. 텍스트 분류를 위한 변환기 도면층. 그러나 이 방법들은 그렇지 않다. 사전 훈련을 받은 이 작업 라인에서 영감을 받아, 우리는 새로운 HashFormers를 제안한다. 다음을 지원하는 어휘 독립적 사전 훈련된 변압기 제품군 무제한 어휘(즉, 말뭉치의 모든 가능한 토큰)가 주어집니다. 상당히 작은 고정 크기의 임베딩 매트릭스입니다. 우리는 먼저 이것을 달성한다. 함께 버킷되는 계산적으로 저렴한 해시 함수 도입 개별 토큰을 임베딩에 추가합니다. 우리는 또한 그렇지 않은 세 가지 변형을 제안한다. 임베딩 매트릭스가 필요하므로 메모리 요구 사항이 더욱 줄어듭니다. 우리는 HashFormers가 보다 메모리 효율적이라는 것을 경험적으로 보여준다. 비교 가능한 예측을 달성하면서 사전 훈련된 변압기를 표준화하는 것 여러 텍스트 분류 작업을 세부적으로 처리할 때의 성능입니다. 예를들면, 우리의 가장 효율적인 HashFormer 변종은 성능 저하를 무시할 수 있다. 임베딩을 나타내기 위해 99.1K 매개 변수만 사용하는 (GLUE의 0.4\%) 최신 모델의 12.3-38M 매개 변수와 비교됩니다. 

 

 

Fine-grained Category Discovery under Coarse-grained supervision with Hierarchical Weighted Self-contrastive Learning

 

Novel category discovery aims at adapting models trained on known categories to novel categories. Previous works only focus on the scenario where known and novel categories are of the same granularity. In this paper, we investigate a new practical scenario called Fine-grained Category Discovery under Coarse-grained supervision (FCDC). FCDC aims at discovering fine-grained categories with only coarse-grained labeled data, which can adapt models to categories of different granularity from known ones and reduce significant labeling cost. It is also a challenging task since supervised training on coarse-grained categories tends to focus on inter-class distance (distance between coarse-grained classes) but ignore intra-class distance (distance between fine-grained sub-classes) which is essential for separating fine-grained categories. Considering most current methods cannot transfer knowledge from coarse-grained level to fine-grained level, we propose a hierarchical weighted self-contrastive network by building a novel weighted self-contrastive module and combining it with supervised learning in a hierarchical manner. Extensive experiments on public datasets show both effectiveness and efficiency of our model over compared methods. Code and data are available at this https URL.

 

새로운 범주 발견은 알려진 범주에 대해 훈련된 모델을 적응시키는 것을 목표로 한다. 새로운 범주로. 이전 작품들은 알려진 것과 알려진 시나리오에만 초점을 맞춘다. 새로운 범주는 동일한 세분성을 가집니다. 이 논문에서, 우리는 a를 조사한다. 세밀한 범주 발견이라는 새로운 실제 시나리오 거친 입도 관리(FCDC)입니다. FCDC는 세밀한 정보 파악을 목표로 합니다. 모형이 적응할 수 있는 거친 입도의 레이블링된 데이터만 있는 범주 알려진 것과 다른 세분성의 범주 및 유의한 감소 표시 비용 에 대한 감독 교육 이후 그것은 또한 어려운 과제이다. 거친 세분화된 범주는 클래스 간 거리(거리)에 집중하는 경향이 있다. 굵은 입자 클래스 간) 그러나 클래스 내 거리(거리)는 무시합니다. 세분화된 하위 영역 사이)를 분리하는 데 필수적입니다. 세밀한 분류 대부분의 현재 메서드는 전송할 수 없다는 점을 고려합니다. 대략적인 수준에서 세밀한 수준으로의 지식, 우리는 다음을 제안한다. 새로운 가중치를 구축하여 계층적 가중치 자기 보상 네트워크를 구축 자체 학습 모듈 및 이를 지도 학습과 결합합니다. 위계적 태도 공개 데이터 세트에 대한 광범위한 실험은 다음을 모두 보여준다. 비교된 방법에 비해 우리 모델의 효율성과 효과. 코드 및 데이터 이 https URL에서 사용할 수 있습니다. 

 

 

Extracting Cultural Commonsense Knowledge at Scale

 

Structured knowledge is important for many AI applications. Commonsense knowledge, which is crucial for robust human-centric AI, is covered by a small number of structured knowledge projects. However, they lack knowledge about human traits and behaviors conditioned on socio-cultural contexts, which is crucial for situative AI. This paper presents CANDLE, an end-to-end methodology for extracting high-quality cultural commonsense knowledge (CCSK) at scale. CANDLE extracts CCSK assertions from a huge web corpus and organizes them into coherent clusters, for 3 domains of subjects (geography, religion, occupation) and several cultural facets (food, drinks, clothing, traditions, rituals, behaviors). CANDLE includes judicious techniques for classification-based filtering and scoring of interestingness. Experimental evaluations show the superiority of the CANDLE CCSK collection over prior works, and an extrinsic use case demonstrates the benefits of CCSK for the GPT-3 language model. Code and data can be accessed at this https URL.

 

구조화된 지식은 많은 AI 애플리케이션에 중요하다. 상식 강력한 인간 중심 인공지능에 중요한 지식은 작은 것으로 덮여 있다. 구조화된 지식 프로젝트의 수입니다. 하지만, 그들은 에 대한 지식이 부족하다. 사회 문화적 맥락에 따라 조건화된 인간의 특징과 행동, 그것은 상황 AI에 매우 중요합니다. 본 논문은 종단간 방법론인 CANDLE을 제시한다. 수준 높은 문화적 상식적 지식(CCSK)을 규모에 맞게 추출하기 위해. CANDLE은 거대한 웹 코퍼스에서 CCSK 주장을 추출하여 다음과 같이 정리한다. 세 가지 주제(종교, 종교, 직업)에 대한 일관성 있는 클러스터 그리고 몇 가지 문화적 측면(음식, 음료, 의류, 전통, 의식, 행동). CANDEL에는 분류 기반에 대한 신중한 기술이 포함되어 있습니다. 흥미의 필터링과 채점. 실험 평가는 다음을 보여준다. CANDLE CCSK 컬렉션이 이전 작품보다 우수하고, 외재적이다. 사용 사례는 GPT-3 언어 모델에 대한 CCSK의 이점을 보여준다. 코드 이 https URL에서 데이터에 액세스할 수 있습니다. 

 

 

반응형

댓글