본문 바로가기
오늘의 자연어 처리

[2023-05-05] 오늘의 자연어처리

by 지환이아빠 2023. 5. 5.
반응형

Towards Being Parameter-Efficient: A Stratified Sparsely Activated Transformer with Dynamic Capacity

 

Mixture-of-experts (MoE) models that employ sparse activation have demonstrated effectiveness in significantly increasing the number of parameters while maintaining low computational requirements per token. However, recent studies have established that MoE models are inherently parameter-inefficient as the improvement in performance diminishes with an increasing number of experts. We hypothesize this parameter inefficiency is a result of all experts having equal capacity, which may not adequately meet the varying complexity requirements of different tokens or tasks, e.g., in a multilingual setting, languages based on their resource levels might require different capacities. In light of this, we propose Stratified Mixture of Experts(SMoE) models, which feature a stratified structure and can assign dynamic capacity to different tokens. We demonstrate the effectiveness of SMoE on two multilingual machine translation benchmarks, where it outperforms multiple state-of-the-art MoE models. On a diverse 15-language dataset, SMoE improves the translation quality over vanilla MoE by +0.93 BLEU points on average. Additionally, SMoE is parameter-efficient, matching vanilla MoE performance with around 50\% fewer parameters.

 

희소 활성화를 사용하는 전문가 혼합(MoE) 모델은 다음과 같다 매개변수의 수를 크게 증가시키는 데 있어 효과적임이 입증되었다 토큰당 낮은 계산 요구사항을 유지합니다. 그러나 최근에 연구에 따르면 MoE 모델은 본질적으로 매개변수 비효율적이다 의 수가 증가함에 따라 성능 향상이 감소함에 따라 전문가. 우리는 이 매개 변수의 비효율성이 모든 전문가의 결과라고 가정한다 다양한 복잡성을 적절하게 충족하지 못할 수 있는 동일한 용량을 갖는 것 다양한 토큰 또는 작업의 요구사항(예: 다국어 환경에서), 리소스 수준을 기반으로 하는 언어는 다양한 용량이 필요할 수 있습니다. 인 이에 비추어, 우리는 SMoE(Stratized Mixture of Expert) 모델을 제안한다 계층화된 구조를 특징으로 하며 동적 용량을 다양하게 할당할 수 있습니다 토큰. 우리는 두 개의 다국어 기계에서 SMoE의 효과를 보여준다 여러 최신 MoE를 능가하는 번역 벤치마크 모델. 다양한 15개 언어 데이터 세트에서 SMoE는 번역 품질을 향상시킵니다 평균적으로 바닐라 MoE보다 +0.93 BLEU 포인트 높습니다. 또한 SMoE는 매개 변수 효율적이며 약 50% 더 적은 수의 바닐라 MoE 성능과 일치 매개 변수. 

 

 

A Statistical Exploration of Text Partition Into Constituents: The Case of the Priestly Source in the Books of Genesis and Exodus

 

We present a pipeline for a statistical textual exploration, offering a stylometry-based explanation and statistical validation of a hypothesized partition of a text. Given a parameterization of the text, our pipeline: (1) detects literary features yielding the optimal overlap between the hypothesized and unsupervised partitions, (2) performs a hypothesis-testing analysis to quantify the statistical significance of the optimal overlap, while conserving implicit correlations between units of text that are more likely to be grouped, and (3) extracts and quantifies the importance of features most responsible for the classification, estimates their statistical stability and cluster-wise abundance. We apply our pipeline to the first two books in the Bible, where one stylistic component stands out in the eyes of biblical scholars, namely, the Priestly component. We identify and explore statistically significant stylistic differences between the Priestly and non-Priestly components.

 

우리는 통계 텍스트 탐색을 위한 파이프라인을 제시하여 다음을 제공한다 스타일 측정 기반 설명 및 가설에 대한 통계적 검증 텍스트의 분할. 텍스트의 매개 변수화를 고려할 때, 우리의 파이프라인: (1) 문학적 특징을 감지하여 가설 사이에 최적의 중첩을 생성한다 그리고 감독되지 않은 파티션, (2) 가설 추적 분석을 수행한다 보존하면서 최적 중첩의 통계적 중요성을 정량화한다 그룹화될 가능성이 높은 텍스트 단위 간의 암묵적 상관관계, 그리고 (3) 가장 책임 있는 기능의 중요성을 추출하고 정량화한다 분류, 통계적 안정성 및 군집별 추정 풍부. 우리는 우리의 파이프라인을 성경의 첫 두 책에 적용한다 양식적 요소는 성경 학자들의 눈에 두드러진다, 즉 사제 구성 요소. 우리는 통계적으로 유의한 스타일을 식별하고 탐구한다 Priestly 구성 요소와 비Priestly 구성 요소 간의 차이. 

 

 

GPT-RE: In-context Learning for Relation Extraction using Large Language Models

 

In spite of the potential for ground-breaking achievements offered by large language models (LLMs) (e.g., GPT-3), they still lag significantly behind fully-supervised baselines (e.g., fine-tuned BERT) in relation extraction (RE). This is due to the two major shortcomings of LLMs in RE: (1) low relevance regarding entity and relation in retrieved demonstrations for in-context learning; and (2) the strong inclination to wrongly classify NULL examples into other pre-defined labels. In this paper, we propose GPT-RE to bridge the gap between LLMs and fully-supervised baselines. GPT-RE successfully addresses the aforementioned issues by (1) incorporating task-specific entity representations in demonstration retrieval; and (2) enriching the demonstrations with gold label-induced reasoning logic. We evaluate GPT-RE on four widely-used RE datasets, and observe that GPT-RE achieves improvements over not only existing GPT-3 baselines, but also fully-supervised baselines. Specifically, GPT-RE achieves SOTA performances on the Semeval and SciERC datasets, and competitive performances on the TACRED and ACE05 datasets.

 

대규모 기업이 제공하는 획기적인 성과의 가능성에도 불구하고 언어 모델(LLM)(예: GPT-3)은 여전히 크게 뒤떨어져 있다 관계 추출(RE)에서 완전히 감독된 기준선(예: 미세 조정된 BERT). 이는 RE에서 LLM의 두 가지 주요 단점 때문이다: (1) 관련성이 낮다 검색된 내부 데모의 실체 및 관계에 관하여 학습; 그리고 (2) NULL 예제를 잘못 분류하는 강한 성향 미리 정의된 기타 레이블. 본 논문에서, 우리는 LLM과 LLM 사이의 격차를 해소하기 위해 GPT-RE를 제안한다 완전히 감독된 기준선. GPT-RE는 위에서 언급한 사항을 성공적으로 해결합니다 (1) 과제별 엔티티 표현을 통합하여 문제를 해결한다 시연 검색; 그리고 (2) 금으로 시연을 풍부하게 한다 꼬리표 유도 추론 논리. 우리는 널리 사용되는 4개의 RE에 대해 GPT-RE를 평가한다 데이터 세트, 그리고 GPT-RE가 기존보다 향상된 성능을 달성하는지 관찰한다 GPT-3 기준선 및 완전 감독 기준선. 구체적으로, GPT-RE Semeval 및 SCIERC 데이터셋에서 SOTA 성능 달성 및 경쟁력 확보 TACRED 및 ACE05 데이터 세트의 성능을 확인할 수 있습니다. 

 

 

반응형

댓글