본문 바로가기
오늘의 자연어 처리

[2022-08-29] 오늘의 자연어처리

by 지환이아빠 2022. 8. 29.
반응형

Training a T5 Using Lab-sized Resources

 

Training large neural language models on large datasets is resource- and time-intensive. These requirements create a barrier to entry, where those with fewer resources cannot build competitive models. This paper presents various techniques for making it possible to (a) train a large language model using resources that a modest research lab might have, and (b) train it in a reasonable amount of time. We provide concrete recommendations for practitioners, which we illustrate with a case study: a T5 model for Danish, the first for this language.

 

대규모 데이터 세트에서 대규모 신경 언어 모델을 훈련하는 것은 자원이다. 시간 집약적인 이러한 요구사항은 진입 장벽을 만든다. 더 적은 리소스는 경쟁력 있는 모델을 구축할 수 없습니다. 이 논문은 다양한 것을 제시한다. 다음을 사용하여 대규모 언어 모델을 훈련하는 것을 가능하게 하는 기술 적당한 연구소가 가질 수 있는 자원, 그리고 (b) 그것을 훈련시킨다. 적당한 시간 다음을 위한 구체적인 권장 사항을 제공합니다. 사례 연구를 통해 설명하는 실무자: 덴마크어를 위한 T5 모델, 이 언어의 첫 번째 언어 

 

 

Addressing Token Uniformity in Transformers via Singular Value Transformation

 

Token uniformity is commonly observed in transformer-based models, in which different tokens share a large proportion of similar information after going through stacked multiple self-attention layers in a transformer. In this paper, we propose to use the distribution of singular values of outputs of each transformer layer to characterise the phenomenon of token uniformity and empirically illustrate that a less skewed singular value distribution can alleviate the `token uniformity' problem. Base on our observations, we define several desirable properties of singular value distributions and propose a novel transformation function for updating the singular values. We show that apart from alleviating token uniformity, the transformation function should preserve the local neighbourhood structure in the original embedding space. Our proposed singular value transformation function is applied to a range of transformer-based language models such as BERT, ALBERT, RoBERTa and DistilBERT, and improved performance is observed in semantic textual similarity evaluation and a range of GLUE tasks. Our source code is available at this https URL.

 

토큰 균일성은 일반적으로 변압기 기반 모델에서 관찰된다. 다른 토큰들은 간 후에 비슷한 정보의 많은 부분을 공유한다. 변압기에 여러 개의 자기 주의 레이어를 쌓아 올립니다. 이 논문에서, 우리는 각각의 출력의 단수 값의 분포를 사용할 것을 제안한다. 토큰 균일성 현상을 특징짓기 위한 변압기 레이어 덜 왜곡된 단일 값 분포가 다음을 할 수 있음을 경험적으로 설명한다. 통일 문제를 완화하다 우리의 관찰에 기초하여, 우리는 정의한다. 단일 값 분포의 몇 가지 바람직한 특성 및 제안 단수 값을 업데이트하기 위한 새로운 변환 함수. 우리는 그것을 보여준다. 토큰 균일성을 완화하는 것 외에도 변환 함수는 다음과 같아야 한다. 원래의 매립 공간에 지역 이웃 구조를 보존한다. 우리들의 제안된 특이치 변환 함수는 다음과 같은 범위에 적용된다. BERT, ALBERT, RoBERTa 및 DistilB와 같은 변압기 기반 언어 모델ERT, 그리고 의미론적 텍스트 유사성 평가에서 향상된 성능이 관찰된다. 그리고 다양한 GLUE 작업. 소스 코드는 다음 위치에서 사용할 수 있습니다. 이 https URL. 

 

 

Multimedia Generative Script Learning for Task Planning

 

Goal-oriented generative script learning aims to generate subsequent steps based on a goal, which is an essential task to assist robots in performing stereotypical activities of daily life. We show that the performance of this task can be improved if historical states are not just captured by the linguistic instructions given to people, but are augmented with the additional information provided by accompanying images. Therefore, we propose a new task, Multimedia Generative Script Learning, to generate subsequent steps by tracking historical states in both text and vision modalities, as well as presenting the first benchmark containing 2,338 tasks and 31,496 steps with descriptive images. We aim to generate scripts that are visual-state trackable, inductive for unseen tasks, and diverse in their individual steps. We propose to encode visual state changes through a multimedia selective encoder, transferring knowledge from previously observed tasks using a retrieval-augmented decoder, and presenting the distinct information at each step by optimizing a diversity-oriented contrastive learning objective. We define metrics to evaluate both generation quality and inductive quality. Experiment results demonstrate that our approach significantly outperforms strong baselines.

 

목표 지향 생성 스크립트 학습은 후속 단계를 생성하는 것을 목표로 합니다. 목표를 기반으로, 그것은 로봇이 수행하는 것을 돕는 필수적인 과제이다. 일상 생활에서 흔히 볼거리 우리는 이것의 성능을 보여준다. 역사적 상태가 단지 에 의해 포착되지 않는다면 과제는 개선될 수 있다. 사람들에게 주어지는 언어적 지침, 그러나 추가적인 것들로 강화된다. 첨부 이미지에서 제공하는 정보입니다. 따라서, 우리는 새로운 과제를 제안합니다. 멀티미디어 생성 스크립트 학습, 추적을 통해 후속 단계를 생성합니다. 텍스트와 비전 양식 모두에서 역사적 상태, 그리고 제시 2,338개의 작업과 31,496개의 단계를 포함하는 첫 번째 벤치마크(설명 포함) 이미지. 우리는 시각적 상태 추적 가능하고 귀납적인 스크립트를 생성하는 것을 목표로 한다. 보이지 않는 작업에 대해, 그리고 개별 단계에서 다양합니다. 인코딩을 제안합니다. 멀티미디어 선택 인코더를 통한 시각적 상태 변경, 전송 검색 검색 디코더를 사용하여 이전에 관찰된 작업에서 얻은 지식 그리고 최적화함으로써 각 단계에서 구별되는 정보를 제시한다. 다양성 지향의 대조적 학습 목표. 다음과 같은 메트릭을 정의합니다. 세대 품질과 유도 품질을 모두 평가합니다. 실험결과 우리의 접근 방식이 강력한 기준선을 크게 능가한다는 것을 입증한다. 

 

 

반응형

댓글