본문 바로가기
오늘의 자연어 처리

[2023-07-21] 오늘의 자연어처리

by 지환이아빠 2023. 7. 21.

Exploring Transformer Extrapolation


Length extrapolation has attracted considerable attention recently since it allows transformers to be tested on longer sequences than those used in training. Previous research has shown that this property can be attained by using carefully designed Relative Positional Encodings (RPEs). While these methods perform well on a variety of corpora, the conditions for length extrapolation have yet to be investigated. This paper attempts to determine what types of RPEs allow for length extrapolation through a thorough mathematical and empirical analysis. We discover that a transformer is certain to possess this property as long as the series that corresponds to the RPE's exponential converges. Two practices are derived from the conditions and examined in language modeling tasks on a variety of corpora. As a bonus from the conditions, we derive a new Theoretical Receptive Field (TRF) to measure the receptive field of RPEs without taking any training steps. Extensive experiments are conducted on the Wikitext-103, Books, Github, and WikiBook datasets to demonstrate the viability of our discovered conditions. We also compare TRF to Empirical Receptive Field (ERF) across different models, showing consistently matched trends on the aforementioned datasets. The code is available at this https URL.


길이 외삽법은 최근에 그것 이후로 상당한 관심을 끌고 있다 변압기를 에서 사용되는 것보다 더 긴 시퀀스에서 테스트할 수 있습니다 훈련. 이전의 연구는 이 특성이 다음과 같이 달성될 수 있음을 보여주었다 신중하게 설계된 RPE(Relative Position Encoding)를 사용합니다. 이것들 중에 방법은 다양한 말뭉치, 길이 조건에서 잘 수행됩니다 외삽법은 아직 조사되지 않았다. 이 논문은 다음을 결정하려고 시도한다 철저한 RPE를 통해 길이 외삽을 허용하는 유형 수학적 및 경험적 분석. 우리는 변압기가 확실하다는 것을 발견했다 RPE에 해당하는 시리즈만큼 이 속성을 소유하다 지수 수렴. 두 가지 관행이 조건에서 도출된다 다양한 말뭉치에 대한 언어 모델링 작업에서 검토되었다. 의 보너스로 조건, 우리는 측정할 새로운 이론적 수용 필드(TRF)를 도출한다 교육 단계를 밟지 않고 RPE를 수용할 수 있는 분야입니다. 광범위한 실험은 Wikitext-103, Books, Github, WikiBook에서 수행됩니다 발견된 조건의 실행 가능성을 입증하기 위한 데이터 세트. 저희도 다양한 모델에서 TRF를 경험적 수용 필드(ERF)와 비교하여 표시 앞서 언급한 데이터 세트의 추세와 일관되게 일치한다. 코드는 이 https URL에서 사용할 수 있습니다. 



RaTE: a Reproducible automatic Taxonomy Evaluation by Filling the Gap


Taxonomies are an essential knowledge representation, yet most studies on automatic taxonomy construction (ATC) resort to manual evaluation to score proposed algorithms. We argue that automatic taxonomy evaluation (ATE) is just as important as taxonomy construction. We propose RaTE, an automatic label-free taxonomy scoring procedure, which relies on a large pre-trained language model. We apply our evaluation procedure to three state-of-the-art ATC algorithms with which we built seven taxonomies from the Yelp domain, and show that 1) RaTE correlates well with human judgments and 2) artificially degrading a taxonomy leads to decreasing RaTE score.


분류학은 필수적인 지식 표현이지만, 대부분의 연구는 다음과 같다 자동 분류법 구성(ATC) 점수를 매길 수 있는 수동 평가 수단 제안된 알고리즘. 우리는 자동 분류법 평가(ATE)가 정당하다고 주장한다 분류 체계 구성만큼 중요합니다. 우리는 자동 라벨이 없는 라테를 제안한다 사전 훈련된 대규모 언어 모델에 의존하는 분류법 채점 절차. 우리는 평가 절차를 다음과 같은 세 가지 최신 ATC 알고리듬에 적용한다 우리는 옐프 영역에서 7개의 분류법을 만들었고, 1) 라테를 보여주었다 인간의 판단과 잘 상관되며 2) 인위적으로 분류법을 저하시킨다 RATE 점수가 감소합니다. 



Android in the Wild: A Large-Scale Dataset for Android Device Control


There is a growing interest in device-control systems that can interpret human natural language instructions and execute them on a digital device by directly controlling its user interface. We present a dataset for device-control research, Android in the Wild (AITW), which is orders of magnitude larger than current datasets. The dataset contains human demonstrations of device interactions, including the screens and actions, and corresponding natural language instructions. It consists of 715k episodes spanning 30k unique instructions, four versions of Android (v10-13),and eight device types (Pixel 2 XL to Pixel 6) with varying screen resolutions. It contains multi-step tasks that require semantic understanding of language and visual context. This dataset poses a new challenge: actions available through the user interface must be inferred from their visual appearance. And, instead of simple UI element-based actions, the action space consists of precise gestures (e.g., horizontal scrolls to operate carousel widgets). We organize our dataset to encourage robustness analysis of device-control systems, i.e., how well a system performs in the presence of new task descriptions, new applications, or new platform versions. We develop two agents and report performance across the dataset. The dataset is available at this https URL.


해석할 수 있는 장치 제어 시스템에 대한 관심이 증가하고 있다 인간의 자연어 명령어와 그것들을 디지털 장치에서 실행한다 사용자 인터페이스를 직접 제어합니다. 우리는 다음을 위한 데이터 세트를 제시한다 기기 제어 연구, 안드로이드 인 더 와일드(AITW), 주문 현재 데이터 세트보다 큰 크기입니다. 데이터 세트에 사람이 포함되어 있습니다 화면 및 동작을 포함한 장치 상호작용 시연 해당하는 자연어 설명서. 총 715,000화로 구성되어 있다 30,000개의 고유 명령어, 4개의 Android 버전(v10-13) 및 8개의 화면 해상도가 다른 장치 유형(픽셀 2 XL ~ 픽셀 6)입니다. 그것 언어의 의미론적 이해를 요구하는 다단계 작업을 포함한다 시각적 맥락. 이 데이터 세트는 새로운 과제를 제기한다: 다음을 통해 사용 가능한 작업 사용자 인터페이스는 시각적 외관으로부터 추론되어야 한다. 그리고, 대신에 간단한 UI 요소 기반 작업 중 작업 공간은 정확하게 구성됩니다 제스처(예: 회전식 위젯을 작동하기 위한 수평 스크롤). 우리는 조직한다 장치 제어 시스템의 견고성 분석을 장려하는 데이터 세트. 새로운 작업 설명이 있을 때 시스템이 얼마나 잘 수행되는지, 새로운 애플리케이션 또는 새로운 플랫폼 버전. 우리는 두 명의 에이전트를 개발하고 보고한다 데이터 세트 전체의 성능. 데이터 세트는 다음 사이트에서 사용할 수 있습니다 이 https URL. 



