본문 바로가기
오늘의 자연어 처리

[2022-11-09] 오늘의 자연어처리

by 지환이아빠 2022. 11. 9.
반응형

How Much Does Attention Actually Attend? Questioning the Importance of Attention in Pretrained Transformers

 

The attention mechanism is considered the backbone of the widely-used Transformer architecture. It contextualizes the input by computing input-specific attention matrices. We find that this mechanism, while powerful and elegant, is not as important as typically thought for pretrained language models. We introduce PAPA, a new probing method that replaces the input-dependent attention matrices with constant ones -- the average attention weights over multiple inputs. We use PAPA to analyze several established pretrained Transformers on six downstream tasks. We find that without any input-dependent attention, all models achieve competitive performance -- an average relative drop of only 8% from the probing baseline. Further, little or no performance drop is observed when replacing half of the input-dependent attention matrices with constant (input-independent) ones. Interestingly, we show that better-performing models lose more from applying our method than weaker models, suggesting that the utilization of the input-dependent attention mechanism might be a factor in their success. Our results motivate research on simpler alternatives to input-dependent attention, as well as on methods for better utilization of this mechanism in the Transformer architecture.

 

주의 메커니즘은 널리 사용되는 중추로 간주된다. 트랜스포머 아키텍처. 컴퓨팅을 통해 입력을 상황별로 파악합니다. 입력별 주의 행렬. 우리는 이 메커니즘이 강력하지만 우아하고, 사전 훈련된 언어에서 일반적으로 생각하는 것만큼 중요하지 않다. 모델. 우리는 PAPA를 소개합니다. PAPA를 대체하는 새로운 프로빙 방법. 일정한 것을 가진 입력 의존적 주의 행렬 - 평균 주의 여러 입력에 대한 가중치. PAPA를 사용하여 확립된 몇 가지를 분석합니다. 6개의 다운스트림 작업에 대해 사전 교육을 받은 트랜스포머. 우리는 아무것도 없이 그것을 발견한다. 입력에 의존하는 주의, 모든 모델이 경쟁력 있는 성능을 달성합니다. 탐색 기준선으로부터 평균 상대 강하율은 8%에 불과합니다. 더 나아가서, 거의 또는 입력 종속의 절반을 교체할 때 성능 저하가 관찰되지 않음 (입력되지 않은) 상수 행렬이 있는 주의 행렬. 흥미롭게도, 우리는 더 나은 성능의 모델이 우리의 방법을 적용함으로써 더 많은 것을 잃는다는 것을 보여준다. 입력 의존 주의의 활용을 시사하는 더 약한 모델 메커니즘이 성공의 요인이 될 수 있습니다. 우리의 결과는 에 대한 연구에 동기를 부여한다. 입력 의존적 주의와 방법에 대한 더 간단한 대안 Transformer 아키텍처에서 이 메커니즘의 활용도를 개선합니다. 

 

 

How Much Does Attention Actually Attend? Questioning the Importance of Attention in Pretrained Transformers

 

The attention mechanism is considered the backbone of the widely-used Transformer architecture. It contextualizes the input by computing input-specific attention matrices. We find that this mechanism, while powerful and elegant, is not as important as typically thought for pretrained language models. We introduce PAPA, a new probing method that replaces the input-dependent attention matrices with constant ones -- the average attention weights over multiple inputs. We use PAPA to analyze several established pretrained Transformers on six downstream tasks. We find that without any input-dependent attention, all models achieve competitive performance -- an average relative drop of only 8% from the probing baseline. Further, little or no performance drop is observed when replacing half of the input-dependent attention matrices with constant (input-independent) ones. Interestingly, we show that better-performing models lose more from applying our method than weaker models, suggesting that the utilization of the input-dependent attention mechanism might be a factor in their success. Our results motivate research on simpler alternatives to input-dependent attention, as well as on methods for better utilization of this mechanism in the Transformer architecture.

 

주의 메커니즘은 널리 사용되는 중추로 간주된다. 트랜스포머 아키텍처. 컴퓨팅을 통해 입력을 상황별로 파악합니다. 입력별 주의 행렬. 우리는 이 메커니즘이 강력하지만 우아하고, 사전 훈련된 언어에서 일반적으로 생각하는 것만큼 중요하지 않다. 모델. 우리는 PAPA를 소개합니다. PAPA를 대체하는 새로운 프로빙 방법. 일정한 것을 가진 입력 의존적 주의 행렬 - 평균 주의 여러 입력에 대한 가중치. PAPA를 사용하여 확립된 몇 가지를 분석합니다. 6개의 다운스트림 작업에 대해 사전 교육을 받은 트랜스포머. 우리는 아무것도 없이 그것을 발견한다. 입력에 의존하는 주의, 모든 모델이 경쟁력 있는 성능을 달성합니다. 탐색 기준선으로부터 평균 상대 강하율은 8%에 불과합니다. 더 나아가서, 거의 또는 입력 종속의 절반을 교체할 때 성능 저하가 관찰되지 않음 (입력되지 않은) 상수 행렬이 있는 주의 행렬. 흥미롭게도, 우리는 더 나은 성능의 모델이 우리의 방법을 적용함으로써 더 많은 것을 잃는다는 것을 보여준다. 입력 의존 주의의 활용을 시사하는 더 약한 모델 메커니즘이 성공의 요인이 될 수 있습니다. 우리의 결과는 에 대한 연구에 동기를 부여한다. 입력 의존적 주의와 방법에 대한 더 간단한 대안 Transformer 아키텍처에서 이 메커니즘의 활용도를 개선합니다. 

 

 

DPCSpell: A Transformer-based Detector-Purificator-Corrector Framework for Spelling Error Correction of Bangla and Resource Scarce Indic Languages

 

Spelling error correction is the task of identifying and rectifying misspelled words in texts. It is a potential and active research topic in Natural Language Processing because of numerous applications in human language understanding. The phonetically or visually similar yet semantically distinct characters make it an arduous task in any language. Earlier efforts on spelling error correction in Bangla and resource-scarce Indic languages focused on rule-based, statistical, and machine learning-based methods which we found rather inefficient. In particular, machine learning-based approaches, which exhibit superior performance to rule-based and statistical methods, are ineffective as they correct each character regardless of its appropriateness. In this work, we propose a novel detector-purificator-corrector framework based on denoising transformers by addressing previous issues. Moreover, we present a method for large-scale corpus creation from scratch which in turn resolves the resource limitation problem of any left-to-right scripted language. The empirical outcomes demonstrate the effectiveness of our approach that outperforms previous state-of-the-art methods by a significant margin for Bangla spelling error correction. The models and corpus are publicly available at this https URL.

 

철자 오류 수정은 식별 및 수정 작업입니다. 본문의 철자가 틀린 단어 그것은 잠재력이 있고 활발한 연구 주제이다. 인간 언어의 수많은 응용으로 인한 자연어 처리 이해. 음성적으로나 시각적으로 유사하지만 의미적으로 구별되는 것 캐릭터는 어떤 언어에서든 그것을 힘든 일로 만든다. 맞춤법에 대한 초기 노력 에 초점을 맞춘 Bangla 및 리소스 부족 표시 언어에서의 오류 수정 우리가 발견한 규칙 기반, 통계 및 기계 학습 기반 방법 다소 비효율적인 특히, 기계 학습 기반 접근 방식, 규칙 기반 및 통계 방법보다 우수한 성능을 나타낸다. 적절성에 관계없이 각 문자를 수정하므로 효과가 없습니다. 이 연구에서, 우리는 새로운 검출기-정제기-수정기 프레임워크를 제안한다. 이전 문제를 해결함으로써 변압기의 노이즈 제거에 대해. 게다가, 우리는 다음을 제시한다. 처음부터 대규모 말뭉치 생성을 위한 방법, 차례로 해결한다. 모든 왼쪽에서 오른쪽으로 스크립팅된 언어의 리소스 제한 문제. 그 경험적 결과는 우리의 접근 방식의 효과를 보여준다. 이전의 최첨단 방법을 상당한 차이로 능가합니다. Bangla 철자 오류 수정. 모델과 말뭉치는 공개적으로 이용 가능하다. 이 https URL에서. 

 

 

반응형

댓글