Different Tunes Played with Equal Skill: Exploring a Unified Optimization Subspace for Delta Tuning
Delta tuning (DET, also known as parameter-efficient tuning) is deemed as the new paradigm for using pre-trained language models (PLMs). Up to now, various DETs with distinct design elements have been proposed, achieving performance on par with fine-tuning. However, the mechanisms behind the above success are still under-explored, especially the connections among various DETs. To fathom the mystery, we hypothesize that the adaptations of different DETs could all be reparameterized as low-dimensional optimizations in a unified optimization subspace, which could be found by jointly decomposing independent solutions of different DETs. Then we explore the connections among different DETs by conducting optimization within the subspace. In experiments, we find that, for a certain DET, conducting optimization simply in the subspace could achieve comparable performance to its original space, and the found solution in the subspace could be transferred to another DET and achieve non-trivial performance. We also visualize the performance landscape of the subspace and find that there exists a substantial region where different DETs all perform well. Finally, we extend our analysis and show the strong connections between fine-tuning and DETs.
델타 튜닝(DET, 매개 변수 효율적인 튜닝이라고도 함)은 다음과 같이 간주됩니다. 사전 훈련된 언어 모델(PLM)을 사용하기 위한 새로운 패러다임. 현재까지 다양한 뚜렷한 설계 요소를 가진 DET가 제안되어 다음과 같은 성능을 달성했습니다. 미세 조정과 동등합니다. 그러나, 위의 성공 뒤에 있는 메커니즘은 특히 다양한 DET 간의 연결은 여전히 충분히 조사되지 않았습니다. 헤아리다 미스터리, 우리는 다른 DET의 적응이 모두 가능할 수 있다고 가정한다. 통합 최적화에서 저차원 최적화로 매개 변수 재설정 서브스페이스, 독립 솔루션을 공동으로 분해하여 찾을 수 있다. 다른 DET. 그런 다음 서로 다른 DET 간의 연결을 탐색합니다. 부분 공간 내에서 최적화를 수행합니다. 실험에서, 우리는 그것을 발견한다. 하위 공간에서 단순하게 최적화를 수행하는 특정 DET는 달성할 수 있다. 원래 공간에 필적하는 성능 및 발견된 하위 공간은 다른 DET로 옮겨져 중요하지 않은 것을 달성할 수 있다. 성능. 또한 하위 공간의 성능 환경을 시각화합니다. 다양한 DET가 모두 수행되는 상당한 영역이 있음을 발견한다. 마지막으로, 우리는 우리의 분석을 확장하고 그 사이의 강한 연관성을 보여준다. 미세 조정 및 DET.
Cascading Biases: Investigating the Effect of Heuristic Annotation Strategies on Data and Models
Cognitive psychologists have documented that humans use cognitive heuristics, or mental shortcuts, to make quick decisions while expending less effort. While performing annotation work on crowdsourcing platforms, we hypothesize that such heuristic use among annotators cascades on to data quality and model robustness. In this work, we study cognitive heuristic use in the context of annotating multiple-choice reading comprehension datasets. We propose tracking annotator heuristic traces, where we tangibly measure low-effort annotation strategies that could indicate usage of various cognitive heuristics. We find evidence that annotators might be using multiple such heuristics, based on correlations with a battery of psychological tests. Importantly, heuristic use among annotators determines data quality along several dimensions: (1) known biased models, such as partial input models, more easily solve examples authored by annotators that rate highly on heuristic use, (2) models trained on annotators scoring highly on heuristic use don't generalize as well, and (3) heuristic-seeking annotators tend to create qualitatively less challenging examples. Our findings suggest that tracking heuristic usage among annotators can potentially help with collecting challenging datasets and diagnosing model biases.
인지 심리학자들은 인간이 인지 휴리스틱을 사용한다는 것을 문서화했습니다. 또는 정신적인 지름길, 적은 노력을 들임과 동시에 빠른 결정을 내릴 수 있습니다. 하는 동안에 크라우드소싱 플랫폼에서 주석 작업을 수행하는 것, 우리는 그것이 가정한다. 주석자 간의 휴리스틱 사용은 데이터 품질 및 모델에 계단식으로 적용됩니다. 건장함 이 연구에서, 우리는 다음의 맥락에서 인지 휴리스틱 사용을 연구한다. 다중 선택 독해 데이터 세트에 주석을 달다. 우리는 추적을 제안한다. 주석자 휴리스틱 추적, 여기서 우리는 저역폭 주석을 가시적으로 측정한다. 다양한 인지 휴리스틱의 사용을 나타낼 수 있는 전략들 우리는 찾는다 주석자가 다음과 같은 여러 휴리스틱을 사용할 수 있다는 증거: 일련의 심리 테스트와의 상관 관계 중요한 것은 휴리스틱 사용이다. 주석자 간에 여러 차원을 따라 데이터 품질을 결정합니다. (1) 알려진 것 부분 입력 모델과 같은 편향된 모델은 예제를 더 쉽게 해결한다. 휴리스틱 사용에 대해 높게 평가하는 주석자가 작성한 (2) 모델 휴리스틱 사용에 대한 점수가 높은 주석자 역시 일반화되지 않는다. 휴리스틱을 추구하는 주석자들은 질적으로 덜 도전적인 것을 만드는 경향이 있다. 예. 우리의 연구 결과는 주석자 사이의 휴리스틱 사용을 추적하는 것을 시사한다. 까다로운 데이터 세트를 수집하고 모델을 진단하는 데 잠재적으로 도움이 될 수 있습니다. 편견
Entity-level Sentiment Analysis in Contact Center Telephone Conversations
Entity-level sentiment analysis predicts the sentiment about entities mentioned in a given text. It is very useful in a business context to understand user emotions towards certain entities, such as products or companies. In this paper, we demonstrate how we developed an entity-level sentiment analysis system that analyzes English telephone conversation transcripts in contact centers to provide business insight. We present two approaches, one entirely based on the transformer-based DistilBERT model, and another that uses a convolutional neural network supplemented with some heuristic rules.
엔티티 수준 감정 분석은 엔티티에 대한 감정을 예측합니다. 주어진 텍스트에서 언급됩니다. 하는 것은 비즈니스 맥락에서 매우 유용하다. 제품 또는 제품과 같은 특정 실체에 대한 사용자 감정을 이해한다. 회사들. 본 논문에서, 우리는 어떻게 엔티티 레벨을 개발했는지 보여준다. 영어 전화 대화를 분석하는 정서 분석 시스템 비즈니스 통찰력을 제공하기 위해 컨택 센터의 대화록을 참조하십시오. 우리는 두개를 제시한다. 완전히 변압기 기반 DistilB를 기반으로 하는 접근 방식ERT 모델 및 다른 하나는 다음과 같이 보완된 컨볼루션 신경망을 사용한다. 발견적 규칙
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-10-28] 오늘의 자연어처리 (0) | 2022.10.28 |
---|---|
[2022-10-27] 오늘의 자연어처리 (0) | 2022.10.27 |
[2022-10-25] 오늘의 자연어처리 (0) | 2022.10.25 |
[2022-10-24] 오늘의 자연어처리 (0) | 2022.10.24 |
[2022-10-23] 오늘의 자연어처리 (0) | 2022.10.23 |
댓글