본문 바로가기
오늘의 자연어 처리

[2023-02-15] 오늘의 자연어처리

by 지환이아빠 2023. 2. 15.
반응형

Towards Agile Text Classifiers for Everyone

 

Text-based safety classifiers are widely used for content moderation and increasingly to tune generative language model behavior - a topic of growing concern for the safety of digital assistants and chatbots. However, different policies require different classifiers, and safety policies themselves improve from iteration and adaptation. This paper introduces and evaluates methods for agile text classification, whereby classifiers are trained using small, targeted datasets that can be quickly developed for a particular policy. Experimenting with 7 datasets from three safety-related domains, comprising 15 annotation schemes, led to our key finding: prompt-tuning large language models, like PaLM 62B, with a labeled dataset of as few as 80 examples can achieve state-of-the-art performance. We argue that this enables a paradigm shift for text classification, especially for models supporting safer online discourse. Instead of collecting millions of examples to attempt to create universal safety classifiers over months or years, classifiers could be tuned using small datasets, created by individuals or small organizations, tailored for specific use cases, and iterated on and adapted in the time-span of a day.

 

텍스트 기반 안전 분류기는 내용 조정 및 점점 더 생성적인 언어 모델 행동을 조정하기 위해 - 성장하는 주제 디지털 어시스턴트와 챗봇의 안전에 대한 우려. 하지만, 다르다 정책은 다른 분류자를 필요로 하며, 안전 정책 자체는 개선된다 반복과 적응에서. 이 논문은 다음을 위한 방법을 소개하고 평가한다 분류기가 작은 것을 사용하여 훈련되는 민첩한 텍스트 분류, 특정 정책을 위해 신속하게 개발할 수 있는 대상 데이터셋입니다. 15개로 구성된 3개 안전 관련 도메인의 7개 데이터 세트 실험 주요 발견으로 이어지는 주석 체계: 대규모 언어의 신속한 조정 PaLM 62B와 같은 모델은 80개의 예제로 레이블이 지정된 데이터 세트를 사용할 수 있습니다 최첨단의 성과를 올리다. 우리는 이것이 패러다임을 가능하게 한다고 주장한다 텍스트 분류를 위한 이동, 특히 더 안전한 온라인을 지원하는 모델을 위한 이동 담화를 발표하다. 수백만 개의 예제를 수집하여 생성을 시도하는 대신 몇 달 또는 몇 년에 걸친 범용 안전 분류기, 분류기를 조정할 수 있음 개인 또는 소규모 조직에서 만든 소규모 데이터셋을 사용하여 맞춤형 특정 사용 사례에 대해, 그리고 하루의 시간 범위에서 반복되고 조정되었습니다. 

 

 

Task-Specific Skill Localization in Fine-tuned Language Models

 

Pre-trained language models can be fine-tuned to solve diverse NLP tasks, including in few-shot settings. Thus fine-tuning allows the model to quickly pick up task-specific ``skills,'' but there has been limited study of where these newly-learnt skills reside inside the massive model. This paper introduces the term skill localization for this problem and proposes a solution. Given the downstream task and a model fine-tuned on that task, a simple optimization is used to identify a very small subset of parameters ($\sim0.01$% of model parameters) responsible for ($>95$%) of the model's performance, in the sense that grafting the fine-tuned values for just this tiny subset onto the pre-trained model gives performance almost as well as the fine-tuned model. While reminiscent of recent works on parameter-efficient fine-tuning, the novel aspects here are that: (i) No further re-training is needed on the subset (unlike, say, with lottery tickets). (ii) Notable improvements are seen over vanilla fine-tuning with respect to calibration of predictions in-distribution ($40$-$90$% error reduction) as well as the quality of predictions out-of-distribution (OOD). In models trained on multiple tasks, a stronger notion of skill localization is observed, where the sparse regions corresponding to different tasks are almost disjoint, and their overlap (when it happens) is a proxy for task similarity. Experiments suggest that localization via grafting can assist certain forms of continual learning.

 

사전 훈련된 언어 모델은 다양한 NLP 작업을 해결하기 위해 미세 조정될 수 있다, 퓨샷 설정에 포함됩니다. 따라서 미세 조정을 통해 모델이 신속하게 됩니다 과제별 '''문제'''를 선택하지만, 어디에 있는지에 대한 연구는 제한적이었다 이 새로운 기술들은 거대한 모델 안에 존재한다. 본지 이 문제에 대한 기술 현지화라는 용어를 소개하고 제안합니다 해결책. 다운스트림 작업과 해당 작업에 대해 미세 조정된 모델을 고려할 때 단순 최적화는 매개변수의 매우 작은 부분 집합을 식별하는 데 사용됩니다 모델 매개변수의 ($\sim0.01$%) 모델의 ($>95$%)를 담당한다 성능, 단지 이것을 위해 미세 조정된 값을 접목한다는 의미에서 사전 훈련된 모델의 작은 부분 집합은 거의 같은 수준의 성능을 제공합니다 세밀 모형. 매개 변수 효율성에 대한 최근 연구를 연상시키면서 미세 조정, 여기서 새로운 측면은 다음과 같다: (i) 더 이상의 재교육은 없다 하위 집합에 필요합니다(예: 복권과 달리). (ii) 주목할 만한 교정과 관련하여 바닐라 미세 조정에 비해 개선이 보인다 품질뿐만 아니라 분포 내 예측($40$-$90$% 오류 감소) 분포를 벗어난 예측(OOD)입니다. 여러 작업에 대해 훈련된 모델에서, 희소 영역에서 기술 현지화에 대한 더 강력한 개념이 관찰된다 서로 다른 작업에 해당하는 것은 거의 분리되어 있고, 그들의 중복은 다음과 같다 발생)는 작업 유사성에 대한 프록시입니다. 실험 결과는 다음과 같다 접목을 통한 지역화는 특정 형태의 지속적인 학습을 도울 수 있다. 

 

 

Type-Aware Decomposed Framework for Few-Shot Named Entity Recognition

 

Despite the recent success achieved by several two-stage prototypical networks in few-shot named entity recognition (NER) task, the over-detected false spans at span detection stage and the inaccurate and unstable prototypes at type classification stage remain to be challenging problems. In this paper, we propose a novel Type-Aware Decomposed framework, namely TadNER, to solve these problems. We first present a type-aware span filtering strategy to filter out false spans by removing those semantically far away from type names. We then present a type-aware contrastive learning strategy to construct more accurate and stable prototypes by jointly exploiting support samples and type names as references. Extensive experiments on various benchmarks prove that our proposed TadNER framework yields a new state-of-the-art performance.

 

최근 여러 2단계 프로토타입을 통해 달성된 성공에도 불구하고 네트워크: 퓨샷 NER(Named Entity Recognition) 태스크, 과다 탐지 스팬 감지 단계에서 잘못된 스팬과 부정확하고 불안정한 프로토타입 유형 분류 단계에서 도전적인 문제로 남아 있다. 이 논문에서, 우리는 해결하기 위해 새로운 유형 인식 분해 프레임워크, 즉 TadNER를 제안한다 이 문제들. 먼저 필터링할 유형 인식 스팬 필터링 전략을 제시한다 형식 이름에서 의미론적으로 멀리 떨어진 범위를 제거하여 잘못된 범위를 초과합니다. 우리가 그런 다음 더 많은 것을 구성하기 위해 유형 인식 대조 학습 전략을 제시한다 지원 샘플 및 유형을 공동으로 활용하여 정확하고 안정적인 시제품 제작 이름을 참고하다. 다양한 벤치마크에 대한 광범위한 실험은 우리의 제안된 TadNER 프레임워크는 새로운 최첨단 성능을 산출한다. 

 

 

반응형

댓글