본문 바로가기
오늘의 자연어 처리

[2022-11-14] 오늘의 자연어처리

by 지환이아빠 2022. 11. 14.
반응형

BERT on a Data Diet: Finding Important Examples by Gradient-Based Pruning

 

Current pre-trained language models rely on large datasets for achieving state-of-the-art performance. However, past research has shown that not all examples in a dataset are equally important during training. In fact, it is sometimes possible to prune a considerable fraction of the training set while maintaining the test performance. Established on standard vision benchmarks, two gradient-based scoring metrics for finding important examples are GraNd and its estimated version, EL2N. In this work, we employ these two metrics for the first time in NLP. We demonstrate that these metrics need to be computed after at least one epoch of fine-tuning and they are not reliable in early steps. Furthermore, we show that by pruning a small portion of the examples with the highest GraNd/EL2N scores, we can not only preserve the test accuracy, but also surpass it. This paper details adjustments and implementation choices which enable GraNd and EL2N to be applied to NLP.

 

현재 사전 훈련된 언어 모델은 대규모 데이터 세트에 의존하여 달성한다. 최첨단의 공연 그러나, 과거의 연구는 전부가 아니라는 것을 보여주었다. 데이터 세트의 예는 훈련 중에 똑같이 중요하다. 사실, 그렇습니다. 때때로 훈련 세트의 상당 부분을 잘라내는 것이 가능하다. 테스트 성능 유지 표준 비전 벤치마크를 기반으로 확립된 중요한 예를 찾기 위한 두 가지 그레이디언트 기반 점수 측정 기준은 GrNd와 예상 버전인 EL2N. 이 작업에서, 우리는 이 두 가지 메트릭스를 사용한다. NLP에서 처음입니다. 우리는 이러한 메트릭스가 다음 시간 이후에 계산되어야 한다는 것을 입증한다. 적어도 하나의 미세 조정의 시대는 초기 단계에서 신뢰할 수 없다. 게다가, 우리는 예제의 작은 부분을 가지치기함으로써 그것을 보여준다. GrNd/EL2N 최고 점수, 우리는 테스트 정확도를 유지할 수 있을 뿐만 아니라 그것을 능가하다 이 문서에는 다음과 같은 조정 및 구현 선택사항이 자세히 설명되어 있습니다. GrNd 및 EL2N을 NLP에 적용할 수 있습니다. 

 

 

MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation

 

Responding with multi-modal content has been recognized as an essential capability for an intelligent conversational agent. In this paper, we introduce the MMDialog dataset to better facilitate multi-modal conversation. MMDialog is composed of a curated set of 1.08 million real-world dialogues with 1.53 million unique images across 4,184 topics. MMDialog has two main and unique advantages. First, it is the largest multi-modal conversation dataset by the number of dialogues by 8x. Second, it contains massive topics to generalize the open-domain. To build engaging dialogue system with this dataset, we propose and normalize two response producing tasks based on retrieval and generative scenarios. In addition, we build two baselines for above tasks with state-of-the-art techniques and report their experimental performance. We also propose a novel evaluation metric MM-Relevance to measure the multi-modal responses. Our dataset and scripts are available in this https URL.

 

멀티모달 콘텐츠로 대응하는 것이 필수적이라고 인식되었습니다. 지능적인 대화 요원을 위한 능력. 이 논문에서, 우리는 다음과 같이 소개한다. 다중 모드 대화를 더 쉽게 하기 위한 MMDialog 데이터 세트. MM 대화 상자: 1.53과 함께 108만 개의 실제 대화로 구성된 큐레이션된 세트로 구성됩니다. 4천 4백 6십 개의 주제에 걸쳐 백만 개의 독특한 이미지. MMDialog는 두 가지 주요 기능과 고유 기능을 갖추고 있습니다. 이점. 첫째, 그것은 가장 큰 다중 모드 대화 데이터 세트이다. 대화 수 8배. 둘째, 일반화할 수 있는 방대한 주제를 포함하고 있다. 오픈 도메인의 이 데이터 세트를 사용하여 매력적인 대화 시스템을 구축하기 위해, 우리는 제안한다. 검색 및 생성을 기반으로 두 가지 응답 생성 작업을 정규화합니다. 시나리오 또한 위의 작업을 위해 다음과 같은 두 가지 기준선을 구축합니다. 최신 기술 및 실험 성능을 보고합니다. 저희도. 다중 모달 측정을 위한 새로운 평가 메트릭 MM-Reliance를 제안합니다. 반응 데이터셋 및 스크립트는 다음 위치에서 사용할 수 있습니다. 이 https URL. 

 

 

MSDT: Masked Language Model Scoring Defense in Text Domain

 

Pre-trained language models allowed us to process downstream tasks with the help of fine-tuning, which aids the model to achieve fairly high accuracy in various Natural Language Processing (NLP) tasks. Such easily-downloaded language models from various websites empowered the public users as well as some major institutions to give a momentum to their real-life application. However, it was recently proven that models become extremely vulnerable when they are backdoor attacked with trigger-inserted poisoned datasets by malicious users. The attackers then redistribute the victim models to the public to attract other users to use them, where the models tend to misclassify when certain triggers are detected within the training sample. In this paper, we will introduce a novel improved textual backdoor defense method, named MSDT, that outperforms the current existing defensive algorithms in specific datasets. The experimental results illustrate that our method can be effective and constructive in terms of defending against backdoor attack in text domain. Code is available at this https URL.

 

사전 훈련된 언어 모델을 사용하여 다운스트림 작업을 처리할 수 있습니다. 모델이 상당히 높은 정확도를 달성하는 데 도움이 되는 미세 조정의 도움 다양한 자연어 처리(NLP) 작업. 쉽게 다운로드 가능 다양한 웹 사이트의 언어 모델은 공공 사용자뿐만 아니라 그들의 실제 적용에 탄력을 주기 위한 몇몇 주요 기관들. 그러나 최근 모델은 다음과 같은 경우에 극도로 취약해진다는 것이 입증되었다. 그들은 악의가 있는 사람들에 의해 트리거링된 독이 든 데이터 세트로 백도어 공격을 받는다. 그런 다음 공격자는 희생자의 모델을 대중에게 재배포하여 모델이 다음과 같은 경우 잘못 분류하는 경향이 있는 다른 사용자가 사용하도록 유도한다. 교육 샘플 내에서 특정 트리거가 감지됩니다. 이 논문에서, 우리는 MSDT라는 새로운 개선된 텍스트 백도어 방어 방법을 소개할 것이다. 특정 분야에서 현재의 방어 알고리즘을 능가한다. 데이터 세트 실험 결과는 우리의 방법이 효과적일 수 있다는 것을 보여준다. 텍스트 영역에서 백도어 공격으로부터 방어한다는 측면에서 건설적이다. 코드는 이 https URL에서 사용할 수 있습니다. 

 

 

반응형

댓글