DPTDR: Deep Prompt Tuning for Dense Passage Retrieval
Deep prompt tuning (DPT) has gained great success in most natural language processing~(NLP) tasks. However, it is not well-investigated in dense retrieval where fine-tuning~(FT) still dominates. When deploying multiple retrieval tasks using the same backbone model~(e.g., RoBERTa), FT-based methods are unfriendly in terms of deployment cost: each new retrieval model needs to repeatedly deploy the backbone model without reuse. To reduce the deployment cost in such a scenario, this work investigates applying DPT in dense retrieval. The challenge is that directly applying DPT in dense retrieval largely underperforms FT methods. To compensate for the performance drop, we propose two model-agnostic and task-agnostic strategies for DPT-based retrievers, namely retrieval-oriented intermediate pretraining and unified negative mining, as a general approach that could be compatible with any pre-trained language model and retrieval task. The experimental results show that the proposed method (called DPTDR) outperforms previous state-of-the-art models on both MS-MARCO and Natural Questions. We also conduct ablation studies to examine the effectiveness of each strategy in DPTDR. We believe this work facilitates the industry, as it saves enormous efforts and costs of deployment and increases the utility of computing resources. Our code is available at this https URL.
딥 프롬프트 튜닝(DPT)은 대부분의 자연어에서 큰 성공을 거두었다. 처리 중~(NLP) 작업입니다. 그러나 밀도 높은 검색에서는 잘 조사되지 않는다. 미세 조정~(FT)이 여전히 지배적인 곳. 여러 검색 태스크를 배포할 때 동일한 백본 모델 사용~(예: Roberta), FT 기반 방법은 비우호적이다. 구축 비용 측면에서: 각 새로운 검색 모델은 반복적으로 수행되어야 합니다. 백본 모델을 재사용하지 않고 배포합니다. 이러한 환경에서 구축 비용 절감 시나리오, 이 작업은 고밀도 검색에 DPT를 적용하는 것을 조사한다. 그 문제는 DPT를 고밀도 검색에 직접 적용하는 것이다. FT 메서드보다 성능이 낮습니다. 성능 저하를 보완하기 위해 DPT 기반 검색기를 위한 두 가지 모델 불가지론 및 작업 불가지론 전략 즉, 검색 지향적인 중간 사전 훈련과 통합된 네거티브 마이닝, 사전 훈련된 모든 언어와 호환될 수 있는 일반적인 접근법으로서. 모델 및 검색 작업. 실험 결과는 제안된 것을 보여준다. 방법(DPTDR이라고 함)은 두 가지 모두에서 이전의 최첨단 모델을 능가한다. MS-MARCO 및 자연 질문. 우리는 또한 절제 연구를 수행하여 DPTDR에서 각 전략의 효과. 우리는 이 작업이 DPTDR을 촉진한다고 믿는다. 산업, 엄청난 노력과 배치 비용을 절약하고 증가하기 때문에 계산 자원의 효용 코드는 다음 위치에서 사용할 수 있습니다. 이 https URL.
Addressing Token Uniformity in Transformers via Singular Value Transformation
Token uniformity is commonly observed in transformer-based models, in which different tokens share a large proportion of similar information after going through stacked multiple self-attention layers in a transformer. In this paper, we propose to use the distribution of singular values of outputs of each transformer layer to characterise the phenomenon of token uniformity and empirically illustrate that a less skewed singular value distribution can alleviate the `token uniformity' problem. Base on our observations, we define several desirable properties of singular value distributions and propose a novel transformation function for updating the singular values. We show that apart from alleviating token uniformity, the transformation function should preserve the local neighbourhood structure in the original embedding space. Our proposed singular value transformation function is applied to a range of transformer-based language models such as BERT, ALBERT, RoBERTa and DistilBERT, and improved performance is observed in semantic textual similarity evaluation and a range of GLUE tasks. Our source code is available at this https URL.
토큰 균일성은 일반적으로 변압기 기반 모델에서 관찰된다. 다른 토큰들은 간 후에 비슷한 정보의 많은 부분을 공유한다. 변압기에 여러 개의 자기 주의 레이어를 쌓아 올립니다. 이 논문에서, 우리는 각각의 출력의 단수 값의 분포를 사용할 것을 제안한다. 토큰 균일성 현상을 특징짓기 위한 변압기 레이어 덜 왜곡된 단일 값 분포가 다음을 할 수 있음을 경험적으로 설명한다. 통일 문제를 완화하다 우리의 관찰에 기초하여, 우리는 정의한다. 단일 값 분포의 몇 가지 바람직한 특성 및 제안 단수 값을 업데이트하기 위한 새로운 변환 함수. 우리는 그것을 보여준다. 토큰 균일성을 완화하는 것 외에도 변환 함수는 다음과 같아야 한다. 원래의 매립 공간에 지역 이웃 구조를 보존한다. 우리들의 제안된 특이치 변환 함수는 다음과 같은 범위에 적용된다. BERT, ALBERT, RoBERTa 및 DistilB와 같은 변압기 기반 언어 모델ERT, 그리고 의미론적 텍스트 유사성 평가에서 향상된 성능이 관찰된다. 그리고 다양한 GLUE 작업. 소스 코드는 다음 위치에서 사용할 수 있습니다. 이 https URL.
Automatic Mapping of Unstructured Cyber Threat Intelligence: An Experimental Study
Proactive approaches to security, such as adversary emulation, leverage information about threat actors and their techniques (Cyber Threat Intelligence, CTI). However, most CTI still comes in unstructured forms (i.e., natural language), such as incident reports and leaked documents. To support proactive security efforts, we present an experimental study on the automatic classification of unstructured CTI into attack techniques using machine learning (ML). We contribute with two new datasets for CTI analysis, and we evaluate several ML models, including both traditional and deep learning-based ones. We present several lessons learned about how ML can perform at this task, which classifiers perform best and under which conditions, which are the main causes of classification errors, and the challenges ahead for CTI analysis.
적 에뮬레이션과 같은 사전 예방적 보안 접근 방식 활용 위협 행위자 및 그 기술에 대한 정보(사이버 위협) 인텔리전스, CTI). 그러나 대부분의 CTI는 여전히 비정형(즉, 자연어), 예를 들어 사고 보고서 및 유출된 문서. 지지하다 사전 예방적 보안 노력, 우리는 자동에 대한 실험적 연구를 제시한다. 기계를 이용한 공격 기법으로의 비정형 CTI 분류 학습(ML). 우리는 CTI 분석을 위한 두 개의 새로운 데이터 세트에 기여하고, 전통적인 학습 기반과 딥 러닝 기반 모두를 포함한 여러 ML 모델을 평가한다. 우리는 ML이 이 작업에서 어떻게 수행할 수 있는지에 대해 배운 몇 가지 교훈을 제시한다. 어떤 분류기가 가장 잘 수행되고 어떤 조건, 즉 주요 분류 오류의 원인 및 CTI 분석을 위한 앞으로의 과제.
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-08-29] 오늘의 자연어처리 (0) | 2022.08.29 |
---|---|
[2022-08-29] 오늘의 자연어처리 (0) | 2022.08.29 |
[2022-08-27] 오늘의 자연어처리 (0) | 2022.08.27 |
[2022-08-27] 오늘의 자연어처리 (0) | 2022.08.27 |
[2022-08-26] 오늘의 자연어처리 (0) | 2022.08.26 |
댓글