본문 바로가기
오늘의 자연어 처리

[2023-05-07] 오늘의 자연어처리

by 지환이아빠 2023. 5. 7.
반응형

What changes when you randomly choose BPE merge operations? Not much

 

We introduce three simple randomized variants of byte pair encoding (BPE) and explore whether randomizing the selection of merge operations substantially affects a downstream machine translation task. We focus on translation into morphologically rich languages, hypothesizing that this task may show sensitivity to the method of choosing subwords. Analysis using a Bayesian linear model indicates that two of the variants perform nearly indistinguishably compared to standard BPE while the other degrades performance less than we anticipated. We conclude that although standard BPE is widely used, there exists an interesting universe of potential variations on it worth investigating. Our code is available at: this https URL.

 

우리는 바이트 쌍 인코딩(BPE)의 세 가지 간단한 무작위 변형을 소개하고 병합 작업의 선택을 실질적으로 랜덤화하는지 여부를 조사 다운스트림 컴퓨터 변환 작업에 영향을 줍니다. 우리는 로의 번역에 초점을 맞춘다 형태학적으로 풍부한 언어, 이 작업이 보여줄 수 있다는 가설 하위 단어 선택 방법에 대한 민감도. 베이지안을 사용한 분석 선형 모형은 변형 중 두 가지가 거의 수행된다는 것을 나타냅니다 표준 BPE와 구별할 수 없을 정도로 성능이 저하 예상했던 것보다 적었어요. 우리는 표준 BPE가 광범위하지만 사용, 가치 있는 잠재적 변화의 흥미로운 우주가 존재한다 탐문의. 우리의 코드는 이 https URL에서 이용할 수 있다. 

 

 

Sentence Embedding Leaks More Information than You Expect: Generative Embedding Inversion Attack to Recover the Whole Sentence

 

Sentence-level representations are beneficial for various natural language processing tasks. It is commonly believed that vector representations can capture rich linguistic properties. Currently, large language models (LMs) achieve state-of-the-art performance on sentence embedding. However, some recent works suggest that vector representations from LMs can cause information leakage. In this work, we further investigate the information leakage issue and propose a generative embedding inversion attack (GEIA) that aims to reconstruct input sequences based only on their sentence embeddings. Given the black-box access to a language model, we treat sentence embeddings as initial tokens' representations and train or fine-tune a powerful decoder model to decode the whole sequences directly. We conduct extensive experiments to demonstrate that our generative inversion attack outperforms previous embedding inversion attacks in classification metrics and generates coherent and contextually similar sentences as the original inputs.

 

문장 수준의 표현은 다양한 자연어에 유용하다 작업 처리. 일반적으로 벡터 표현은 다음과 같이 할 수 있다 풍부한 언어적 특성을 포착하다. 현재 대형 언어 모델(LM) 문장 임베딩에서 최첨단 성능을 달성하다. 하지만, 몇몇은 최근의 연구들은 LM으로부터의 벡터 표현이 정보를 야기할 수 있다고 제안한다 새어. 이 작업에서, 우리는 정보 유출 문제를 추가로 조사하고 재구성을 목표로 하는 생성 임베딩 반전 공격(GEIA)을 제안한다 입력 시퀀스는 문장 임베딩만을 기반으로 합니다. 블랙박스를 보면 언어 모델에 대한 액세스, 우리는 문장 임베딩을 초기 토큰으로 취급한다 표현 및 강력한 디코더 모델을 훈련 또는 미세 조정하여 디코딩합니다 모든 시퀀스를 직접적으로 처리합니다. 우리는 그것을 증명하기 위해 광범위한 실험을 한다 우리의 생성적 반전 공격은 이전의 임베딩 반전을 능가한다 분류 메트릭의 공격 및 일관성 있고 맥락적으로 생성 원문과 유사한 문장. 

 

 

What changes when you randomly choose BPE merge operations? Not much

 

We introduce three simple randomized variants of byte pair encoding (BPE) and explore whether randomizing the selection of merge operations substantially affects a downstream machine translation task. We focus on translation into morphologically rich languages, hypothesizing that this task may show sensitivity to the method of choosing subwords. Analysis using a Bayesian linear model indicates that two of the variants perform nearly indistinguishably compared to standard BPE while the other degrades performance less than we anticipated. We conclude that although standard BPE is widely used, there exists an interesting universe of potential variations on it worth investigating. Our code is available at: this https URL.

 

우리는 바이트 쌍 인코딩(BPE)의 세 가지 간단한 무작위 변형을 소개하고 병합 작업의 선택을 실질적으로 랜덤화하는지 여부를 조사 다운스트림 컴퓨터 변환 작업에 영향을 줍니다. 우리는 로의 번역에 초점을 맞춘다 형태학적으로 풍부한 언어, 이 작업이 보여줄 수 있다는 가설 하위 단어 선택 방법에 대한 민감도. 베이지안을 사용한 분석 선형 모형은 변형 중 두 가지가 거의 수행된다는 것을 나타냅니다 표준 BPE와 구별할 수 없을 정도로 성능이 저하 예상했던 것보다 적었어요. 우리는 표준 BPE가 광범위하지만 사용, 가치 있는 잠재적 변화의 흥미로운 우주가 존재한다 탐문의. 우리의 코드는 이 https URL에서 이용할 수 있다. 

 

 

반응형

댓글