본문 바로가기
오늘의 자연어 처리

[2022-11-28] 오늘의 자연어처리

by 지환이아빠 2022. 11. 28.
반응형

Embedding Compression for Text Classification Using Dictionary Screening

 

In this paper, we propose a dictionary screening method for embedding compression in text classification tasks. The key purpose of this method is to evaluate the importance of each keyword in the dictionary. To this end, we first train a pre-specified recurrent neural network-based model using a full dictionary. This leads to a benchmark model, which we then use to obtain the predicted class probabilities for each sample in a dataset. Next, to evaluate the impact of each keyword in affecting the predicted class probabilities, we develop a novel method for assessing the importance of each keyword in a dictionary. Consequently, each keyword can be screened, and only the most important keywords are reserved. With these screened keywords, a new dictionary with a considerably reduced size can be constructed. Accordingly, the original text sequence can be substantially compressed. The proposed method leads to significant reductions in terms of parameters, average text sequence, and dictionary size. Meanwhile, the prediction power remains very competitive compared to the benchmark model. Extensive numerical studies are presented to demonstrate the empirical performance of the proposed method.

 

본 논문에서는 임베딩을 위한 사전 선별 방법을 제안한다. 텍스트 분류 작업의 압축. 이 방법의 주요 목적은 다음과 같다. 사전에서 각 키워드의 중요도를 평가합니다. 이를 위해 우리는 먼저 전체를 사용하여 사전 지정된 반복 신경망 기반 모델을 훈련한다. 사전. 이는 벤치마크 모델로 이어지며, 이 모델을 사용하여 데이터 집합의 각 표본에 대한 예측 클래스 확률입니다. 다음, 평가하기 위해 예측된 클래스 확률에 영향을 미치는 각 키워드의 영향, 우리는 에서 각 키워드의 중요성을 평가하기 위한 새로운 방법을 개발한다. 사전. 결과적으로, 각 키워드는 선별될 수 있으며, 가장 많은 키워드만 선별될 수 있다. 중요한 키워드는 예약되어 있습니다. 이 선별된 키워드들로, 새로운 사전. 상당히 축소된 크기로 구성할 수 있습니다. 따라서 원본은 텍스트 시퀀스는 상당히 압축될 수 있습니다. 제안된 방법은 다음과 같다. 매개변수, 평균 텍스트 시퀀스 측면에서 상당한 감소 및 사전 크기 한편, 예측력은 여전히 매우 경쟁력이 있습니다. 벤치마크 모델과 비교했을 때. 광범위한 수치 연구가 제시된다. 제안된 방법의 경험적 성능을 보여준다. 

 

 

Average Token Delay: A Latency Metric for Simultaneous Translation

 

Simultaneous translation is a task in which translation begins before the speaker has finished speaking. In its evaluation, we have to consider the latency of the translation in addition to the quality. The latency is preferably as small as possible for users to comprehend what the speaker says with a small delay. Existing latency metrics focus on when the translation starts but do not consider adequately when the translation ends. This means such metrics do not penalize the latency caused by a long translation output, which actually delays users' comprehension. In this work, we propose a novel latency evaluation metric called Average Token Delay (ATD) that focuses on the end timings of partial translations in simultaneous translation. We discuss the advantage of ATD using simulated examples and also investigate the differences between ATD and Average Lagging with simultaneous translation experiments.

 

동시통역은 번역이 시작되기 전에 하는 작업이다. 스피커가 말을 마쳤습니다. 그것의 평가에서, 우리는 고려해야 한다. 품질 외에 번역 지연 시간. 대기 시간은. 가급적 사용자가 화자가 말하는 것을 이해할 수 있도록 작게 하는 것이 좋다. 조금 지체하여 기존 지연 시간 메트릭은 변환 시기에 초점을 맞춥니다. 시작하지만 변환이 끝날 때 제대로 고려하지 않습니다. 이것은 의미한다. 이러한 메트릭은 긴 번역 출력으로 인한 지연 시간에 불이익을 주지 않습니다. 그것은 실제로 사용자들의 이해를 지연시킨다. 이 작품에서 우리는 소설을 제안한다. 평균 토큰 지연(ATD)이라는 대기 시간 평가 메트릭을 통해 동시 번역에서 부분 번역의 종료 타이밍. 우리는 논의한다. 시뮬레이션 예제를 사용한 ATD의 장점과 차이점을 조사한다. 동시 번역 실험을 통한 ATD와 평균 지연 사이. 

 

 

Breaking the Representation Bottleneck of Chinese Characters: Neural Machine Translation with Stroke Sequence Modeling

 

Existing research generally treats Chinese character as a minimum unit for representation. However, such Chinese character representation will suffer two bottlenecks: 1) Learning bottleneck, the learning cannot benefit from its rich internal features (e.g., radicals and strokes); and 2) Parameter bottleneck, each individual character has to be represented by a unique vector. In this paper, we introduce a novel representation method for Chinese characters to break the bottlenecks, namely StrokeNet, which represents a Chinese character by a Latinized stroke sequence (e.g., "ao1 (concave)" to "ajaie" and "tu1 (convex)" to "aeaqe"). Specifically, StrokeNet maps each stroke to a specific Latin character, thus allowing similar Chinese characters to have similar Latin representations. With the introduction of StrokeNet to neural machine translation (NMT), many powerful but not applicable techniques to non-Latin languages (e.g., shared subword vocabulary learning and ciphertext-based data augmentation) can now be perfectly implemented. Experiments on the widely-used NIST Chinese-English, WMT17 Chinese-English and IWSLT17 Japanese-English NMT tasks show that StrokeNet can provide a significant performance boost over the strong baselines with fewer model parameters, achieving 26.5 BLEU on the WMT17 Chinese-English task which is better than any previously reported results without using monolingual data. Code and scripts are freely available at this https URL.

 

기존 연구는 일반적으로 한자를 최소 단위로 취급한다. 표상 그러나 이러한 한자 표현은 두 가지 어려움을 겪을 것이다. 병목 현상: 1) 학습 병목 현상, 학습은 풍부함으로부터 이익을 얻을 수 없다. 내부 특징(예: 라디칼 및 스트로크) 및 2) 매개 변수 병목 현상, 각각의 개별 문자는 고유 벡터로 표현되어야 한다. 이 점에서. 종이, 우리는 한자를 위한 새로운 표현 방법을 소개한다. 병목 현상, 즉 한자를 나타내는 StrokeNet을 깨다. 라틴화된 스트로크 시퀀스(예: "ao1(오목)"에서 "ajaie" 및 "tu1")에 의해 (convex)"에서 "aeaque")까지. 특히, StrokeNet은 각 스트로크를 특정 위치에 매핑합니다. 라틴 문자, 따라서 유사한 한자가 유사한 라틴 문자를 가질 수 있게 한다. 표상 신경 기계에 StrokeNet의 도입과 함께. 번역(NMT), 많은 강력하지만 비라틴어에 적용할 수 없는 기술 언어(예: 공유 하위 단어 어휘 학습 및 암호 텍스트 기반 데이터) 증강)을 완벽하게 구현할 수 있습니다. 널리 사용되는 것에 대한 실험 NIST 중국어-영어, WMT17 중국어-영어 및 IWSLT17 일본어-영어 NMT 작업은 StrokeNet이 성능을 크게 향상시킬 수 있음을 보여줍니다. 모델 매개 변수가 적은 강력한 기준선, WMT17에서 26.5 BLEU 달성 이전에 보고된 결과보다 나은 중국어-영어 과제 단일 언어 데이터를 사용하지 않습니다. 코드 및 스크립트는 다음 사이트에서 무료로 사용할 수 있습니다. 이 https URL. 

 

 

반응형

댓글