KGConv, a Conversational Corpus grounded in Wikidata
We present KGConv, a large, conversational corpus of 71k conversations where each question-answer pair is grounded in a Wikidata fact. Conversations contain on average 8.6 questions and for each Wikidata fact, we provide multiple variants (12 on average) of the corresponding question using templates, human annotations, hand-crafted rules and a question rewriting neural model. We provide baselines for the task of Knowledge-Based, Conversational Question Generation. KGConv can further be used for other generation and analysis tasks such as single-turn question generation from Wikidata triples, question rewriting, question answering from conversation or from knowledge graphs and quiz generation.
우리는 71k 대화의 대규모 대화 코퍼스인 KGConv를 제시한다 각 질의응답 쌍은 Wikidata 사실에 근거를 두고 있습니다. 대화 내용 포함 평균 8.6개의 질문과 각 위키 데이터에 대해 여러 개의 질문을 제공합니다 템플릿을 사용한 해당 질문의 변형(평균 12개), 인간 주석, 수공 규칙 및 질문 다시 쓰기 신경 모델. 우리가 지식 기반 대화 질문 작업에 대한 기준선 제공 시대. KGConv는 다른 생성 및 분석 작업에 추가로 사용될 수 있습니다 예를 들어 Wikidata 트리플에서 싱글턴 질문 생성, 질문 등이 있습니다 다시 쓰기, 대화 또는 지식 그래프에서 질문 응답 및 퀴즈 생성.
Characterizing Learning Curves During Language Model Pre-Training: Learning, Forgetting, and Stability
How do language models learn to make predictions during pre-training? To study this question, we extract learning curves from five autoregressive English language model pre-training runs, for 1M tokens in context. We observe that the language models generate short repetitive phrases before learning to generate longer and more coherent text. We quantify the final surprisal, within-run variability, age of acquisition, forgettability, and cross-run variability of learning curves for individual tokens in context. More frequent tokens reach lower final surprisals, exhibit less variability within and across pre-training runs, are learned earlier, and are less likely to be "forgotten" during pre-training. Higher n-gram probabilities further accentuate these effects. Independent of the target token, shorter and more frequent contexts correlate with marginally more stable and quickly acquired predictions. Effects of part-of-speech are also small, although nouns tend to be acquired later and less stably than verbs, adverbs, and adjectives. Our work contributes to a better understanding of language model pre-training dynamics and informs the deployment of stable language models in practice.
언어 모델은 사전 교육 동안 예측하는 방법을 어떻게 배우나요? 로. 이 질문을 연구하면, 우리는 5개의 자기회귀로부터 학습 곡선을 추출한다 문맥상 1M 토큰에 대해 영어 모델 사전 훈련이 실행된다. 우리는 관찰한다 언어 모델이 학습하기 전에 짧은 반복 문구를 생성한다는 것 더 길고 일관성 있는 텍스트를 생성합니다. 우리는 최종적인 놀라움을 정량화한다, 런 내 변동성, 획득 연령, 건망성 및 교차 런 상황에 따라 개별 토큰에 대한 학습 곡선의 변동성. 더 자주 토큰은 최종 놀라움을 낮추고, 내부 및 전체적으로 변동성이 적다 사전 교육 실행은 더 일찍 학습되며 "심각"할 가능성이 적습니다 사전 훈련 중에. 더 높은 n-그램 확률은 이들을 더욱 강조한다 영향들. 대상 토큰과 독립적으로, 더 짧고 더 빈번한 컨텍스트 보다 안정적이고 빠르게 획득되는 예측과 상관 관계가 있습니다. 영향들 명사는 나중에 습득되는 경향이 있지만, 부분 명사도 작다 동사, 부사, 형용사보다 덜 안정적이다. 우리의 일은 a에 기여한다 언어 모델 사전 훈련 역학을 더 잘 이해하고 알려줍니다 안정적인 언어 모델의 실제 배치.
A Classification-Guided Approach for Adversarial Attacks against Neural Machine Translation
Neural Machine Translation (NMT) models have been shown to be vulnerable to adversarial attacks, wherein carefully crafted perturbations of the input can mislead the target model. In this paper, we introduce ACT, a novel adversarial attack framework against NMT systems guided by a classifier. In our attack, the adversary aims to craft meaning-preserving adversarial examples whose translations by the NMT model belong to a different class than the original translations in the target language. Unlike previous attacks, our new approach has a more substantial effect on the translation by altering the overall meaning, which leads to a different class determined by a classifier. To evaluate the robustness of NMT models to this attack, we propose enhancements to existing black-box word-replacement-based attacks by incorporating output translations of the target NMT model and the output logits of a classifier within the attack process. Extensive experiments in various settings, including a comparison with existing untargeted attacks, demonstrate that the proposed attack is considerably more successful in altering the class of the output translation and has more effect on the translation. This new paradigm can show the vulnerabilities of NMT systems by focusing on the class of translation rather than the mere translation quality as studied traditionally.
신경 기계 번역(NMT) 모델은 다음에 취약한 것으로 나타났다 입력 캔의 신중하게 조작된 동요가 있는 적대적 공격 목표 모델을 오도하다. 이 논문에서, 우리는 새로운 적대자인 ACT를 소개한다 분류기에 의해 안내되는 NMT 시스템에 대한 공격 프레임워크. 우리의 공격에서 상대는 의미를 보존하는 적대적 사례를 만드는 것을 목표로 한다 NMT 모델에 의한 번역은 원본과 다른 클래스에 속합니다 대상 언어의 번역. 이전의 공격과는 달리 새로운 접근 방식은 전체적으로 변화시킴으로써 번역에 더 실질적인 영향을 미친다 의미, 분류기에 의해 결정되는 다른 클래스로 이어집니다. 로. 이 공격에 대한 NMT 모델의 견고성을 평가하고 개선을 제안한다 출력을 통합하여 기존 블랙박스 워드 교체 기반 공격에 적용 대상 NMT 모델의 변환 및 분류기의 출력 로짓 공격 프로세스 내에서. 다음과 같은 다양한 환경에서 광범위한 실험을 수행합니다 기존의 목표하지 않은 공격과 비교하여 제안된 것을 증명 공격은 출력의 클래스를 변경하는 데 상당히 더 성공적이다 번역과 번역에 더 많은 영향을 준다. 이 새로운 패러다임은 보여줄 수 있다 번역 등급에 초점을 맞춘 NMT 시스템의 취약성 전통적으로 연구된 단순한 번역 품질보다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-09-01] 오늘의 자연어처리 (0) | 2023.09.01 |
---|---|
[2023-08-31] 오늘의 자연어처리 (1) | 2023.08.31 |
[2023-08-30] 오늘의 자연어처리 (0) | 2023.08.30 |
[2023-08-29] 오늘의 자연어처리 (1) | 2023.08.29 |
[2023-08-28] 오늘의 자연어처리 (0) | 2023.08.28 |
댓글