본문 바로가기
오늘의 자연어 처리

[2023-11-13] 오늘의 자연어처리

by 지환이아빠 2023. 11. 13.
반응형

Memorisation Cartography: Mapping out the Memorisation-Generalisation Continuum in Neural Machine Translation

 

Abstract:When training a neural network, it will quickly memorise some source-target mappings from your dataset but never learn some others. Yet, memorisation is not easily expressed as a binary feature that is good or bad: individual datapoints lie on a memorisation-generalisation continuum. What determines a datapoint's position on that spectrum, and how does that spectrum influence neural models' performance? We address these two questions for neural machine translation (NMT) models. We use the counterfactual memorisation metric to (1) build a resource that places 5M NMT datapoints on a memorisation-generalisation map, (2) illustrate how the datapoints' surface-level characteristics and a models' per-datum training signals are predictive of memorisation in NMT, (3) and describe the influence that subsets of that map have on NMT systems' performance.

 

초록:신경망을 학습할 때 데이터 세트에서 소스-타겟 매핑을 빠르게 기억하지만 다른 매핑은 절대로 학습하지 않는다. 그러나 암기는 좋거나 나쁜 이진 특징으로 쉽게 표현되지 않는다. 개별 데이터 포인트는 암기-일반화 연속체에 있다. 해당 스펙트럼에서 데이터 포인트의 위치를 결정하는 것은 무엇이며, 해당 스펙트럼이 신경 모델의 성능에 어떤 영향을 미치는가? 우리는 신경 기계 번역(NMT) 모델에 대한 이 두 가지 질문을 다룬다. 우리는 (1) 기억-일반화 맵에 5M NMT 데이터 포인트를 배치하는 리소스를 구축하기 위해 반사실적 기억 메트릭을 사용하고, (2) 데이터 포인트의 표면 수준 특성과 모델의 데이터당 훈련 신호가 NMT에서 기억을 예측하는 방법을 설명한다, (3) 그리고 지도의 부분집합이 NMT 시스템의 성능에 미치는 영향을 설명한다. 

 

 

Text Representation Distillation via Information Bottleneck Principle

 

Abstract:Pre-trained language models (PLMs) have recently shown great success in text representation field. However, the high computational cost and high-dimensional representation of PLMs pose significant challenges for practical applications. To make models more accessible, an effective method is to distill large models into smaller representation models. In order to relieve the issue of performance degradation after distillation, we propose a novel Knowledge Distillation method called IBKD. This approach is motivated by the Information Bottleneck principle and aims to maximize the mutual information between the final representation of the teacher and student model, while simultaneously reducing the mutual information between the student model's representation and the input data. This enables the student model to preserve important learned information while avoiding unnecessary information, thus reducing the risk of over-fitting. Empirical studies on two main downstream applications of text representation (Semantic Textual Similarity and Dense Retrieval tasks) demonstrate the effectiveness of our proposed approach.

 

초록:사전 훈련된 언어 모델(PLM)은 최근 텍스트 표현 분야에서 큰 성공을 보이고 있다. 그러나 PLM의 높은 계산 비용과 고차원 표현은 실제 응용 분야에 상당한 도전이 된다. 모델을 보다 접근성 있게 만들기 위해, 효과적인 방법은 큰 모델을 더 작은 표현 모델로 증류하는 것이다. 증류 후 성능 저하 문제를 해소하기 위해 IBKD라는 새로운 지식증류 방법을 제안한다. 이러한 접근법은 정보 병목 원리에 동기를 부여하며 교사와 학생 모형의 최종 표상 사이의 상호 정보를 극대화하는 동시에 학생 모형의 표상과 입력 데이터 사이의 상호 정보를 줄이는 것을 목표로 한다. 이를 통해 학생 모델은 불필요한 정보를 피하면서 중요한 학습 정보를 보존할 수 있으므로 과적합 위험을 줄일 수 있다. 텍스트 표현의 두 가지 주요 다운스트림 응용 프로그램(의미론적 텍스트 유사성 및 고밀도 검색 작업)에 대한 경험적 연구는 제안된 접근 방식의 효과를 입증한다. 

 

 

Conic10K: A Challenging Math Problem Understanding and Reasoning Dataset

 

Abstract:Mathematical understanding and reasoning are crucial tasks for assessing the capabilities of artificial intelligence (AI). However, existing benchmarks either require just a few steps of reasoning, or only contain a small amount of data in one specific topic, making it hard to analyse AI's behaviour with reference to different problems within a specific topic in detail. In this work, we propose Conic10K, a challenging math problem dataset on conic sections in Chinese senior high school education. Our dataset contains various problems with different reasoning depths, while only the knowledge from conic sections is required. Since the dataset only involves a narrow range of knowledge, it is easy to separately analyse the knowledge a model possesses and the reasoning ability it has. For each problem, we provide a high-quality formal representation, the reasoning steps, and the final solution. Experiments show that existing large language models, including GPT-4, exhibit weak performance on complex reasoning. We hope that our findings could inspire more advanced techniques for precise natural language understanding and reasoning. Our dataset and codes are available at this https URL.

 

초록:수학적 이해와 추론은 인공지능(AI)의 능력을 평가하는 데 중요한 과제다. 그러나 기존 벤치마크는 몇 단계의 추론만 필요하거나, 한 특정 주제에 소량의 데이터만 포함하고 있어 특정 주제 내의 다른 문제를 자세히 참조하여 AI의 행동을 분석하기가 어렵다. 본 연구에서는 중국 고등학교 교육의 원추형 부분에 대한 어려운 수학 문제 데이터 세트인 Conic10K를 제안한다. 우리의 데이터 세트에는 다양한 추론 깊이를 가진 다양한 문제가 포함되어 있으며, 원추형 섹션의 지식만 필요하다. 데이터 세트는 좁은 범위의 지식만을 포함하기 때문에 모델이 보유한 지식과 추론 능력을 별도로 분석하기 쉽다. 각 문제에 대해 고품질의 공식 표현, 추론 단계 및 최종 해결책을 제공한다. 실험에 따르면 GPT-4를 포함한 기존의 대형 언어 모델은 복잡한 추론에서 약한 성능을 보인다. 우리는 우리의 발견이 정확한 자연어 이해와 추론을 위한 더 발전된 기술에 영감을 줄 수 있기를 바란다. 우리의 데이터셋과 코드는 이 https URL에서 이용할 수 있다. 

 

 

반응형

댓글