본문 바로가기
오늘의 자연어 처리

[2023-10-12] 오늘의 자연어처리

by 지환이아빠 2023. 10. 12.
반응형

TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models

 

Abstract:Aligned large language models (LLMs) demonstrate exceptional capabilities in task-solving, following instructions, and ensuring safety. However, the continual learning aspect of these aligned LLMs has been largely overlooked. Existing continual learning benchmarks lack sufficient challenge for leading aligned LLMs, owing to both their simplicity and the models' potential exposure during instruction tuning. In this paper, we introduce TRACE, a novel benchmark designed to evaluate continual learning in LLMs. TRACE consists of 8 distinct datasets spanning challenging tasks including domain-specific tasks, multilingual capabilities, code generation, and mathematical reasoning. All datasets are standardized into a unified format, allowing for effortless automatic evaluation of LLMs. Our experiments show that after training on TRACE, aligned LLMs exhibit significant declines in both general ability and instruction-following capabilities. For example, the accuracy of llama2-chat 13B on gsm8k dataset declined precipitously from 28.8\% to 2\% after training on our datasets. This highlights the challenge of finding a suitable tradeoff between achieving performance on specific tasks while preserving the original prowess of LLMs. Empirical findings suggest that tasks inherently equipped with reasoning paths contribute significantly to preserving certain capabilities of LLMs against potential declines. Motivated by this, we introduce the Reasoning-augmented Continual Learning (RCL) approach. RCL integrates task-specific cues with meta-rationales, effectively reducing catastrophic forgetting in LLMs while expediting convergence on novel tasks.

 

초록:정렬된 대형 언어 모델(LLM)은 작업 해결, 지침 준수 및 안전 보장에 탁월한 능력을 보여준다. 그러나 이러한 정렬된 LLM의 지속적인 학습 측면은 대체로 간과되어 왔다. 기존의 지속적인 학습 벤치마크는 명령 조정 중에 모델이 노출될 가능성과 단순성 때문에 정렬된 LLM을 선도하기 위한 충분한 과제가 없다. 본 논문에서는 LLM에서 지속적인 학습을 평가하기 위해 설계된 새로운 벤치마크인 TRACE를 소개한다. TRACE는 도메인별 작업, 다국어 기능, 코드 생성 및 수학적 추론을 포함한 까다로운 작업에 걸쳐 8개의 개별 데이터 세트로 구성된다. 모든 데이터 세트는 통일된 형식으로 표준화되어 LLM을 쉽게 자동 평가할 수 있다. 우리의 실험은 TRACE에 대한 훈련 후 정렬된 LLM은 일반 능력과 명령 추종 능력 모두에서 상당한 감소를 보인다는 것을 보여준다. 예를 들어, gsm8k 데이터 세트에서 라마2-채팅 13B의 정확도는 28에서 급격히 감소했다.데이터셋에 대한 교육 후 8\%에서 2\%까지. 이는 LLM의 원래 기량을 보존하면서 특정 작업에 대한 성과를 달성하는 것 사이에서 적절한 절충점을 찾는 과제를 강조한다. 경험적 발견은 추론 경로가 내재된 작업이 잠재적인 감소에 대해 LLM의 특정 능력을 보존하는 데 크게 기여함을 시사한다. 이에 동기를 부여하여, 우리는 추론-증강 연속 학습(RCL) 접근법을 소개한다. RCL은 작업별 단서를 메타 이성과 통합하여 LLM에서 재앙적인 망각을 효과적으로 줄이는 동시에 새로운 작업에 대한 수렴을 가속화한다. 

 

 

Advancing Transformer's Capabilities in Commonsense Reasoning

 

Abstract:Recent advances in general purpose pre-trained language models have shown great potential in commonsense reasoning. However, current works still perform poorly on standard commonsense reasoning benchmarks including the Com2Sense Dataset. We argue that this is due to a disconnect with current cutting-edge machine learning methods. In this work, we aim to bridge the gap by introducing current ML-based methods to improve general purpose pre-trained language models in the task of commonsense reasoning. Specifically, we experiment with and systematically evaluate methods including knowledge transfer, model ensemble, and introducing an additional pairwise contrastive objective. Our best model outperforms the strongest previous works by ~15\% absolute gains in Pairwise Accuracy and ~8.7\% absolute gains in Standard Accuracy.

 

초록:범용 사전 훈련 언어 모델의 최근 발전은 상식적 추론에서 큰 잠재력을 보여주었다. 그러나 현재 작업은 Com2Sense 데이터 세트를 포함한 표준 상식 추론 벤치마크에서 여전히 저조한 성능을 보인다. 우리는 이것이 현재의 최첨단 기계 학습 방법과의 단절 때문이라고 주장한다. 본 연구에서는 상식 추론 과제에서 범용 사전 훈련 언어 모델을 개선하기 위해 현재의 ML 기반 방법을 도입하여 격차를 해소하는 것을 목표로 한다. 구체적으로, 우리는 지식 전달, 모델 앙상블 및 추가 쌍대 대조 목표 도입을 포함한 방법을 실험하고 체계적으로 평가한다. 우리의 최고 모델은 쌍별 정확도에서 ~15\%의 절대 이득과 표준 정확도에서 ~8.7\%의 절대 이득으로 가장 강력한 이전 작업을 능가한다. 

 

 

Teaching Language Models to Hallucinate Less with Synthetic Tasks

 

Abstract:Large language models (LLMs) frequently hallucinate on abstractive summarization tasks such as document-based question-answering, meeting summarization, and clinical report generation, even though all necessary information is included in context. However, optimizing LLMs to hallucinate less on these tasks is challenging, as hallucination is hard to efficiently evaluate at each optimization step. In this work, we show that reducing hallucination on a synthetic task can also reduce hallucination on real-world downstream tasks. Our method, SynTra, first designs a synthetic task where hallucinations are easy to elicit and measure. It next optimizes the LLM's system message via prefix-tuning on the synthetic task, and finally transfers the system message to realistic, hard-to-optimize tasks. Across three realistic abstractive summarization tasks, SynTra reduces hallucination for two 13B-parameter LLMs using only a synthetic retrieval task for supervision. We also find that optimizing the system message rather than the model weights can be critical; fine-tuning the entire model on the synthetic task can counterintuitively increase hallucination. Overall, SynTra demonstrates that the extra flexibility of working with synthetic data can help mitigate undesired behaviors in practice.

 

초록:필요한 모든 정보가 맥락에 포함되어 있음에도 불구하고 문서 기반 질문 응답, 회의 요약, 임상 보고서 생성과 같은 추상적 요약 작업을 대형 언어 모델(LLM)이 자주 환각을 일으킨다. 그러나 환각은 각 최적화 단계에서 효율적으로 평가하기 어렵기 때문에 이러한 작업에서 환각을 덜 느끼도록 LLM을 최적화하는 것은 어렵다. 이 연구에서, 우리는 합성 작업에 대한 환각을 줄이는 것이 실제 다운스트림 작업에 대한 환각도 줄일 수 있다는 것을 보여준다. 우리의 방법인 SynTra는 먼저 환각을 이끌어내고 측정하기 쉬운 합성 작업을 설계한다. 다음으로 합성 작업에 대한 접두사 조정을 통해 LLM의 시스템 메시지를 최적화하고 마지막으로 시스템 메시지를 현실적이고 최적화하기 어려운 작업으로 전달한다. SynTra는 세 가지 현실적 추상 요약 작업에 걸쳐 감독을 위한 합성 검색 작업만을 사용하여 두 개의 13B 매개 변수 LLM에 대한 환각을 감소시킨다. 우리는 또한 모델 가중치보다 시스템 메시지를 최적화하는 것이 중요할 수 있다는 것을 발견했다. 합성 작업에서 전체 모델을 미세 조정하면 직관적으로 환각을 증가시킬 수 있다. 전반적으로, SynTra는 합성 데이터로 작업할 수 있는 추가 유연성이 실제에서 원하지 않는 행동을 완화하는 데 도움이 될 수 있음을 보여준다. 

 

 

반응형

댓글