A Study on the Calibration of In-context Learning
Abstract:Modern auto-regressive language models are trained to minimize log loss on broad data by predicting the next token so they are expected to get calibrated answers when framing a problem as a next-token prediction task. We study this for in-context learning (ICL), a widely used way to adapt frozen large language models (LLMs) via crafting prompts, and investigate the trade-offs between performance and calibration on a wide range of natural language understanding and reasoning tasks. We conduct extensive experiments to show that such trade-offs may get worse as we increase model size, incorporate more ICL examples, and fine-tune models using instruction, dialog, or reinforcement learning from human feedback (RLHF) on carefully curated datasets. Furthermore, we find that common recalibration techniques that are widely effective such as temperature scaling provide limited gains in calibration errors, suggesting that new methods may be required for settings where models are expected to be reliable.
추상화:현대의 자동 회귀 언어 모델은 다음 토큰을 예측하여 넓은 데이터의 로그 손실을 최소화하도록 훈련되어 문제를 다음 토큰 예측 작업으로 프레이밍할 때 보정된 답변을 얻을 수 있을 것으로 예상된다. 우리는 크래프팅 프롬프트를 통해 냉동 대용량 언어 모델(LLM)을 적응시키는 널리 사용되는 방법인 컨텍스트 학습(ICL)을 위해 이를 연구하고 광범위한 자연 언어 이해 및 추론 작업에 대한 성능과 보정 간의 상충 관계를 조사한다. 우리는 모델 크기를 늘리고 더 많은 ICL 예제를 통합하며 신중하게 선별된 데이터 세트에 대한 인간 피드백(RLHF)의 지침, 대화 또는 강화 학습을 사용하여 모델을 미세 조정함에 따라 이러한 절충점이 더 악화될 수 있음을 보여주는 광범위한 실험을 수행한다. 또한 온도 스케일링과 같이 널리 효과적인 일반적인 재보정 기법이 교정 오류의 이득을 제한적으로 제공한다는 것을 발견했으며, 이는 모델이 신뢰할 수 있을 것으로 예상되는 설정에 새로운 방법이 필요할 수 있음을 시사한다.
OpenAsp: A Benchmark for Multi-document Open Aspect-based Summarization
Abstract:The performance of automatic summarization models has improved dramatically in recent years. Yet, there is still a gap in meeting specific information needs of users in real-world scenarios, particularly when a targeted summary is sought, such as in the useful aspect-based summarization setting targeted in this paper. Previous datasets and studies for this setting have predominantly concentrated on a limited set of pre-defined aspects, focused solely on single document inputs, or relied on synthetic data. To advance research on more realistic scenarios, we introduce OpenAsp, a benchmark for multi-document \textit{open} aspect-based summarization. This benchmark is created using a novel and cost-effective annotation protocol, by which an open aspect dataset is derived from existing generic multi-document summarization datasets. We analyze the properties of OpenAsp showcasing its high-quality content. Further, we show that the realistic open-aspect setting realized in OpenAsp poses a challenge for current state-of-the-art summarization models, as well as for large language models.
추상화:자동 요약 모델의 성능은 최근 몇 년 동안 극적으로 향상되었습니다. 그러나 본 논문에서 목표로 하는 유용한 측면 기반 요약 설정과 같이 특히 목표 요약을 추구하는 경우, 실제 시나리오에서 사용자의 특정 정보 요구를 충족시키는 데는 여전히 격차가 있다. 이 설정에 대한 이전 데이터 세트 및 연구는 주로 제한된 사전 정의된 측면 세트에 집중하거나 단일 문서 입력에만 초점을 맞추거나 합성 데이터에 의존했다. 보다 현실적인 시나리오에 대한 연구를 진전시키기 위해 다중 문서 \textit{open} 측면 기반 요약의 벤치마크인 OpenAsp를 소개한다. 이 벤치마크는 새롭고 비용 효율적인 주석 프로토콜을 사용하여 생성되며, 이를 통해 기존의 일반적인 다중 문서 요약 데이터 세트에서 오픈 애스펙트 데이터 세트가 도출된다. 고품질 콘텐츠를 선보이는 OpenAsp의 속성을 분석합니다. 또한 OpenAsp에서 실현된 현실적인 오픈 애스펙트 설정이 현재의 최첨단 요약 모델뿐만 아니라 대규모 언어 모델에도 도전이 되고 있음을 보여준다.
A Block Metropolis-Hastings Sampler for Controllable Energy-based Text Generation
Abstract:Recent work has shown that energy-based language modeling is an effective framework for controllable text generation because it enables flexible integration of arbitrary discriminators. However, because energy-based LMs are globally normalized, approximate techniques like Metropolis-Hastings (MH) are required for inference. Past work has largely explored simple proposal distributions that modify a single token at a time, like in Gibbs sampling. In this paper, we develop a novel MH sampler that, in contrast, proposes re-writes of the entire sequence in each step via iterative prompting of a large language model. Our new sampler (a) allows for more efficient and accurate sampling from a target distribution and (b) allows generation length to be determined through the sampling procedure rather than fixed in advance, as past work has required. We perform experiments on two controlled generation tasks, showing both downstream performance gains and more accurate target distribution sampling in comparison with single-token proposal techniques.
추상화:최근 연구는 에너지 기반 언어 모델링이 임의의 판별자의 유연한 통합을 가능하게 하기 때문에 제어 가능한 텍스트 생성을 위한 효과적인 프레임워크임을 보여주었다. 그러나, 에너지 기반 LM은 전 세계적으로 정규화되기 때문에, MH(Metropolis-Hastings)와 같은 근사적인 기법이 추론에 필요하다. 과거 연구는 깁스 샘플링처럼 한 번에 하나의 토큰을 수정하는 단순 제안 분포를 크게 탐구했다. 본 논문에서는 대조적으로 대규모 언어 모델의 반복적인 촉구를 통해 각 단계에서 전체 시퀀스를 다시 작성할 것을 제안하는 새로운 MH 샘플러를 개발한다. 우리의 새로운 샘플러(a)는 목표 분포에서 보다 효율적이고 정확한 샘플링을 가능하게 하고, (b)는 과거 작업이 요구했던 것처럼 사전에 고정되기보다는 샘플링 절차를 통해 생성 길이를 결정할 수 있게 한다. 우리는 두 가지 제어된 생성 작업에 대해 실험을 수행하여 단일 토큰 제안 기법과 비교하여 다운스트림 성능 향상과 더 정확한 목표 분포 샘플링을 보여준다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-12-13] 오늘의 자연어처리 (0) | 2023.12.13 |
---|---|
[2023-12-12] 오늘의 자연어처리 (0) | 2023.12.12 |
[2023-12-10] 오늘의 자연어처리 (1) | 2023.12.10 |
[2023-12-09] 오늘의 자연어처리 (0) | 2023.12.09 |
[2023-12-08] 오늘의 자연어처리 (1) | 2023.12.08 |
댓글