Tree of Uncertain Thoughts Reasoning for Large Language Models
Abstract:While the recently introduced Tree of Thoughts (ToT) has heralded advancements in allowing Large Language Models (LLMs) to reason through foresight and backtracking for global decision-making, it has overlooked the inherent local uncertainties in intermediate decision points or "thoughts". These local uncertainties, intrinsic to LLMs given their potential for diverse responses, remain a significant concern in the reasoning process. Addressing this pivotal gap, we introduce the Tree of Uncertain Thoughts (TouT) - a reasoning framework tailored for LLMs. Our TouT effectively leverages Monte Carlo Dropout to quantify uncertainty scores associated with LLMs' diverse local responses at these intermediate steps. By marrying this local uncertainty quantification with global search algorithms, TouT enhances the model's precision in response generation. We substantiate our approach with rigorous experiments on two demanding planning tasks: Game of 24 and Mini Crosswords. The empirical evidence underscores TouT's superiority over both ToT and chain-of-thought prompting methods.
초록:최근에 소개된 생각의 나무(ToT)는 글로벌 의사 결정을 위한 선견지명과 역추적을 통해 대형 언어 모델(LLM)이 추론할 수 있도록 하는 발전을 예고했지만, 중간 의사 결정 지점 또는 "생각"에 내재된 지역적 불확실성을 간과했다. 다양한 반응에 대한 잠재력을 감안할 때 LLM에 내재된 이러한 지역적 불확실성은 추론 과정에서 중요한 관심사로 남아 있다. 이 중추적인 격차를 해결하기 위해 LLM에 맞춘 추론 프레임워크인 불확실한 생각의 나무(Tree of Different Things, TouT)를 소개한다. 우리의 TouT는 몬테카를로 드롭아웃을 효과적으로 활용하여 이러한 중간 단계에서 LLM의 다양한 지역 반응과 관련된 불확실성 점수를 정량화한다. TouT는 이 지역 불확실성 정량화를 글로벌 검색 알고리즘과 결합하여 모델의 응답 생성 정밀도를 향상시킨다. 우리는 게임 오브 24와 미니 크로스워드라는 두 가지 까다로운 계획 작업에 대한 엄격한 실험으로 접근 방식을 입증한다. 경험적 증거는 ToT와 연쇄적 사고 촉진 방법 모두에 대한 TouT의 우수성을 강조한다.
CoLLD: Contrastive Layer-to-layer Distillation for Compressing Multilingual Pre-trained Speech Encoders
Abstract:Large-scale self-supervised pre-trained speech encoders outperform conventional approaches in speech recognition and translation tasks. Due to the high cost of developing these large models, building new encoders for new tasks and deploying them to on-device applications are infeasible. Prior studies propose model compression methods to address this issue, but those works focus on smaller models and less realistic tasks. Thus, we propose Contrastive Layer-to-layer Distillation (CoLLD), a novel knowledge distillation method to compress pre-trained speech encoders by leveraging masked prediction and contrastive learning to train student models to copy the behavior of a large teacher model. CoLLD outperforms prior methods and closes the gap between small and large models on multilingual speech-to-text translation and recognition benchmarks.
초록:대규모 자체 감독 사전 훈련된 음성 인코더는 음성 인식 및 번역 작업에서 기존의 접근 방식을 능가한다. 이러한 대형 모델을 개발하는 데 드는 높은 비용 때문에, 새로운 작업을 위한 새로운 인코더를 구축하고 이를 온 디바이스 애플리케이션에 배치하는 것은 실현 불가능하다. 선행 연구들은 이 문제를 해결하기 위해 모델 압축 방법을 제안하지만, 이러한 작업은 더 작은 모델과 덜 현실적인 작업에 초점을 맞추고 있다. 따라서 마스크된 예측과 대조 학습을 활용하여 학생 모델을 훈련시켜 대규모 교사 모델의 동작을 모방함으로써 사전 훈련된 음성 인코더를 압축하는 새로운 지식 증류 방법인 CoLLD(Contrastive Layer-to-Layer Distillation)를 제안한다. CoLLD는 이전 방법을 능가하고 다국어 음성-문자 변환 및 인식 벤치마크에서 작은 모델과 큰 모델 사이의 격차를 좁힌다.
Detecting Misinformation with LLM-Predicted Credibility Signals and Weak Supervision
Abstract:Credibility signals represent a wide range of heuristics that are typically used by journalists and fact-checkers to assess the veracity of online content. Automating the task of credibility signal extraction, however, is very challenging as it requires high-accuracy signal-specific extractors to be trained, while there are currently no sufficiently large datasets annotated with all credibility signals. This paper investigates whether large language models (LLMs) can be prompted effectively with a set of 18 credibility signals to produce weak labels for each signal. We then aggregate these potentially noisy labels using weak supervision in order to predict content veracity. We demonstrate that our approach, which combines zero-shot LLM credibility signal labeling and weak supervision, outperforms state-of-the-art classifiers on two misinformation datasets without using any ground-truth labels for training. We also analyse the contribution of the individual credibility signals towards predicting content veracity, which provides new valuable insights into their role in misinformation detection.
초록:신뢰성 신호는 일반적으로 기자와 사실 확인자가 온라인 콘텐츠의 진실성을 평가하기 위해 사용하는 광범위한 휴리스틱을 나타낸다. 그러나 신뢰도 신호 추출 작업을 자동화하는 것은 현재 모든 신뢰도 신호로 주석이 달린 충분히 큰 데이터 세트가 없는 반면, 정확도가 높은 신호별 추출기를 훈련해야 하기 때문에 매우 어렵다. 본 논문은 각 신호에 대해 약한 레이블을 생성하기 위해 18개의 신뢰도 신호 세트로 큰 언어 모델(LLM)을 효과적으로 촉구할 수 있는지 조사한다. 그런 다음 콘텐츠 진실성을 예측하기 위해 약한 감독을 사용하여 잠재적으로 노이즈가 많은 레이블을 집계한다. 제로샷 LLM 신뢰성 신호 라벨링과 취약한 감독을 결합한 우리의 접근 방식이 훈련에 지상 진실 라벨을 사용하지 않고 두 개의 잘못된 정보 데이터 세트에서 최첨단 분류기를 능가한다는 것을 입증한다. 또한 콘텐츠 진실성을 예측하기 위한 개별 신뢰 신호의 기여를 분석하여 잘못된 정보 탐지에서 그들의 역할에 대한 새로운 가치 있는 통찰력을 제공한다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-09-19] 오늘의 자연어처리 (0) | 2023.09.19 |
---|---|
[2023-09-18] 오늘의 자연어처리 (0) | 2023.09.18 |
[2023-09-16] 오늘의 자연어처리 (0) | 2023.09.16 |
[2023-09-15] 오늘의 자연어처리 (0) | 2023.09.15 |
[2023-09-14] 오늘의 자연어처리 (0) | 2023.09.14 |
댓글