Deep de Finetti: Recovering Topic Distributions from Large Language Models
Abstract:Large language models (LLMs) can produce long, coherent passages of text, suggesting that LLMs, although trained on next-word prediction, must represent the latent structure that characterizes a document. Prior work has found that internal representations of LLMs encode one aspect of latent structure, namely syntax; here we investigate a complementary aspect, namely the document's topic structure. We motivate the hypothesis that LLMs capture topic structure by connecting LLM optimization to implicit Bayesian inference. De Finetti's theorem shows that exchangeable probability distributions can be represented as a mixture with respect to a latent generating distribution. Although text is not exchangeable at the level of syntax, exchangeability is a reasonable starting assumption for topic structure. We thus hypothesize that predicting the next token in text will lead LLMs to recover latent topic distributions. We examine this hypothesis using Latent Dirichlet Allocation (LDA), an exchangeable probabilistic topic model, as a target, and we show that the representations formed by LLMs encode both the topics used to generate synthetic data and those used to explain natural corpus data.
추상화:LLM(Large Language Model)은 텍스트의 길고 일관된 구절을 생성할 수 있으며, 이는 LLM이 다음 단어 예측에 대해 훈련되었지만 문서의 특성을 나타내는 잠재 구조를 나타내야 함을 시사한다. 이전 연구에서는 LLM의 내부 표현이 잠재 구조의 한 측면, 즉 구문을 인코딩한다는 것을 발견했으며, 여기서는 문서의 토픽 구조를 보완하는 측면을 조사한다. 우리는 LLM 최적화를 암시적 베이지안 추론과 연결함으로써 LLM이 주제 구조를 포착한다는 가설에 동기를 부여한다. De Finetti의 정리는 잠재 생성 분포와 관련하여 교환 가능한 확률 분포를 혼합으로 나타낼 수 있음을 보여준다. 텍스트는 구문 수준에서 교환성이 없지만, 교환성은 토픽 구조에 대한 합리적인 시작 가정이다. 따라서 텍스트로 다음 토큰을 예측하면 LLM이 잠재 주제 분포를 복구할 수 있다고 가정한다. 교환 가능한 확률론적 토픽 모델인 LDA(Latent Dirichlet Allocation)를 대상으로 이 가설을 검토하고, LLM에 의해 형성된 표현이 합성 데이터를 생성하는 데 사용되는 토픽과 자연 말뭉치 데이터를 설명하는 데 사용되는 토픽을 모두 인코딩한다는 것을 보여준다.
Deep de Finetti: Recovering Topic Distributions from Large Language Models
Abstract:Large language models (LLMs) can produce long, coherent passages of text, suggesting that LLMs, although trained on next-word prediction, must represent the latent structure that characterizes a document. Prior work has found that internal representations of LLMs encode one aspect of latent structure, namely syntax; here we investigate a complementary aspect, namely the document's topic structure. We motivate the hypothesis that LLMs capture topic structure by connecting LLM optimization to implicit Bayesian inference. De Finetti's theorem shows that exchangeable probability distributions can be represented as a mixture with respect to a latent generating distribution. Although text is not exchangeable at the level of syntax, exchangeability is a reasonable starting assumption for topic structure. We thus hypothesize that predicting the next token in text will lead LLMs to recover latent topic distributions. We examine this hypothesis using Latent Dirichlet Allocation (LDA), an exchangeable probabilistic topic model, as a target, and we show that the representations formed by LLMs encode both the topics used to generate synthetic data and those used to explain natural corpus data.
추상화:LLM(Large Language Model)은 텍스트의 길고 일관된 구절을 생성할 수 있으며, 이는 LLM이 다음 단어 예측에 대해 훈련되었지만 문서의 특성을 나타내는 잠재 구조를 나타내야 함을 시사한다. 이전 연구에서는 LLM의 내부 표현이 잠재 구조의 한 측면, 즉 구문을 인코딩한다는 것을 발견했으며, 여기서는 문서의 토픽 구조를 보완하는 측면을 조사한다. 우리는 LLM 최적화를 암시적 베이지안 추론과 연결함으로써 LLM이 주제 구조를 포착한다는 가설에 동기를 부여한다. De Finetti의 정리는 잠재 생성 분포와 관련하여 교환 가능한 확률 분포를 혼합으로 나타낼 수 있음을 보여준다. 텍스트는 구문 수준에서 교환성이 없지만, 교환성은 토픽 구조에 대한 합리적인 시작 가정이다. 따라서 텍스트로 다음 토큰을 예측하면 LLM이 잠재 주제 분포를 복구할 수 있다고 가정한다. 교환 가능한 확률론적 토픽 모델인 LDA(Latent Dirichlet Allocation)를 대상으로 이 가설을 검토하고, LLM에 의해 형성된 표현이 합성 데이터를 생성하는 데 사용되는 토픽과 자연 말뭉치 데이터를 설명하는 데 사용되는 토픽을 모두 인코딩한다는 것을 보여준다.
SIG: Speaker Identification in Literature via Prompt-Based Generation
Abstract:Identifying speakers of quotations in narratives is an important task in literary analysis, with challenging scenarios including the out-of-domain inference for unseen speakers, and non-explicit cases where there are no speaker mentions in surrounding context. In this work, we propose a simple and effective approach SIG, a generation-based method that verbalizes the task and quotation input based on designed prompt templates, which also enables easy integration of other auxiliary tasks that further bolster the speaker identification performance. The prediction can either come from direct generation by the model, or be determined by the highest generation probability of each speaker candidate. Based on our approach design, SIG supports out-of-domain evaluation, and achieves open-world classification paradigm that is able to accept any forms of candidate input. We perform both cross-domain evaluation and in-domain evaluation on PDNC, the largest dataset of this task, where empirical results suggest that SIG outperforms previous baselines of complicated designs, as well as the zero-shot ChatGPT, especially excelling at those hard non-explicit scenarios by up to 17% improvement. Additional experiments on another dataset WP further corroborate the efficacy of SIG.
추상화:내러티브에서 인용문의 화자를 식별하는 것은 문학 분석에서 중요한 작업으로, 보이지 않는 화자에 대한 도메인 밖 추론을 포함한 어려운 시나리오와 주변 맥락에서 화자 언급이 없는 비명시적인 경우가 있다. 본 논문에서는 설계된 프롬프트 템플릿을 기반으로 작업 및 인용 입력을 구두화하는 생성 기반 방법인 간단하고 효과적인 접근 SIG를 제안하며, 이를 통해 화자 식별 성능을 더욱 강화하는 다른 보조 작업을 쉽게 통합할 수 있다. 예측은 모델에 의한 직접 생성으로부터 발생할 수도 있고, 또는 각각의 화자 후보의 가장 높은 생성 확률에 의해 결정될 수도 있다. 우리의 접근 방식 설계를 기반으로 SIG는 도메인 밖 평가를 지원하며, 어떤 형태의 후보 입력도 수용할 수 있는 오픈 월드 분류 패러다임을 달성한다. 우리는 이 작업의 가장 큰 데이터 세트인 PDNC에 대해 교차 도메인 평가와 도메인 내 평가를 모두 수행하며, 여기서 경험적 결과는 SIG가 복잡한 설계의 이전 기준선뿐만 아니라 제로 샷 ChatGPT을 능가하며, 특히 하드 비 explicit 시나리오에서 최대 17% 향상되었음을 시사한다. 다른 데이터 세트 WP에 대한 추가 실험은 SIG의 효능을 더욱 확증한다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-12-29] 오늘의 자연어처리 (0) | 2023.12.29 |
---|---|
[2023-12-28] 오늘의 자연어처리 (0) | 2023.12.28 |
[2023-12-26] 오늘의 자연어처리 (1) | 2023.12.26 |
[2023-12-25] 오늘의 자연어처리 (0) | 2023.12.25 |
[2023-12-24] 오늘의 자연어처리 (1) | 2023.12.24 |
댓글