본문 바로가기
오늘의 자연어 처리

[2023-04-23] 오늘의 자연어처리

by 지환이아빠 2023. 4. 23.
반응형

A Latent Space Theory for Emergent Abilities in Large Language Models

 

Languages are not created randomly but rather to communicate information. There is a strong association between languages and their underlying meanings, resulting in a sparse joint distribution that is heavily peaked according to their correlations. Moreover, these peak values happen to match with the marginal distribution of languages due to the sparsity. With the advent of LLMs trained on big data and large models, we can now precisely assess the marginal distribution of languages, providing a convenient means of exploring the sparse structures in the joint distribution for effective inferences. In this paper, we categorize languages as either unambiguous or {\epsilon}-ambiguous and present quantitative results to demonstrate that the emergent abilities of LLMs, such as language understanding, in-context learning, chain-of-thought prompting, and effective instruction fine-tuning, can all be attributed to Bayesian inference on the sparse joint distribution of languages.

 

언어는 무작위로 만들어지는 것이 아니라 정보를 전달하기 위해 만들어진다. 언어와 언어의 근본적인 의미 사이에는 강한 연관성이 있다, 그 결과에 따라 심하게 정점에 있는 희소한 관절 분포를 초래한다 그들의 상관관계. 게다가, 이러한 피크 값은 다음과 일치합니다 희소성으로 인한 언어의 한계 분포. LLM의 등장으로 빅데이터와 대규모 모델에 대해 교육을 받은 우리는 이제 한계를 정확하게 평가할 수 있다 언어의 분포, 희소성을 탐구하는 편리한 수단을 제공한다 효과적인 추론을 위한 공동 분포의 구조. 이 논문에서, 우리는 언어를 모호하지 않거나 (epsilon)-언어로 분류한다 의 출현 능력을 증명하기 위해 양적 결과를 제시하다 언어 이해, 상황별 학습, 사고 체계와 같은 LLM 프롬프트 및 효과적인 명령 미세 조정은 모두 다음과 같은 결과를 가져올 수 있습니다 언어의 희박한 공동 분포에 대한 베이지안 추론. 

 

 

A Latent Space Theory for Emergent Abilities in Large Language Models

 

Languages are not created randomly but rather to communicate information. There is a strong association between languages and their underlying meanings, resulting in a sparse joint distribution that is heavily peaked according to their correlations. Moreover, these peak values happen to match with the marginal distribution of languages due to the sparsity. With the advent of LLMs trained on big data and large models, we can now precisely assess the marginal distribution of languages, providing a convenient means of exploring the sparse structures in the joint distribution for effective inferences. In this paper, we categorize languages as either unambiguous or {\epsilon}-ambiguous and present quantitative results to demonstrate that the emergent abilities of LLMs, such as language understanding, in-context learning, chain-of-thought prompting, and effective instruction fine-tuning, can all be attributed to Bayesian inference on the sparse joint distribution of languages.

 

언어는 무작위로 만들어지는 것이 아니라 정보를 전달하기 위해 만들어진다. 언어와 언어의 근본적인 의미 사이에는 강한 연관성이 있다, 그 결과에 따라 심하게 정점에 있는 희소한 관절 분포를 초래한다 그들의 상관관계. 게다가, 이러한 피크 값은 다음과 일치합니다 희소성으로 인한 언어의 한계 분포. LLM의 등장으로 빅데이터와 대규모 모델에 대해 교육을 받은 우리는 이제 한계를 정확하게 평가할 수 있다 언어의 분포, 희소성을 탐구하는 편리한 수단을 제공한다 효과적인 추론을 위한 공동 분포의 구조. 이 논문에서, 우리는 언어를 모호하지 않거나 (epsilon)-언어로 분류한다 의 출현 능력을 증명하기 위해 양적 결과를 제시하다 언어 이해, 상황별 학습, 사고 체계와 같은 LLM 프롬프트 및 효과적인 명령 미세 조정은 모두 다음과 같은 결과를 가져올 수 있습니다 언어의 희박한 공동 분포에 대한 베이지안 추론. 

 

 

Low-resource Bilingual Dialect Lexicon Induction with Large Language Models

 

Bilingual word lexicons are crucial tools for multilingual natural language understanding and machine translation tasks, as they facilitate the mapping of words in one language to their synonyms in another language. To achieve this, numerous papers have explored bilingual lexicon induction (BLI) in high-resource scenarios, using a typical pipeline consisting of two unsupervised steps: bitext mining and word alignment, both of which rely on pre-trained large language models~(LLMs). In this paper, we present an analysis of the BLI pipeline for German and two of its dialects, Bavarian and Alemannic. This setup poses several unique challenges, including the scarcity of resources, the relatedness of the languages, and the lack of standardization in the orthography of dialects. To evaluate the BLI outputs, we analyze them with respect to word frequency and pairwise edit distance. Additionally, we release two evaluation datasets comprising 1,500 bilingual sentence pairs and 1,000 bilingual word pairs. They were manually judged for their semantic similarity for each Bavarian-German and Alemannic-German language pair.

 

이중 언어 단어 사전은 다국어 자연어를 위한 중요한 도구이다 이해와 기계 번역 작업, 그것들이 매핑을 용이합니다 한 언어의 단어들과 다른 언어의 동의어들. 이를 위해, 수많은 논문들이 2개 국어 어휘 유도(BLI)를 탐구했다 두 개로 구성된 일반적인 파이프라인을 사용하는 고자원 시나리오 감독되지 않은 단계: 비트텍스트 마이닝과 단어 정렬, 둘 다 의존한다 사전 훈련된 대규모 언어 모델~(LLM). 이 논문에서, 우리는 독일어와 2개의 BLI 파이프라인에 대한 분석을 제시한다 바이에른어와 알레만어의 방언 중 하나이다. 이 설정은 몇 가지 고유한 설정을 제공합니다 자원의 부족, 관련성을 포함한 도전 언어, 그리고 방언 철자법의 표준화의 부족. 로. BLI 출력을 평가하고, 단어 빈도와 관련하여 분석합니다 쌍으로 편집 거리. 또한 두 개의 평가 데이터 세트를 공개합니다 1,500개의 이중 언어 문장 쌍과 1,000개의 이중 언어 단어 쌍으로 구성된다. 그들은 각각의 바이에른-독일어에 대한 의미론적 유사성으로 수동으로 판단되었다 알레만어-독일어 쌍입니다. 

 

 

반응형

댓글