본문 바로가기
오늘의 자연어 처리

[2023-04-17] 오늘의 자연어처리

by 지환이아빠 2023. 4. 17.
반응형

Emergence of Symbols in Neural Networks for Semantic Understanding and Communication

 

Being able to create meaningful symbols and proficiently use them for higher cognitive functions such as communication, reasoning, planning, etc., is essential and unique for human intelligence. Current deep neural networks are still far behind human's ability to create symbols for such higher cognitive functions. Here we propose a solution, named SEA-net, to endow neural networks with ability of symbol creation, semantic understanding and communication. SEA-net generates symbols that dynamically configure the network to perform specific tasks. These symbols capture compositional semantic information that enables the system to acquire new functions purely by symbolic manipulation or communication. In addition, we found that these self-generated symbols exhibit an intrinsic structure resembling that of natural language, suggesting a common framework underlying the generation and understanding of symbols in both human brains and artificial neural networks. We hope that it will be instrumental in producing more capable systems in the future that can synergize the strengths of connectionist and symbolic approaches for AI.

 

의미 있는 기호를 만들고 더 높은 곳에 능숙하게 사용할 수 있는 능력 의사소통, 추론, 계획 등과 같은 인지기능은 인간의 지능을 위해 필수적이고 독특하다. 현재의 심층 신경망은 아직도 그렇게 높은 인지도를 위한 기호를 만드는 인간의 능력에 훨씬 뒤떨어져 있다 기능들. 여기서 우리는 신경망을 부여하기 위해 SEA-net이라는 솔루션을 제안한다 기호 생성 능력, 의미 이해 및 의사소통 능력을 갖추고 있습니다. SEA-net은 네트워크를 동적으로 구성하는 기호를 생성하여 구체적인 업무. 이 기호들은 다음과 같은 구성 의미 정보를 캡처한다 시스템이 순전히 기호 조작에 의해 새로운 기능을 획득할 수 있도록 한다 의사소통. 게다가, 우리는 이러한 자체적으로 생성된 기호들이 다음을 나타낸다는 것을 발견했다 자연어와 유사한 본질적인 구조, 공통점을 시사한다 인간과 인간 모두에서 기호의 생성과 이해의 기초가 되는 틀 뇌와 인공신경망. 우리는 그것이 에 도움이 되기를 바란다 미래에 강점을 시너지 효과를 낼 수 있는 더 유능한 시스템을 생산한다 인공지능을 위한 연결주의적이고 상징적인 접근법. 

 

 

Boosted Prompt Ensembles for Large Language Models

 

Methods such as chain-of-thought prompting and self-consistency have pushed the frontier of language model reasoning performance with no additional training. To further improve performance, we propose a prompt ensembling method for large language models, which uses a small dataset to construct a set of few shot prompts that together comprise a ``boosted prompt ensemble''. The few shot examples for each prompt are chosen in a stepwise fashion to be ``hard'' examples on which the previous step's ensemble is uncertain. We show that this outperforms single-prompt output-space ensembles and bagged prompt-space ensembles on the GSM8k and AQuA datasets, among others. We propose both train-time and test-time versions of boosted prompting that use different levels of available annotation and conduct a detailed empirical study of our algorithm.

 

생각의 사슬 프롬프트 및 자기 일관성과 같은 방법이 추진되었습니다 추가 없이 언어 모델 추론 성능의 최첨단 훈련. 성능을 더욱 향상시키기 위해, 우리는 신속한 조립 방법을 제안한다 대규모 언어 모델의 경우, 소수의 집합을 구성하기 위해 작은 데이터 세트를 사용합니다 shot 프롬프트는 함께 ''확장 프롬프트 앙상블''을 구성한다. 퓨샷 각 프롬프트에 대한 예제는 단계적으로 선택되어 ''hard''가 된다 이전 단계의 앙상블이 불확실한 예. 우리는 이것을 보여준다 단일 프로세서 출력 공간 앙상블 및 백된 프롬프트 공간을 능가합니다 GSM8k 및 AQuA 데이터 세트에 앙상블을 구현합니다. 둘 다 제안합니다 다른 방법을 사용하는 향상된 프롬프트의 교육 시간 및 테스트 시간 버전 사용 가능한 주석 수준 및 우리의 상세한 경험적 연구 수행 알고리즘. 

 

 

Boosted Prompt Ensembles for Large Language Models

 

Methods such as chain-of-thought prompting and self-consistency have pushed the frontier of language model reasoning performance with no additional training. To further improve performance, we propose a prompt ensembling method for large language models, which uses a small dataset to construct a set of few shot prompts that together comprise a ``boosted prompt ensemble''. The few shot examples for each prompt are chosen in a stepwise fashion to be ``hard'' examples on which the previous step's ensemble is uncertain. We show that this outperforms single-prompt output-space ensembles and bagged prompt-space ensembles on the GSM8k and AQuA datasets, among others. We propose both train-time and test-time versions of boosted prompting that use different levels of available annotation and conduct a detailed empirical study of our algorithm.

 

생각의 사슬 프롬프트 및 자기 일관성과 같은 방법이 추진되었습니다 추가 없이 언어 모델 추론 성능의 최첨단 훈련. 성능을 더욱 향상시키기 위해, 우리는 신속한 조립 방법을 제안한다 대규모 언어 모델의 경우, 소수의 집합을 구성하기 위해 작은 데이터 세트를 사용합니다 shot 프롬프트는 함께 ''확장 프롬프트 앙상블''을 구성한다. 퓨샷 각 프롬프트에 대한 예제는 단계적으로 선택되어 ''hard''가 된다 이전 단계의 앙상블이 불확실한 예. 우리는 이것을 보여준다 단일 프로세서 출력 공간 앙상블 및 백된 프롬프트 공간을 능가합니다 GSM8k 및 AQuA 데이터 세트에 앙상블을 구현합니다. 둘 다 제안합니다 다른 방법을 사용하는 향상된 프롬프트의 교육 시간 및 테스트 시간 버전 사용 가능한 주석 수준 및 우리의 상세한 경험적 연구 수행 알고리즘. 

 

 

반응형

댓글