본문 바로가기
오늘의 자연어 처리

[2023-10-22] 오늘의 자연어처리

by 지환이아빠 2023. 10. 22.
반응형

Are Structural Concepts Universal in Transformer Language Models? Towards Interpretable Cross-Lingual Generalization

 

Abstract:Large language models (LLMs) have exhibited considerable cross-lingual generalization abilities, whereby they implicitly transfer knowledge across languages. However, the transfer is not equally successful for all languages, especially for low-resource ones, which poses an ongoing challenge. It is unclear whether we have reached the limits of implicit cross-lingual generalization and if explicit knowledge transfer is viable. In this paper, we investigate the potential for explicitly aligning conceptual correspondence between languages to enhance cross-lingual generalization. Using the syntactic aspect of language as a testbed, our analyses of 43 languages reveal a high degree of alignability among the spaces of structural concepts within each language for both encoder-only and decoder-only LLMs. We then propose a meta-learning-based method to learn to align conceptual spaces of different languages, which facilitates zero-shot and few-shot generalization in concept classification and also offers insights into the cross-lingual in-context learning phenomenon. Experiments on syntactic analysis tasks show that our approach achieves competitive results with state-of-the-art methods and narrows the performance gap between languages, particularly benefiting those with limited resources.

 

초록:대형 언어 모델(LLM)은 언어 간의 지식을 암묵적으로 전달하는 상당한 언어 간 일반화 능력을 보여주었다. 그러나 전송이 모든 언어, 특히 자원이 낮은 언어에 대해 동일하게 성공적이지는 않으며, 이는 지속적인 문제를 야기한다. 우리가 암묵적 언어 간 일반화의 한계에 도달했는지 여부와 명시적 지식 전달이 가능한지 여부는 불분명하다. 본 논문에서는 언어 간 일반화를 향상시키기 위해 언어 간의 개념적 대응을 명시적으로 정렬할 수 있는 가능성을 조사한다. 언어의 통사적 측면을 테스트베드로 사용하여 43개 언어에 대한 우리의 분석은 인코더 전용 및 디코더 전용 LLM에 대해 각 언어 내 구조적 개념 공간 간의 높은 정렬성을 보여준다. 그런 다음 서로 다른 언어의 개념 공간을 정렬하는 방법을 학습하는 메타 학습 기반 방법을 제안한다, 이는 개념 분류에서 제로샷 및 퓨샷 일반화를 용이하게 하며 context 내 교차 언어 학습 현상에 대한 통찰력을 제공한다. 구문 분석 작업에 대한 실험은 우리의 접근 방식이 최첨단 방법으로 경쟁력 있는 결과를 달성하고 언어 간 성능 격차를 줄이며 특히 제한된 자원을 가진 사람들에게 혜택을 준다는 것을 보여준다. 

 

 

MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter

 

Abstract:Language Models (LMs) have demonstrated impressive molecule understanding ability on various 1D text-related tasks. However, they inherently lack 2D graph perception - a critical ability of human professionals in comprehending molecules' topological structures. To bridge this gap, we propose MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and Uni-Modal Adapter. MolCA enables an LM (e.g., Galactica) to understand both text- and graph-based molecular contents via the cross-modal projector. Specifically, the cross-modal projector is implemented as a Q-Former to connect a graph encoder's representation space and an LM's text space. Further, MolCA employs a uni-modal adapter (i.e., LoRA) for the LM's efficient adaptation to downstream tasks. Unlike previous studies that couple an LM with a graph encoder via cross-modal contrastive learning, MolCA retains the LM's ability of open-ended text generation and augments it with 2D graph information. To showcase its effectiveness, we extensively benchmark MolCA on tasks of molecule captioning, IUPAC name prediction, and molecule-text retrieval, on which MolCA significantly outperforms the baselines. Our codes and checkpoints can be found at this https URL.

 

초록:언어 모델(LM)은 다양한 1D 텍스트 관련 작업에서 인상적인 분자 이해 능력을 입증했다. 그러나 이들은 분자의 위상 구조를 이해하는 데 있어 인간 전문가의 중요한 능력인 2D 그래프 인식이 본질적으로 부족하다. 이러한 차이를 해소하기 위해 MolCA: 교차 모달 프로젝터 및 Uni-Modal 어댑터를 사용한 분자 그래프 언어 모델링을 제안한다. MolCA는 LM(예를 들어, Galactica)이 크로스 모달 프로젝터를 통해 텍스트 및 그래프 기반 분자 콘텐츠를 모두 이해할 수 있도록 한다. 구체적으로, 크로스-모달 프로젝터는 그래프 인코더의 표현 공간과 LM의 텍스트 공간을 연결하기 위해 Q-Former로 구현된다. 또한, MolCA는 다운스트림 작업에 대한 LM의 효율적인 적응을 위해 유니-모달 어댑터(즉, LoRA)를 사용한다. MolCA는 LM과 그래프 인코더를 교차 모드 대조 학습을 통해 결합하는 이전의 연구와 달리 LM의 개방형 텍스트 생성 능력을 유지하고 2D 그래프 정보로 이를 확대한다. 그 효과를 보여주기 위해 분자 캡션, IUPAC 이름 예측 및 분자 텍스트 검색 작업에서 MolCA를 광범위하게 벤치마크하며, 이 작업에서 MolCA는 기준선을 크게 능가한다. 우리의 코드와 체크포인트는 이 https URL에서 확인할 수 있습니다. 

 

 

SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving

 

Abstract:Large Language Models (LLMs) have driven substantial progress in artificial intelligence in recent years, exhibiting impressive capabilities across a wide range of tasks, including mathematical problem-solving. Inspired by the success of subgoal-based methods, we propose a novel framework called \textbf{SE}quential sub\textbf{G}oal \textbf{O}ptimization (SEGO) to enhance LLMs' ability to solve mathematical problems. By establishing a connection between the subgoal breakdown process and the probability of solving problems, SEGO aims to identify better subgoals with theoretical guarantees. Addressing the challenge of identifying suitable subgoals in a large solution space, our framework generates problem-specific subgoals and adjusts them according to carefully designed criteria. Incorporating these optimized subgoals into the policy model training leads to significant improvements in problem-solving performance. We validate SEGO's efficacy through experiments on two benchmarks, GSM8K and MATH, where our approach outperforms existing methods, highlighting the potential of SEGO in AI-driven mathematical problem-solving. Data and code associated with this paper will be available at this https URL

 

초록:대형 언어 모델(Large Language Models, LLM)은 최근 몇 년 동안 인공 지능의 상당한 발전을 이끌었으며, 수학적 문제 해결을 포함한 광범위한 작업에 걸쳐 인상적인 능력을 보여주었다. 하위 목표 기반 방법의 성공에 영감을 받아 \textbf{라는 새로운 프레임워크를 제안한다SE}순차 하위\textbf{G}oal \textbf{O}최적화(SEGO)를 통해 LLM의 수학 문제 해결 능력을 향상시킵니다. SEGO는 하위 목표 분해 과정과 문제 해결 확률 간의 관계를 설정함으로써 이론적 보장을 통해 더 나은 하위 목표를 도출하고자 한다. 대규모 솔루션 공간에서 적합한 하위 목표를 식별하는 문제를 해결하기 위해 우리의 프레임워크는 문제별 하위 목표를 생성하고 신중하게 설계된 기준에 따라 조정한다. 이러한 최적화된 하위 목표를 정책 모델 훈련에 통합하면 문제 해결 성과가 크게 향상된다. 우리는 GSM8K와 MATH의 두 벤치마크에 대한 실험을 통해 SEGO의 효과를 검증하는데, 여기서 우리의 접근 방식은 기존 방법을 능가하여 AI 주도 수학 문제 해결에서 SEGO의 잠재력을 강조한다. 이 문서와 관련된 데이터와 코드는 이 https URL에서 사용할 수 있습니다 

 

 

반응형

댓글