본문 바로가기
오늘의 자연어 처리

[2023-12-23] 오늘의 자연어처리

by 지환이아빠 2023. 12. 23.
반응형

Decoupling Representation and Knowledge for Few-Shot Intent Classification and Slot Filling

 

Abstract:Few-shot intent classification and slot filling are important but challenging tasks due to the scarcity of finely labeled data. Therefore, current works first train a model on source domains with sufficiently labeled data, and then transfer the model to target domains where only rarely labeled data is available. However, experience transferring as a whole usually suffers from gaps that exist among source domains and target domains. For instance, transferring domain-specific-knowledge-related experience is difficult. To tackle this problem, we propose a new method that explicitly decouples the transferring of general-semantic-representation-related experience and the domain-specific-knowledge-related experience. Specifically, for domain-specific-knowledge-related experience, we design two modules to capture intent-slot relation and slot-slot relation respectively. Extensive experiments on Snips and FewJoint datasets show that our method achieves state-of-the-art performance. The method improves the joint accuracy metric from 27.72% to 42.20% in the 1-shot setting, and from 46.54% to 60.79% in the 5-shot setting.

 

추상화:few-shot intent 분류와 슬롯 채우기는 중요하지만 세밀하게 레이블이 지정된 데이터의 부족으로 인해 어려운 작업이다. 따라서, 현재 작업들은 먼저 충분히 라벨링된 데이터를 가진 소스 도메인들에 모델을 훈련시킨 후, 라벨링된 데이터가 거의 없는 타겟 도메인들에 모델을 전송한다. 그러나, 전체적으로 이전하는 경험은 보통 소스 도메인과 타겟 도메인 사이에 존재하는 갭으로 고통을 받는다. 예를 들어, 영역별 지식 관련 경험을 전수하는 것은 어렵다. 이 문제를 해결하기 위해 일반-의미-표현 관련 경험과 영역-특정-지식 관련 경험의 전이를 명시적으로 탈동조화하는 새로운 방법을 제안한다. 구체적으로 도메인별 지식 관련 경험을 위해 의도-슬롯 관계와 슬롯-슬롯 관계를 각각 포착하기 위해 두 개의 모듈을 설계한다. Snips 및 Few Joint 데이터 세트에 대한 광범위한 실험은 우리의 방법이 최첨단 성능을 달성한다는 것을 보여준다. 이 방법은 1-샷 설정에서 관절 정확도 메트릭을 27.72%에서 42.20%로, 5-샷 설정에서 46.54%에서 60.79%로 향상시킨다. 

 

 

DSPy Assertions: Computational Constraints for Self-Refining Language Model Pipelines

 

Abstract:Chaining language model (LM) calls as composable modules is fueling a new powerful way of programming. However, ensuring that LMs adhere to important constraints remains a key challenge, one often addressed with heuristic "prompt engineering". We introduce LM Assertions, a new programming construct for expressing computational constraints that LMs should satisfy. We integrate our constructs into the recent DSPy programming model for LMs, and present new strategies that allow DSPy to compile programs with arbitrary LM Assertions into systems that are more reliable and more accurate. In DSPy, LM Assertions can be integrated at compile time, via automatic prompt optimization, and/or at inference time, via automatic selfrefinement and backtracking. We report on two early case studies for complex question answering (QA), in which the LM program must iteratively retrieve information in multiple hops and synthesize a long-form answer with citations. We find that LM Assertions improve not only compliance with imposed rules and guidelines but also enhance downstream task performance, delivering intrinsic and extrinsic gains up to 35.7% and 13.3%, respectively. Our reference implementation of LM Assertions is integrated into DSPy at this https URL

 

추상화:합성 가능한 모듈로서의 LM(Chaining Language Model) 호출은 새로운 강력한 프로그래밍 방식을 부채질하고 있다. 그러나 LM이 중요한 제약 조건을 준수하는지 확인하는 것은 핵심 과제로 남아 있으며, 종종 휴리스틱 "프롬프트 엔지니어링"으로 해결된다. 우리는 LM이 충족해야 하는 계산 제약을 표현하기 위한 새로운 프로그래밍 구조인 LM Assertions를 소개한다. 우리는 LM에 대한 최근 DSPy 프로그래밍 모델에 우리의 구성을 통합하고 DSPy가 임의의 LM Assertion을 가진 프로그램을 보다 신뢰할 수 있고 정확한 시스템으로 컴파일할 수 있는 새로운 전략을 제시한다. DSPy에서 LM 어설션은 컴파일 시간, 자동 프롬프트 최적화를 통해 그리고/또는 추론 시간, 자동 자체 정제 및 역추적을 통해 통합될 수 있다. 우리는 LM 프로그램이 여러 홉에서 정보를 반복적으로 검색하고 인용문과 함께 긴 형태의 답변을 합성해야 하는 복잡한 질문 답변(QA)에 대한 두 가지 초기 사례 연구에 대해 보고한다. 우리는 LM Assertions가 부과된 규칙과 지침의 준수를 향상시킬 뿐만 아니라 다운스트림 작업 성능을 향상시켜 각각 최대 35.7%와 13.3%의 고유 및 외부 이득을 제공한다는 것을 발견했다. LM Assertions의 참조 구현은 이 https URL에서 DSPy에 통합됩니다 

 

 

T-Eval: Evaluating the Tool Utilization Capability Step by Step

 

Abstract:Large language models (LLM) have achieved remarkable performance on various NLP tasks and are augmented by tools for broader applications. Yet, how to evaluate and analyze the tool-utilization capability of LLMs is still under-explored. In contrast to previous works that evaluate models holistically, we comprehensively decompose the tool utilization into multiple sub-processes, including instruction following, planning, reasoning, retrieval, understanding, and review. Based on that, we further introduce \shortname~to evaluate the tool utilization capability step by step. \shortname~disentangles the tool utilization evaluation into several sub-domains along model capabilities, facilitating the inner understanding of both holistic and isolated competency of LLMs. We conduct extensive experiments on \shortname~and in-depth analysis of various LLMs. \shortname~ not only exhibits consistency with the outcome-oriented evaluation but also provides a more fine-grained analysis of the capabilities of LLMs, providing a new perspective in LLM evaluation on tool-utilization ability. The benchmark will be available at \href{this https URL}{this https URL}.

 

추상화:LLM(Large Language Model)은 다양한 NLP 작업에서 놀라운 성능을 달성했으며 보다 광범위한 응용을 위한 도구에 의해 증강된다. 그러나 LLMs의 도구 활용 능력을 어떻게 평가하고 분석할 것인가에 대해서는 아직 연구가 부족한 실정이다. 모형을 총체적으로 평가하는 기존의 연구들과는 달리 도구 활용을 수업 추종, 계획, 추론, 검색, 이해, 검토 등의 여러 하위 과정으로 종합적으로 분해한다. 이를 바탕으로 \shortname~을 추가로 도입하여 도구 활용 능력을 단계별로 평가한다. \shortname~은(는) 도구 활용 평가를 모델 기능을 따라 여러 하위 영역으로 분산하여 LLM의 전체 역량과 고립된 역량 모두에 대한 내부 이해를 용이하게 한다. 저희는 \shortname~에 대한 광범위한 실험과 다양한 LLM의 심층 분석을 수행합니다. \shortname~은 결과 중심 평가와 일관성을 보일 뿐만 아니라 LLM의 능력에 대한 보다 세분화된 분석을 제공하여 도구 활용 능력에 대한 LLM 평가에 새로운 관점을 제공한다. 벤치마크는 \href{this https URL}{this https URL}에서 사용할 수 있습니다. 

 

 

반응형

댓글