본문 바로가기
오늘의 자연어 처리

[2023-04-13] 오늘의 자연어처리

by 지환이아빠 2023. 4. 13.
반응형

Approximating Human Evaluation of Social Chatbots with Prompting

 

Once powerful conversational models have become available for a wide audience, users started actively engaging in social interactions with this technology. Such unprecedented interaction experiences may pose considerable social and psychological risks to the users unless the technology is properly controlled. This creates an urgent need for scalable and robust evaluation metrics for conversational chatbots. Existing automatic evaluation metrics usually focus on objective quality measures and disregard subjective perceptions of social dimensions. Moreover, most of these approaches operate on pre-produced dialogs from available benchmark corpora, which implies human involvement for preparing the material for evaluation and, thus, impeded scalability of the metrics. To address this limitation, we propose to make use of the emerging large language models (LLMs) from the GPT-family and describe a new framework allowing to conduct dialog system evaluation with prompting. With this framework, we are able to achieve full automation of the evaluation pipeline and reach impressive correlation with the human judgement (up to Pearson r=0.95 on system level). The underlying concept is to collect synthetic chat logs of evaluated bots with a LLM in the other-play setting, where LLM is carefully conditioned to follow a specific scenario. We further explore different prompting approaches to produce evaluation scores with the same LLM. The best-performing prompts, containing few-show demonstrations and instructions, show outstanding performance on the tested dataset and demonstrate the ability to generalize to other dialog corpora.

 

일단 강력한 대화 모델이 광범위하게 사용 가능하게 되었다 청중, 사용자들은 이것으로 사회적 상호작용에 적극적으로 참여하기 시작했다 기술. 이러한 전례 없는 상호 작용 경험은 상당한 영향을 미칠 수 있다 기술이 제대로 작동하지 않는 한 사용자에 대한 사회적, 심리적 위험 통제된. 따라서 확장 가능하고 강력한 평가가 시급합니다 대화형 챗봇에 대한 메트릭입니다. 기존 자동 평가 메트릭 보통 객관적인 품질 측정에 초점을 맞추고 주관적인 것을 무시한다 사회적 차원에 대한 인식. 게다가, 이러한 접근법의 대부분은 다음과 같이 작동한다 인간을 암시하는 사용 가능한 벤치마크 말뭉치에서 사전 제작된 대화 상자 평가를 위한 재료 준비를 위한 참여, 따라서 방해됨 메트릭의 확장성. 이 한계를 해결하기 위해, 우리는 다음을 사용할 것을 제안한다 GPT 계열의 새로운 대형 언어 모델(LLM) 중에서 그리고 설명한다 프롬프트와 함께 대화 상자 시스템 평가를 수행할 수 있는 새 프레임워크입니다. 와 함께 이 프레임워크, 우리는 평가의 완전한 자동화를 달성할 수 있다 파이프라인을 연결하고 인간의 판단과 인상적인 상관관계에 도달한다 Pearson r=시스템 레벨에서 0.95). 근본적인 개념은 합성 물질을 수집하는 것이다 평가된 봇의 대화 로그를 다른 재생 설정에서 LLM과 함께 사용합니다 특정 시나리오를 따르도록 세심하게 조정되었습니다. 더 자세히 살펴봅니다 동일한 LLM을 사용하여 평가 점수를 생성하도록 유도하는 다양한 접근 방식. 몇 번의 시연을 포함한 최고 성능의 프롬프트와 테스트된 데이터 세트에서 탁월한 성능을 보여주는 지침 다른 대화 말뭉치로 일반화하는 기능을 시연합니다. 

 

 

Approximating Human Evaluation of Social Chatbots with Prompting

 

Once powerful conversational models have become available for a wide audience, users started actively engaging in social interactions with this technology. Such unprecedented interaction experiences may pose considerable social and psychological risks to the users unless the technology is properly controlled. This creates an urgent need for scalable and robust evaluation metrics for conversational chatbots. Existing automatic evaluation metrics usually focus on objective quality measures and disregard subjective perceptions of social dimensions. Moreover, most of these approaches operate on pre-produced dialogs from available benchmark corpora, which implies human involvement for preparing the material for evaluation and, thus, impeded scalability of the metrics. To address this limitation, we propose to make use of the emerging large language models (LLMs) from the GPT-family and describe a new framework allowing to conduct dialog system evaluation with prompting. With this framework, we are able to achieve full automation of the evaluation pipeline and reach impressive correlation with the human judgement (up to Pearson r=0.95 on system level). The underlying concept is to collect synthetic chat logs of evaluated bots with a LLM in the other-play setting, where LLM is carefully conditioned to follow a specific scenario. We further explore different prompting approaches to produce evaluation scores with the same LLM. The best-performing prompts, containing few-show demonstrations and instructions, show outstanding performance on the tested dataset and demonstrate the ability to generalize to other dialog corpora.

 

일단 강력한 대화 모델이 광범위하게 사용 가능하게 되었다 청중, 사용자들은 이것으로 사회적 상호작용에 적극적으로 참여하기 시작했다 기술. 이러한 전례 없는 상호 작용 경험은 상당한 영향을 미칠 수 있다 기술이 제대로 작동하지 않는 한 사용자에 대한 사회적, 심리적 위험 통제된. 따라서 확장 가능하고 강력한 평가가 시급합니다 대화형 챗봇에 대한 메트릭입니다. 기존 자동 평가 메트릭 보통 객관적인 품질 측정에 초점을 맞추고 주관적인 것을 무시한다 사회적 차원에 대한 인식. 게다가, 이러한 접근법의 대부분은 다음과 같이 작동한다 인간을 암시하는 사용 가능한 벤치마크 말뭉치에서 사전 제작된 대화 상자 평가를 위한 재료 준비를 위한 참여, 따라서 방해됨 메트릭의 확장성. 이 한계를 해결하기 위해, 우리는 다음을 사용할 것을 제안한다 GPT 계열의 새로운 대형 언어 모델(LLM) 중에서 그리고 설명한다 프롬프트와 함께 대화 상자 시스템 평가를 수행할 수 있는 새 프레임워크입니다. 와 함께 이 프레임워크, 우리는 평가의 완전한 자동화를 달성할 수 있다 파이프라인을 연결하고 인간의 판단과 인상적인 상관관계에 도달한다 Pearson r=시스템 레벨에서 0.95). 근본적인 개념은 합성 물질을 수집하는 것이다 평가된 봇의 대화 로그를 다른 재생 설정에서 LLM과 함께 사용합니다 특정 시나리오를 따르도록 세심하게 조정되었습니다. 더 자세히 살펴봅니다 동일한 LLM을 사용하여 평가 점수를 생성하도록 유도하는 다양한 접근 방식. 몇 번의 시연을 포함한 최고 성능의 프롬프트와 테스트된 데이터 세트에서 탁월한 성능을 보여주는 지침 다른 대화 말뭉치로 일반화하는 기능을 시연합니다. 

 

 

Teaching Large Language Models to Self-Debug

 

Large language models (LLMs) have achieved impressive performance on code generation. However, for complex programming tasks, generating the correct solution in one go becomes challenging, thus some prior works have designed program repair approaches to improve code generation performance. In this work, we propose Self-Debugging, which teaches a large language model to debug its predicted program via few-shot demonstrations. In particular, we demonstrate that Self-Debugging can teach the large language model to perform rubber duck debugging; i.e., without any feedback on the code correctness or error messages, the model is able to identify its mistakes by explaining the generated code in natural language. Self-Debugging achieves the state-of-the-art performance on several code generation benchmarks, including the Spider dataset for text-to-SQL generation, TransCoder for C++-to-Python translation, and MBPP for text-to-Python generation. On the Spider benchmark where there are no unit tests to verify the correctness of predictions, Self-Debugging with code explanation consistently improves the baseline by 2-3%, and improves the prediction accuracy on problems of the hardest label by 9%. On TransCoder and MBPP where unit tests are available, Self-Debugging improves the baseline accuracy by up to 12%. Meanwhile, by leveraging feedback messages and reusing failed predictions, Self-Debugging notably improves sample efficiency, and can match or outperform baseline models that generate more than 10x candidate programs.

 

대형 언어 모델(LLM)은 코드에서 인상적인 성능을 달성했다 시대. 그러나 복잡한 프로그래밍 작업의 경우 올바른 생성 솔루션을 한 번에 해결하는 것은 어려워지고, 그래서 몇몇 이전 작업들은 설계했다 코드 생성 성능을 개선하기 위한 프로그램 복구 접근 방식. 이 작품에서, 우리는 그것을 디버깅하기 위해 큰 언어 모델을 가르치는 Self-Debugging을 제안한다 퓨샷 데모를 통해 예측된 프로그램. 특히, 우리는 시범을 보인다 셀프 디버깅은 큰 언어 모델에게 고무 오리를 수행하도록 가르칠 수 있다 디버깅(즉, 코드 정확성 또는 오류에 대한 피드백 없음) 메시지, 모델은 설명을 통해 실수를 식별할 수 있다 자연어로 생성된 코드입니다. 자가 디버깅은 다음과 같은 이점을 제공합니다 다음을 포함한 여러 코드 생성 벤치마크에서 최첨단 성능을 발휘합니다 텍스트-SQL 생성을 위한 스파이더 데이터 세트, C++-Python용 TransCoder 텍스트에서 파이썬으로 생성하기 위한 MBPP를 제공합니다. 스파이더 벤치마크에서 예측의 정확성을 검증하기 위한 단위 검정이 없는 경우, 코드 설명을 포함한 자체 디버깅은 다음과 같이 기준선을 지속적으로 개선합니다 2-3%, 가장 어려운 레이블의 문제에 대한 예측 정확도 향상 9%. 유닛 테스트가 가능한 TransCoder 및 MBPP에서 자체 디버깅 기준 정확도가 최대 12% 향상됩니다. 한편, 피드백을 활용하여 메시지 및 실패한 예측 재사용, 자가 디버깅은 샘플을 특히 향상시킵니다 효율성, 그리고 다음 이상을 생성하는 기본 모델과 일치하거나 능가할 수 있습니다 10배의 후보 프로그램. 

 

 

반응형

댓글