본문 바로가기
오늘의 자연어 처리

[2023-06-04] 오늘의 자연어처리

by 지환이아빠 2023. 6. 4.
반응형

In-Context Learning User Simulators for Task-Oriented Dialog Systems

 

This paper presents a novel application of large language models in user simulation for task-oriented dialog systems, specifically focusing on an in-context learning approach. By harnessing the power of these models, the proposed approach generates diverse utterances based on user goals and limited dialog examples. Unlike traditional simulators, this method eliminates the need for labor-intensive rule definition or extensive annotated data, making it more efficient and accessible. Additionally, an error analysis of the interaction between the user simulator and dialog system uncovers common mistakes, providing valuable insights into areas that require improvement. Our implementation is available at this https URL.

 

이 논문은 사용자에게 큰 언어 모델의 새로운 응용을 제시한다 작업 지향적인 대화 시스템을 위한 시뮬레이션, 특히 초점을 맞춘다 교내 학습 접근법. 이러한 모델의 힘을 활용함으로써 제안된 접근법은 사용자 목표와 제한된 목표를 기반으로 다양한 발언을 생성한다 대화 상자 예제. 기존의 시뮬레이터와 달리 이 방법을 사용하면 노동 집약적인 규칙 정의 또는 광범위한 주석이 달린 데이터의 경우, 보다 효율적인 효율적이고 접근하기 쉽다. 교호작용의 오류 분석 사용자 시뮬레이터와 대화 시스템 사이에서 일반적인 실수를 발견한다, 개선이 필요한 분야에 대한 귀중한 통찰력을 제공합니다. 우리들의 구현은 다음 사이트에서 사용할 수 있습니다 이 https URL. 

 

 

TopEx: Topic-based Explanations for Model Comparison

 

Meaningfully comparing language models is challenging with current explanation methods. Current explanations are overwhelming for humans due to large vocabularies or incomparable across models. We present TopEx, an explanation method that enables a level playing field for comparing language models via model-agnostic topics. We demonstrate how TopEx can identify similarities and differences between DistilRoBERTa and GPT-2 on a variety of NLP tasks.

 

언어 모델을 의미 있게 비교하는 것은 현재로서는 어렵다 설명 방법. 현재의 설명은 인간에게 압도적이다 여러 모델에 걸쳐 비교할 수 없는 큰 어휘. 우리는 TopEx, 즉 언어 비교를 위한 공정한 경기장을 가능하게 하는 설명 방법 모델에 구애받지 않는 주제를 통한 모델. 우리는 TopEx가 어떻게 식별할 수 있는지 시연합니다 다양한 분야에서 DistilRoBERTa와 GPT-2 사이의 유사점과 차이점 NLP 작업. 

 

 

Modeling and Analyzing Scorer Preferences in Short-Answer Math Questions

 

Automated scoring of student responses to open-ended questions, including short-answer questions, has great potential to scale to a large number of responses. Recent approaches for automated scoring rely on supervised learning, i.e., training classifiers or fine-tuning language models on a small number of responses with human-provided score labels. However, since scoring is a subjective process, these human scores are noisy and can be highly variable, depending on the scorer. In this paper, we investigate a collection of models that account for the individual preferences and tendencies of each human scorer in the automated scoring task. We apply these models to a short-answer math response dataset where each response is scored (often differently) by multiple different human scorers. We conduct quantitative experiments to show that our scorer models lead to improved automated scoring accuracy. We also conduct quantitative experiments and case studies to analyze the individual preferences and tendencies of scorers. We found that scorers can be grouped into several obvious clusters, with each cluster having distinct features, and analyzed them in detail.

 

다음을 포함한 개방형 질문에 대한 학생 응답 자동 점수 매기기 단답형 질문, 많은 수로 확장할 수 있는 큰 잠재력을 가지고 있다 반응들. 자동 채점을 위한 최근의 접근 방식은 지도 학습에 의존한다, 즉, 소수의 언어 모델에 대한 교육 분류자 또는 미세 조정 사람이 제공한 점수 레이블을 사용한 응답입니다. 하지만, 득점이 있기 때문에 주관적인 과정, 이러한 인간 점수는 시끄럽고 매우 가변적일 수 있다, 득점자에 따라서. 이 논문에서, 우리는 일련의 모델들을 조사한다 각 인간 득점자의 개별 선호도와 경향을 설명하는 것 자동 스코어링 태스크에서. 우리는 이러한 모델을 단답형 수학에 적용한다 각 반응이 여러 개로 점수를 매기는 반응 데이터 세트 다른 점수를 매긴 사람들. 우리는 정량적 실험을 수행하여 우리의 득점자 모델은 자동 득점 정확도를 향상시킨다. 우리는 또한 진행한다 개별 선호도를 분석하기 위한 정량적 실험과 사례 연구 그리고 점수를 매기는 사람들의 성향. 우리는 점수를 매기는 사람들을 여러 개로 분류할 수 있다는 것을 발견했다 명확한 클러스터, 각 클러스터가 서로 다른 기능을 가지고 있으며, 이를 분석했습니다 낱낱이. 

 

 

반응형

댓글