본문 바로가기
오늘의 자연어 처리

[2023-06-17] 오늘의 자연어처리

by 지환이아빠 2023. 6. 17.
반응형

Can Language Models Teach Weaker Agents? Teacher Explanations Improve Students via Theory of Mind

 

Large Language Models (LLMs) perform complex reasoning by generating explanations for their predictions. However, a complementary goal of explanations is to also communicate useful knowledge that improves weaker agents. Hence, we investigate whether LLMs also make good teachers for weaker agents. In particular, we consider a student-teacher framework between two LLM agents and study if, when, and how the teacher should intervene with natural language explanations to improve the student's performance. Since communication is expensive, we define a budget such that the teacher only communicates explanations for a fraction of the data, after which the student should perform well on its own. We decompose the teaching problem along four axes: (1) if teacher's test time intervention improve student predictions, (2) when it is worth explaining a data point, (3) how the teacher should personalize explanations to better teach the student, and (4) if teacher explanations also improve student performance on future unexplained data. We first show that teacher LLMs can indeed intervene on student reasoning to improve their performance. Next, we propose a Theory of Mind approach, in which the teacher builds two few-shot mental models of the student. The first model defines an Intervention Function that simulates the utility of an intervention, allowing the teacher to intervene when this utility is the highest and improving student performance at lower budgets. The second model enables the teacher to personalize explanations for a particular student and outperform unpersonalized teachers. We also demonstrate that in multi-turn interactions, teacher explanations generalize and learning from explained data improves student performance on future unexplained data. Finally, we also verify that misaligned teachers can lower student performance to random chance by intentionally misleading them.

 

LLM(Large Language Model)은 생성을 통해 복잡한 추론을 수행한다 그들의 예측에 대한 설명. 그러나, 다음의 보완적인 목표 설명은 또한 더 약하게 개선하는 유용한 지식을 전달하는 것이다 그래서 우리는 LLM이 약자를 위한 좋은 선생님이 될 수 있는지 조사한다 에이전트. 특히, 우리는 두 LLM 사이의 학생-교사 프레임워크를 고려한다 대리인들과 선생님이 자연에 개입해야 하는지, 언제, 어떻게 해야 하는지 연구한다 학생의 성적을 향상시키기 위한 언어 설명. 커뮤니케이션 이후 비용이 많이 들고, 우리는 선생님이 의사소통만 할 수 있도록 예산을 정의한다 학생이 수행해야 하는 데이터의 일부에 대한 설명 그 자체로. 우리는 4개의 축을 따라 교수 문제를 분해한다: (1) 만약 선생님의 시험 시간 개입은 학생들의 예측을 향상시킨다, (2)일 때 데이터 포인트를 설명할 가치가 있다, (3) 선생님이 어떻게 개인화해야 하는지 학생을 더 잘 가르치기 위한 설명, 그리고 (4) 만약 선생님의 설명 또한 미래의 설명되지 않은 데이터에 대한 학생들의 성과를 향상시킨다. 우리는 먼저 그것을 보여준다 교사 LLM은 학생들의 추론에 개입하여 그들의 능력을 향상시킬 수 있다 성능. 다음으로, 우리는 선생님이 하는 마음의 이론 접근법을 제안한다 학생의 정신적인 모델을 두 개 만들어요. 첫 번째 모델은 다음을 정의합니다 개입의 유용성을 시뮬레이션하는 개입 기능, 허용 이 효용이 가장 높고 발전하는 학생일 때 개입할 선생님 더 낮은 예산으로 수행할 수 있습니다. 두 번째 모델은 선생님이 할 수 있게 해준다 특정 학생에 대한 설명을 개인화하고 개인화되지 않은 설명을 능가하다 선생님들. 우리는 또한 다회전 상호작용에서 선생님이 설명 일반화하고 설명된 데이터로부터 배우는 것은 학생을 향상시킨다 미래의 설명되지 않은 데이터에 대한 성능. 마지막으로, 우리는 또한 잘못 정렬된 것을 확인한다 선생님들은 학생들의 성적을 의도적으로 무작위적인 기회로 낮출 수 있다 그들을 오도하는 것. 

 

 

KUCST at CheckThat 2023: How good can we be with a generic model?

 

In this paper we present our method for tasks 2 and 3A at the CheckThat2023 shared task. We make use of a generic approach that has been used to tackle a diverse set of tasks, inspired by authorship attribution and profiling. We train a number of Machine Learning models and our results show that Gradient Boosting performs the best for both tasks. Based on the official ranking provided by the shared task organizers, our model shows an average performance compared to other teams.

 

이 논문에서 우리는 CheckThat2023에서 과제 2와 3A에 대한 방법을 제시한다 공유 작업입니다. 우리는 다음과 같은 문제를 해결하기 위해 사용된 일반적인 접근 방식을 사용한다 저자 속성 및 프로파일링에서 영감을 얻은 다양한 작업 세트. 우리가 많은 기계 학습 모델을 훈련시키고 우리의 결과는 그레이디언트를 보여준다 부스팅은 두 작업 모두에 대해 최상의 성능을 발휘합니다. 공식 순위 기준 공유 작업 주최자가 제공하는 모델은 평균 성능을 보여줍니다 다른 팀들과 비교했을 때. 

 

 

Rethinking Document-Level Relation Extraction: A Reality Check

 

Recently, numerous efforts have continued to push up performance boundaries of document-level relation extraction (DocRE) and have claimed significant progress in DocRE. In this paper, we do not aim at proposing a novel model for DocRE. Instead, we take a closer look at the field to see if these performance gains are actually true. By taking a comprehensive literature review and a thorough examination of popular DocRE datasets, we find that these performance gains are achieved upon a strong or even untenable assumption in common: all named entities are perfectly localized, normalized, and typed in advance. Next, we construct four types of entity mention attacks to examine the robustness of typical DocRE models by behavioral probing. We also have a close check on model usability in a more realistic setting. Our findings reveal that most of current DocRE models are vulnerable to entity mention attacks and difficult to be deployed in real-world end-user NLP applications. Our study calls more attentions for future research to stop simplifying problem setups, and to model DocRE in the wild rather than in an unrealistic Utopian world.

 

최근 성능 한계를 높이기 위한 수많은 노력이 계속되고 있습니다 문서 수준 관계 추출(DocRE) 및 중요한 주장 DocRE에서 진행 중입니다. 이 논문에서, 우리는 다음을 위한 새로운 모델을 제안하는 것을 목표로 하지 않는다 DocRE. 대신에, 우리는 이 분야를 자세히 살펴봄으로써 이러한 성능이 이득은 사실이다. 종합적인 문헌 검토를 통해 인기 있는 DocRE 데이터 세트의 철저한 검사, 우리는 이러한 성능을 발견했다 이득은 공통적으로 강력하거나 심지어 지지할 수 없는 가정에 의해 달성된다: 모두 명명된 엔티티는 완벽하게 현지화되고 정규화되며 미리 입력됩니다. 다음 분. 우리는 견고성을 조사하기 위해 네 가지 유형의 엔티티 언급 공격을 구성한다 동작 탐색에 의한 일반적인 DocRE 모델. 우리는 또한 모델에 대해 면밀한 확인을 하고 있다 보다 현실적인 환경에서의 유용성. 우리의 연구 결과는 현재의 대부분이 DocRE 모델은 엔티티 언급 공격에 취약하고 실행하기 어렵다 실제 최종 사용자 NLP 애플리케이션에 배포됩니다. 우리의 연구는 더 많은 것을 요구한다 문제 설정을 단순화하는 것을 중단하고 모델링하기 위한 향후 연구에 대한 관심 비현실적인 유토피아 세계보다는 야생에 있는 DocRE. 

 

 

반응형

댓글