Learning to Reuse Distractors to support Multiple Choice Question Generation in Education
Multiple choice questions (MCQs) are widely used in digital learning systems, as they allow for automating the assessment process. However, due to the increased digital literacy of students and the advent of social media platforms, MCQ tests are widely shared online, and teachers are continuously challenged to create new questions, which is an expensive and time-consuming task. A particularly sensitive aspect of MCQ creation is to devise relevant distractors, i.e., wrong answers that are not easily identifiable as being wrong. This paper studies how a large existing set of manually created answers and distractors for questions over a variety of domains, subjects, and languages can be leveraged to help teachers in creating new MCQs, by the smart reuse of existing distractors. We built several data-driven models based on context-aware question and distractor representations, and compared them with static feature-based models. The proposed models are evaluated with automated metrics and in a realistic user test with teachers. Both automatic and human evaluations indicate that context-aware models consistently outperform a static feature-based approach. For our best-performing context-aware model, on average 3 distractors out of the 10 shown to teachers were rated as high-quality distractors. We create a performance benchmark, and make it public, to enable comparison between different approaches and to introduce a more standardized evaluation of the task. The benchmark contains a test of 298 educational questions covering multiple subjects & languages and a 77k multilingual pool of distractor vocabulary for future research.
객관식 문제(MCQ)는 디지털 학습 시스템에서 널리 사용된다. 평가 프로세스를 자동화할 수 있도록 지원합니다. 하지만, 그 때문에. 학생들의 디지털 사용능력 향상과 소셜 미디어의 출현 플랫폼, MCQ 테스트는 온라인에서 널리 공유되고, 선생님들은 지속적으로 비용이 많이 들고 시간이 많이 걸리는 새로운 질문을 만드는 데 어려움을 겪었습니다. 과제. MCQ 생성의 특히 민감한 측면은 관련성을 고안하는 것이다. 산만하게 만드는 것, 즉 존재한다고 쉽게 식별할 수 없는 오답. 틀렸습니다. 이 논문은 수동으로 생성된 대규모 기존 답변 집합을 연구합니다. 그리고 다양한 영역, 주제에 대한 질문에 대한 집중을 분산시킨다. 언어는 스마트에 의해 새로운 MCQ를 만드는 데 교사들을 돕기 위해 활용될 수 있다. 기존 주의 분산 장치의 재사용. 다음을 기반으로 여러 데이터 기반 모델을 구축했습니다. 문맥 인식 질문 및 산만자 표현, 그리고 그것들을 비교했다. 정적 기능 기반 모델 제안된 모델은 자동화된 방식으로 평가됩니다. 측정 기준과 교사와의 현실적인 사용자 테스트에서. 자동 및 인간 모두 평가는 문맥 인식 모델이 일관되게 정적보다 성능이 우수함을 나타낸다. 기능 기반 접근법 NAT의 최고 성능의 컨텍스트 인식 모델의 경우 평균적으로 교사들에게 보여진 10명 중 3명의 주의 산만함이 수준급으로 평가되었다. 산만하게 하는 사람 NAT은 성능 벤치마크를 생성하고 이를 공개하여 다른 접근법 간의 비교 및 보다 표준화된 도입 작업의 평가 벤치마크는 298개의 교육적 테스트를 포함합니다. 다양한 주제와 언어를 다루는 질문과 77,000개의 다국어 풀. 미래 연구를 위한 산만하거나 어휘.
Weakly Supervised Data Augmentation Through Prompting for Dialogue Understanding
Dialogue understanding tasks often necessitate abundant annotated data to achieve good performance and that presents challenges in low-resource settings. To alleviate this barrier, we explore few-shot data augmentation for dialogue understanding by prompting large pre-trained language models and present a novel approach that iterates on augmentation quality by applying weakly-supervised filters. We evaluate our methods on the emotion and act classification tasks in DailyDialog and the intent classification task in Facebook Multilingual Task-Oriented Dialogue. Models fine-tuned on our augmented data mixed with few-shot ground truth data are able to approach or surpass existing state-of-the-art performance on both datasets. For DailyDialog specifically, using 10% of the ground truth data we outperform the current state-of-the-art model which uses 100% of the data.
대화 이해 작업은 종종 주석이 달린 풍부한 데이터를 필요로 한다. 우수한 성능을 달성하고 저자원 환경에서 문제를 제기합니다. 이러한 장벽을 완화하기 위해, 우리는 대화를 위한 몇 번의 데이터 증대를 탐구한다. 사전 훈련된 대규모 언어 모델을 요청하여 이해하고 제시합니다. 적용함으로써 증강 품질을 반복하는 새로운 접근법 약하게 감독되는 필터 우리는 감정과 행동에 대한 우리의 방법을 평가한다. DailyDialog의 분류 작업 및 의 의도 분류 작업 Facebook 다국어 작업 지향 대화입니다. NAT에 맞게 미세 조정된 모델 퓨샷 지상 실측 자료와 혼합된 증강 데이터는 접근하거나 두 데이터 세트 모두에서 기존 최첨단 성능을 능가합니다. 일별 대화상자용 특히, 10%의 실제 데이터를 사용하여 현재보다 성능이 우수합니다. 데이터를 100% 사용하는 최신 모델
Referee: Reference-Free Sentence Summarization with Sharper Controllability through Symbolic Knowledge Distillation
We present Referee, a novel framework for sentence summarization that can be trained reference-free (i.e., requiring no gold summaries for supervision), while allowing direct control for compression ratio. Our work is the first to demonstrate that reference-free, controlled sentence summarization is feasible via the conceptual framework of Symbolic Knowledge Distillation (West et al., 2022), where latent knowledge in pre-trained language models is distilled via explicit examples sampled from the teacher models, further purified with three types of filters: length, fidelity, and Information Bottleneck. Moreover, we uniquely propose iterative distillation of knowledge, where student models from the previous iteration of distillation serve as teacher models in the next iteration. Starting off from a relatively modest set of GPT3-generated summaries, we demonstrate how iterative knowledge distillation can lead to considerably smaller, but better summarizers with sharper controllability. A useful by-product of this iterative distillation process is a high-quality dataset of sentence-summary pairs with varying degrees of compression ratios. Empirical results demonstrate that the final student models vastly outperform the much larger GPT3-Instruct model in terms of the controllability of compression ratios, without compromising the quality of resulting summarization.
우리는 다음과 같은 새로운 문장 요약 프레임워크인 심판을 제시한다. 교육을 받은 참조가 필요 없음(즉, 감독을 위한 골드 요약이 필요 없음) 압축 비율을 직접 제어할 수 있습니다. 우리의 일은 하는 첫 번째이다. 참조가 없고 통제된 문장 요약이 가능하다는 것을 입증한다. 기호 지식 증류(West et al., 2022), 사전 훈련된 언어 모델의 잠재 지식이 다음과 같이 증류된다. 교사 모델에서 샘플링된 명시적 예, 세 가지 방법으로 더욱 정제됨 필터 유형: 길이, 충실도 및 정보 병목 현상. 더군다나 우리는. 독특하게 반복적인 지식의 증류를 제안하며, 여기서 학생은 모델링을 한다. 이전의 증류의 반복은 다음에서 교사 모델로 작용한다. 반복 GPT3 생성의 비교적 수수한 집합에서 시작 요약, 우리는 반복적인 지식 증류가 어떻게 이어질 수 있는지 보여준다. 상당히 작지만 더 날카로운 제어 능력을 갖춘 더 나은 요약기. a 이 반복적인 증류 과정의 유용한 부산물은 고품질이다. 압축 비율이 다양한 문장-문장 쌍의 데이터 세트. 실험 결과는 최종 학생 모델이 훨씬 더 뛰어나다는 것을 보여준다. 제어 가능성 측면에서 훨씬 더 큰 GPT3-Instruct 모델 압축비, 결과 품질을 저하시키지 않고 요약
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-10-29] 오늘의 자연어처리 (0) | 2022.10.29 |
---|---|
[2022-10-28] 오늘의 자연어처리 (0) | 2022.10.28 |
[2022-10-26] 오늘의 자연어처리 (0) | 2022.10.26 |
[2022-10-25] 오늘의 자연어처리 (0) | 2022.10.25 |
[2022-10-24] 오늘의 자연어처리 (0) | 2022.10.24 |
댓글