본문 바로가기
오늘의 자연어 처리

[2023-02-17] 오늘의 자연어처리

by 지환이아빠 2023. 2. 17.
반응형

Alloprof: a new French question-answer education dataset and its use in an information retrieval case study

 

Teachers and students are increasingly relying on online learning resources to supplement the ones provided in school. This increase in the breadth and depth of available resources is a great thing for students, but only provided they are able to find answers to their queries. Question-answering and information retrieval systems have benefited from public datasets to train and evaluate their algorithms, but most of these datasets have been in English text written by and for adults. We introduce a new public French question-answering dataset collected from Alloprof, a Quebec-based primary and high-school help website, containing 29 349 questions and their explanations in a variety of school subjects from 10 368 students, with more than half of the explanations containing links to other questions or some of the 2 596 reference pages on the website. We also present a case study of this dataset in an information retrieval task. This dataset was collected on the Alloprof public forum, with all questions verified for their appropriateness and the explanations verified both for their appropriateness and their relevance to the question. To predict relevant documents, architectures using pre-trained BERT models were fine-tuned and evaluated. This dataset will allow researchers to develop question-answering, information retrieval and other algorithms specifically for the French speaking education context. Furthermore, the range of language proficiency, images, mathematical symbols and spelling mistakes will necessitate algorithms based on a multimodal comprehension. The case study we present as a baseline shows an approach that relies on recent techniques provides an acceptable performance level, but more work is necessary before it can reliably be used and trusted in a production setting.

 

교사와 학생들이 온라인 학습 리소스에 점점 더 의존하고 있습니다 학교에서 제공하는 것들을 보충하기 위해. 이 폭의 증가와 이용 가능한 자원의 깊이는 학생들에게 훌륭한 것이지만, 오직 제공된다 그들은 그들의 질문에 대한 답을 찾을 수 있다. 질의응답 및 정보 검색 시스템은 훈련을 위해 공개 데이터 세트로부터 이익을 얻었다 그들의 알고리즘을 평가하지만, 이러한 데이터 세트의 대부분은 영어 텍스트였다 어른들을 위해 쓰여졌다. 우리는 새로운 공개 프랑스어 질의응답을 소개한다 퀘벡에 기반을 둔 초등학교 및 고등학교 도움말인 Alloprof에서 수집된 데이터 세트 29 349개의 질문과 다양한 설명을 포함하는 웹사이트 10368명의 학생들로부터 학교 과목들, 그리고 절반 이상의 설명들 다른 질문에 대한 링크 또는 의 2596 참조 페이지 중 일부를 포함합니다 웹 사이트. 우리는 또한 정보에서 이 데이터 세트의 사례 연구를 제시한다 검색 작업. 이 데이터 세트는 Alloprof 공개 포럼에서 수집되었습니다 모든 질문의 적절성을 검증하고 설명을 검증합니다 적절성과 질문과의 관련성 모두를 고려해야 합니다. 예측하기 관련 문서, 사전 훈련된 BERT 모델을 사용하는 아키텍처는 미세 조정되었다 평가했습니다. 이 데이터 세트는 연구자들이 개발할 수 있게 해줄 것이다 질문 검색, 정보 검색 및 기타 알고리즘을 특별히 지원합니다 프랑스어 회화 교육의 맥락. 게다가, 언어의 범위는 숙련도, 이미지, 수학적 기호, 철자 실수가 있을 것이다 멀티모달 이해에 기초한 알고리즘이 필요하다. 사례 연구 우리 기준으로 제시된 것은 최근 기술에 의존하는 접근법을 보여준다 허용 가능한 성능 수준을 제공하지만 그 전에 더 많은 작업이 필요합니다 운영 환경에서 안정적으로 사용하고 신뢰할 수 있습니다. 

 

 

Adding Instructions during Pretraining: Effective Way of Controlling Toxicity in Language Models

 

Pretrained large language models have become indispensable for solving various natural language processing (NLP) tasks. However, safely deploying them in real world applications is challenging because they generate toxic content. To address this challenge, we propose two novel pretraining data augmentation strategies that significantly reduce model toxicity without compromising its utility. Our two strategies are: (1) MEDA: adds raw toxicity score as meta-data to the pretraining samples, and (2) INST: adds instructions to those samples indicating their toxicity. Our results indicate that our best performing strategy (INST) substantially reduces the toxicity probability up to 61% while preserving the accuracy on five benchmark NLP tasks as well as improving AUC scores on four bias detection tasks by 1.3%. We also demonstrate the generalizability of our techniques by scaling the number of training samples and the number of model parameters.

 

사전에 훈련된 큰 언어 모델은 해결에 필수적인 것이 되었다 다양한 자연어 처리(NLP) 작업. 하지만, 안전하게 배포하기 실제 응용 프로그램은 독성 콘텐츠를 생성하기 때문에 어렵다. 이 과제를 해결하기 위해, 우리는 두 가지 새로운 사전 훈련 데이터 확대를 제안한다 모델 독성을 현저하게 감소시키는 전략 효용. 우리의 두 가지 전략은 (1) MEDA: 원시 독성 점수를 메타 데이터로 추가하는 것이다 (2) INST: 사전 교육 샘플에 지침을 추가합니다 그들의 독성을 나타내는 것. 우리의 결과는 우리의 최고의 성과를 보여준다 전략(INST)은 독성 확률을 최대 61%까지 크게 감소시킨다 5가지 벤치마크 NLP 작업의 정확성 유지 및 AUC 개선 4개의 편향 검출 과제에 대한 점수는 1.3%이다. 우리는 또한 시연한다 훈련 샘플의 수를 확장하여 기술의 일반화 가능성 및 모델 매개 변수의 수. 

 

 

Is ChatGPT better than Human Annotators? Potential and Limitations of ChatGPT in Explaining Implicit Hate Speech

 

Recent studies have alarmed that many online hate speeches are implicit. With its subtle nature, the explainability of the detection of such hateful speech has been a challenging problem. In this work, we examine whether ChatGPT can be used for providing natural language explanations (NLEs) for implicit hateful speech detection. We design our prompt to elicit concise ChatGPT-generated NLEs and conduct user studies to evaluate their qualities by comparison with human-generated NLEs. We discuss the potential and limitations of ChatGPT in the context of implicit hateful speech research.

 

최근의 연구들은 많은 온라인 혐오 발언들이 암시적이라는 것을 경고했다. 와 함께 그것의 미묘한 성질, 그러한 혐오스러운 말의 탐지의 설명 가능성 어려운 문제였다. 이 연구에서, 우리는 ChatGPT이 다음과 같을 수 있는지 여부를 조사한다 암묵적인 혐오에 대한 자연어 설명(NLE)을 제공하는 데 사용된다 음성 검출. 우리는 간결한 ChatGPT 생성 NLE를 도출하기 위한 프롬프트를 설계한다 그리고 그들의 품질을 비교하여 평가하기 위해 사용자 연구를 수행한다 인간이 만든 NLE. 우리는 ChatGPT의 잠재력과 한계에 대해 논의한다 암묵적인 혐오 발언 연구의 맥락. 

 

 

반응형

댓글