본문 바로가기
오늘의 자연어 처리

[2023-09-07] 오늘의 자연어처리

by 지환이아빠 2023. 9. 7.
반응형

On the Challenges of Building Datasets for Hate Speech Detection

 

Detection of hate speech has been formulated as a standalone application of NLP and different approaches have been adopted for identifying the target groups, obtaining raw data, defining the labeling process, choosing the detection algorithm, and evaluating the performance in the desired setting. However, unlike other downstream tasks, hate speech suffers from the lack of large-sized, carefully curated, generalizable datasets owing to the highly subjective nature of the task. In this paper, we first analyze the issues surrounding hate speech detection through a data-centric lens. We then outline a holistic framework to encapsulate the data creation pipeline across seven broad dimensions by taking the specific example of hate speech towards sexual minorities. We posit that practitioners would benefit from following this framework as a form of best practice when creating hate speech datasets in the future.

 

혐오 발언의 탐지는 독립적인 적용으로 공식화되었다 표적을 식별하기 위해 NLP 및 다양한 접근법이 채택되었다 그룹, 원시 데이터 획득, 레이블링 공정 정의, 선택 검출 알고리즘, 그리고 원하는 설정에서 성능을 평가한다. 그러나, 다른 다운스트림 작업과는 달리, 혐오 발언은 부족함으로 인해 어려움을 겪는다 매우 높은 성능으로 인해 대규모로 신중하게 큐레이션되고 일반화 가능한 데이터 세트 그 일의 주관적 성격. 본 논문에서는 먼저 이슈를 분석한다 데이터 중심의 렌즈를 통해 혐오 발언을 탐지할 수 있습니다. 그 다음에 우리는 개요를 설명한다 7개에 걸친 데이터 생성 파이프라인을 캡슐화하는 전체적인 프레임워크 성적 혐오 발언의 구체적인 예를 들어 광범위한 차원 소수 민족. 우리는 실무자들이 이것을 따르는 것으로부터 이익을 얻을 것이라고 생각한다 프레임 워크는 헤이트 스피치 데이터셋을 만들 때 베스트 프랙티스의 한 형태이다 미래. 

 

 

Promoting Open-domain Dialogue Generation through Learning Pattern Information between Contexts and Responses

 

Recently, utilizing deep neural networks to build the opendomain dialogue models has become a hot topic. However, the responses generated by these models suffer from many problems such as responses not being contextualized and tend to generate generic responses that lack information content, damaging the user's experience seriously. Therefore, many studies try introducing more information into the dialogue models to make the generated responses more vivid and informative. Unlike them, this paper improves the quality of generated responses by learning the implicit pattern information between contexts and responses in the training samples. In this paper, we first build an open-domain dialogue model based on the pre-trained language model (i.e., GPT-2). And then, an improved scheduled sampling method is proposed for pre-trained models, by which the responses can be used to guide the response generation in the training phase while avoiding the exposure bias problem. More importantly, we design a response-aware mechanism for mining the implicit pattern information between contexts and responses so that the generated replies are more diverse and approximate to human replies. Finally, we evaluate the proposed model (RAD) on the Persona-Chat and DailyDialog datasets; and the experimental results show that our model outperforms the baselines on most automatic and manual metrics.

 

최근에는 딥 뉴럴 네트워크를 활용하여 오픈 도메인 대화를 구축한다 모델들이 화제가 되고 있다. 그러나 이들 모델에 의해 생성된 반응은 반응이 문맥화되지 않고 경향이 있는 등 많은 문제를 겪는다 정보 내용이 부족한 일반적인 응답을 생성하여 피해를 입히다 사용자의 경험을 진지하게 생각합니다. 그러므로 많은 연구들이 더 많은 것을 소개하려고 노력한다 생성된 응답을 보다 생생하게 만들기 위해 대화 모델에 정보를 제공합니다 정보를 얻을 수 있습니다. 이 논문은 그들과 달리 생성 품질을 향상시킨다 문맥과 문맥 사이의 암시적 패턴 정보를 학습함으로써 응답합니다 교육 샘플의 응답. 본 논문에서는 먼저 오픈 도메인을 구축한다 사전 학습된 언어 모델(즉, GPT-2)에 기초한 대화 모델. 그리고 나서. 사전 훈련된 모델에 대해 개선된 예약 샘플링 방법이 제안됩니다 응답이 응답 생성을 유도하는 데 사용될 수 있는 응답입니다 노출 편향 문제를 피하면서 훈련 단계를 수행합니다. 더 중요한 건 저희가 암묵적 패턴 정보를 마이닝하기 위한 응답 인식 메커니즘을 설계하다 생성된 응답이 더 다양하도록 컨텍스트와 응답 사이에 인간의 반응에 가깝습니다. 마지막으로 제안된 모델(RAD)을 평가한다 페르소나 채팅 및 데일리 대화 데이터 세트에 대한 실험 결과는 다음과 같다 우리 모델이 대부분의 자동 및 수동 측정 기준을 능가한다는 것을 의미한다. 

 

 

Promoting Open-domain Dialogue Generation through Learning Pattern Information between Contexts and Responses

 

Recently, utilizing deep neural networks to build the opendomain dialogue models has become a hot topic. However, the responses generated by these models suffer from many problems such as responses not being contextualized and tend to generate generic responses that lack information content, damaging the user's experience seriously. Therefore, many studies try introducing more information into the dialogue models to make the generated responses more vivid and informative. Unlike them, this paper improves the quality of generated responses by learning the implicit pattern information between contexts and responses in the training samples. In this paper, we first build an open-domain dialogue model based on the pre-trained language model (i.e., GPT-2). And then, an improved scheduled sampling method is proposed for pre-trained models, by which the responses can be used to guide the response generation in the training phase while avoiding the exposure bias problem. More importantly, we design a response-aware mechanism for mining the implicit pattern information between contexts and responses so that the generated replies are more diverse and approximate to human replies. Finally, we evaluate the proposed model (RAD) on the Persona-Chat and DailyDialog datasets; and the experimental results show that our model outperforms the baselines on most automatic and manual metrics.

 

최근에는 딥 뉴럴 네트워크를 활용하여 오픈 도메인 대화를 구축한다 모델들이 화제가 되고 있다. 그러나 이들 모델에 의해 생성된 반응은 반응이 문맥화되지 않고 경향이 있는 등 많은 문제를 겪는다 정보 내용이 부족한 일반적인 응답을 생성하여 피해를 입히다 사용자의 경험을 진지하게 생각합니다. 그러므로 많은 연구들이 더 많은 것을 소개하려고 노력한다 생성된 응답을 보다 생생하게 만들기 위해 대화 모델에 정보를 제공합니다 정보를 얻을 수 있습니다. 이 논문은 그들과 달리 생성 품질을 향상시킨다 문맥과 문맥 사이의 암시적 패턴 정보를 학습함으로써 응답합니다 교육 샘플의 응답. 본 논문에서는 먼저 오픈 도메인을 구축한다 사전 학습된 언어 모델(즉, GPT-2)에 기초한 대화 모델. 그리고 나서. 사전 훈련된 모델에 대해 개선된 예약 샘플링 방법이 제안됩니다 응답이 응답 생성을 유도하는 데 사용될 수 있는 응답입니다 노출 편향 문제를 피하면서 훈련 단계를 수행합니다. 더 중요한 건 저희가 암묵적 패턴 정보를 마이닝하기 위한 응답 인식 메커니즘을 설계하다 생성된 응답이 더 다양하도록 컨텍스트와 응답 사이에 인간의 반응에 가깝습니다. 마지막으로 제안된 모델(RAD)을 평가한다 페르소나 채팅 및 데일리 대화 데이터 세트에 대한 실험 결과는 다음과 같다 우리 모델이 대부분의 자동 및 수동 측정 기준을 능가한다는 것을 의미한다. 

 

 

반응형

댓글