Data-Efficient Strategies for Expanding Hate Speech Detection into Under-Resourced Languages
Hate speech is a global phenomenon, but most hate speech datasets so far focus on English-language content. This hinders the development of more effective hate speech detection models in hundreds of languages spoken by billions across the world. More data is needed, but annotating hateful content is expensive, time-consuming and potentially harmful to annotators. To mitigate these issues, we explore data-efficient strategies for expanding hate speech detection into under-resourced languages. In a series of experiments with mono- and multilingual models across five non-English languages, we find that 1) a small amount of target-language fine-tuning data is needed to achieve strong performance, 2) the benefits of using more such data decrease exponentially, and 3) initial fine-tuning on readily-available English data can partially substitute target-language data and improve model generalisability. Based on these findings, we formulate actionable recommendations for hate speech detection in low-resource language settings.
헤이트 스피치는 세계적인 현상이지만, 지금까지 대부분의 헤이트 스피치 데이터 세트는 헤이트 스피치 영어 내용에 초점을 맞추다 이것은 더 많은 것의 개발을 방해한다. 수백 개의 언어로 된 효과적인 혐오 발언 탐지 모델 전 세계의 수십억 달러 더 많은 데이터가 필요하지만 혐오 콘텐츠에 주석을 달기 비용이 많이 들고 시간이 많이 소요되며 주석자에게 잠재적으로 유해할 수 있습니다. 완화하기 위해 이러한 문제들, 우리는 혐오 표현을 확장하기 위한 데이터 효율적인 전략을 탐구한다. 자원이 부족한 언어로 탐지합니다. 모노를 이용한 일련의 실험에서... 그리고 영어가 아닌 5개 언어에 걸친 다국어 모델, 우리는 1) a. 소량의 목표 언어 미세 조정 데이터가 있어야 강력한 성능을 달성할 수 있다. 성능, 2) 이러한 데이터를 더 많이 사용하는 이점은 기하급수적으로 감소합니다. 그리고 3) 쉽게 이용할 수 있는 영어 데이터에 대한 초기 미세 조정은 부분적으로 가능하다. 대상 언어 데이터를 대체하고 모델 일반성을 개선합니다. 에 기반을 둔 이러한 결과, 우리는 혐오 발언에 대한 실행 가능한 권고안을 공식화한다. 낮은 리소스 언어 설정에서 탐지합니다.
Meeting Decision Tracker: Making Meeting Minutes with De-Contextualized Utterances
Meetings are a universal process to make decisions in business and project collaboration. The capability to automatically itemize the decisions in daily meetings allows for extensive tracking of past discussions. To that end, we developed Meeting Decision Tracker, a prototype system to construct decision items comprising decision utterance detector (DUD) and decision utterance rewriter (DUR). We show that DUR makes a sizable contribution to improving the user experience by dealing with utterance collapse in natural conversation. An introduction video of our system is also available at this https URL.
미팅은 비즈니스 및 프로젝트에서 의사 결정을 내리는 보편적인 프로세스입니다. 공동 작업 매일 자동으로 의사 결정을 항목화하는 기능 회의를 통해 과거 토론을 광범위하게 추적할 수 있습니다. 그러기 위해서. 의사 결정 구성을 위한 프로토타입 시스템인 미팅 의사 결정 추적기 개발 의사 결정 발성 검출기(DUD) 및 의사 결정 발성으로 구성된 항목 재작성자(DUR) 우리는 DUR가 개선하는데 상당한 기여를 한다는 것을 보여준다. 자연스러운 대화에서 발화의 붕괴를 다루는 사용자 경험. 안 우리 시스템의 소개 비디오는 또한 다음에서 이용할 수 있다. 이 https URL.
Choose Your Lenses: Flaws in Gender Bias Evaluation
Considerable efforts to measure and mitigate gender bias in recent years have led to the introduction of an abundance of tasks, datasets, and metrics used in this vein. In this position paper, we assess the current paradigm of gender bias evaluation and identify several flaws in it. First, we highlight the importance of extrinsic bias metrics that measure how a model's performance on some task is affected by gender, as opposed to intrinsic evaluations of model representations, which are less strongly connected to specific harms to people interacting with systems. We find that only a few extrinsic metrics are measured in most studies, although more can be measured. Second, we find that datasets and metrics are often coupled, and discuss how their coupling hinders the ability to obtain reliable conclusions, and how one may decouple them. We then investigate how the choice of the dataset and its composition, as well as the choice of the metric, affect bias measurement, finding significant variations across each of them. Finally, we propose several guidelines for more reliable gender bias evaluation.
최근 몇 년간 성별 편향을 측정하고 완화하기 위한 상당한 노력이 있었다. 다양한 작업, 데이터 세트 및 측정 기준을 도입했습니다. 이 정맥 이 포지션 논문에서, 우리는 성별의 현재 패러다임을 평가한다. 평가를 편향시키고 그것의 몇 가지 결점을 식별한다. 먼저, 우리는 그것을 강조한다. 모델의 성능을 측정하는 외부 편향 메트릭의 중요성 모델에 대한 본질적인 평가와 반대로 일부 작업은 성별에 의해 영향을 받는다. 사람에 대한 특정 해악과 덜 강하게 연결된 표현 시스템과 상호 작용합니다. 우리는 몇 가지 외부 지표만 더 많이 측정할 수 있지만 대부분의 연구에서 측정되었습니다. 둘째, 우리는 다음을 발견한다. 데이터 세트 및 메트릭은 종종 결합되고, 결합이 어떻게 방해되는지 논의한다. 신뢰할 수 있는 결론을 얻을 수 있는 능력, 그리고 어떻게 그것들을 분리할 수 있는지. 우리가 그런 다음 데이터 세트의 선택과 그 구성을 조사합니다. 메트릭의 선택, 치우침 측정에 영향을 미치고 유의한 것을 발견함 각각에 걸친 변형. 마지막으로, 우리는 더 많은 것을 위한 몇 가지 지침을 제안한다. 신뢰할 수 있는 성 편견 평가
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-10-24] 오늘의 자연어처리 (0) | 2022.10.24 |
---|---|
[2022-10-23] 오늘의 자연어처리 (0) | 2022.10.23 |
[2022-10-22] 오늘의 자연어처리 (0) | 2022.10.22 |
[2022-10-21] 오늘의 자연어처리 (0) | 2022.10.21 |
[2022-10-20] 오늘의 자연어처리 (0) | 2022.10.20 |
댓글