본문 바로가기
오늘의 자연어 처리

[2023-09-29] 오늘의 자연어처리

by 지환이아빠 2023. 9. 29.
반응형

How We Define Harm Impacts Data Annotations: Explaining How Annotators Distinguish Hateful, Offensive, and Toxic Comments

 

Abstract:Computational social science research has made advances in machine learning and natural language processing that support content moderators in detecting harmful content. These advances often rely on training datasets annotated by crowdworkers for harmful content. In designing instructions for annotation tasks to generate training data for these algorithms, researchers often treat the harm concepts that we train algorithms to detect - 'hateful', 'offensive', 'toxic', 'racist', 'sexist', etc. - as interchangeable. In this work, we studied whether the way that researchers define 'harm' affects annotation outcomes. Using Venn diagrams, information gain comparisons, and content analyses, we reveal that annotators do not use the concepts 'hateful', 'offensive', and 'toxic' interchangeably. We identify that features of harm definitions and annotators' individual characteristics explain much of how annotators use these terms differently. Our results offer empirical evidence discouraging the common practice of using harm concepts interchangeably in content moderation research. Instead, researchers should make specific choices about which harm concepts to analyze based on their research goals. Recognizing that researchers are often resource constrained, we also encourage researchers to provide information to bound their findings when their concepts of interest differ from concepts that off-the-shelf harmful content detection algorithms identify. Finally, we encourage algorithm providers to ensure their instruments can adapt to contextually-specific content detection goals (e.g., soliciting instrument users' feedback).

 

초록:컴퓨터 사회 과학 연구는 유해한 콘텐츠를 감지하는 콘텐츠 조절자를 지원하는 기계 학습과 자연어 처리의 발전을 이루었다. 이러한 발전은 종종 크라우드 워커가 유해한 콘텐츠에 대해 주석을 단 훈련 데이터 세트에 의존한다. 이러한 알고리듬에 대한 훈련 데이터를 생성하기 위한 주석 작업에 대한 지침을 설계할 때 연구자들은 종종 우리가 탐지하기 위해 알고리듬을 훈련시키는 위해 개념 - '혐오', '공격', '독성', '인종차별', '성차별' 등 - 을 상호 교환 가능한 것으로 취급한다. 본 연구에서는 연구자들이 '해'를 정의하는 방식이 주석 결과에 영향을 미치는지 연구하였다. 벤 다이어그램, 정보 이득 비교 및 내용 분석을 사용하여 주석자가 '혐오', '공세', '독성' 개념을 서로 교환하여 사용하지 않음을 밝힌다. 우리는 유해성 정의와 주석자의 개별 특성의 특징이 주석자가 이러한 용어를 어떻게 다르게 사용하는지를 설명한다는 것을 식별한다. 우리의 결과는 콘텐츠 조절 연구에서 유해 개념을 서로 교환하여 사용하는 일반적인 관행을 좌절시키는 경험적 증거를 제공한다. 대신 연구자들은 연구목표를 바탕으로 어떤 유해개념을 분석할 것인지 구체적인 선택을 해야 한다. 연구자들이 종종 자원 제약을 받는다는 것을 인식하여, 우리는 또한 연구자들의 관심 개념이 기성 유해 콘텐츠 감지 알고리듬이 식별하는 개념과 다를 때 연구자들이 그들의 연구 결과를 제한하기 위한 정보를 제공하도록 권장한다. 마지막으로, 우리는 알고리즘 제공자들이 그들의 도구가 상황별 콘텐츠 감지 목표(예: 도구 사용자의 피드백 요청)에 적응할 수 있도록 보장하도록 권장한다. 

 

 

Enhancing End-to-End Conversational Speech Translation Through Target Language Context Utilization

 

Abstract:Incorporating longer context has been shown to benefit machine translation, but the inclusion of context in end-to-end speech translation (E2E-ST) remains under-studied. To bridge this gap, we introduce target language context in E2E-ST, enhancing coherence and overcoming memory constraints of extended audio segments. Additionally, we propose context dropout to ensure robustness to the absence of context, and further improve performance by adding speaker information. Our proposed contextual E2E-ST outperforms the isolated utterance-based E2E-ST approach. Lastly, we demonstrate that in conversational speech, contextual information primarily contributes to capturing context style, as well as resolving anaphora and named entities.

 

초록:더 긴 컨텍스트를 통합하는 것은 기계 번역에 도움이 되는 것으로 나타났지만, E2E-ST(end-to-end speech translation)에 컨텍스트를 포함하는 것은 아직 연구가 부족하다. 이러한 차이를 해소하기 위해 E2E-ST에서 목표 언어 컨텍스트를 도입하여 일관성을 강화하고 확장된 오디오 세그먼트의 메모리 제약을 극복한다. 또한 컨텍스트의 부재에 대한 강건성을 보장하고, 스피커 정보를 추가하여 성능을 더욱 향상시키기 위해 컨텍스트 드롭 아웃을 제안한다. 우리가 제안한 상황별 E2E-ST는 고립된 발화 기반 E2E-ST 접근 방식을 능가한다. 마지막으로, 우리는 대화 연설에서 문맥 정보가 주로 문맥 스타일을 포착하고 아포라와 명명된 개체를 해결하는 데 기여한다는 것을 보여준다. 

 

 

Cross-Modal Multi-Tasking for Speech-to-Text Translation via Hard Parameter Sharing

 

Abstract:Recent works in end-to-end speech-to-text translation (ST) have proposed multi-tasking methods with soft parameter sharing which leverage machine translation (MT) data via secondary encoders that map text inputs to an eventual cross-modal representation. In this work, we instead propose a ST/MT multi-tasking framework with hard parameter sharing in which all model parameters are shared cross-modally. Our method reduces the speech-text modality gap via a pre-processing stage which converts speech and text inputs into two discrete token sequences of similar length -- this allows models to indiscriminately process both modalities simply using a joint vocabulary. With experiments on MuST-C, we demonstrate that our multi-tasking framework improves attentional encoder-decoder, Connectionist Temporal Classification (CTC), transducer, and joint CTC/attention models by an average of +0.5 BLEU without any external MT data. Further, we show that this framework incorporates external MT data, yielding +0.8 BLEU, and also improves transfer learning from pre-trained textual models, yielding +1.8 BLEU.

 

초록:종단 간 음성 대 텍스트 변환(ST)의 최근 연구는 텍스트 입력을 궁극적인 교차 모드 표현에 매핑하는 보조 인코더를 통해 기계 번역(MT) 데이터를 활용하는 소프트 매개 변수 공유를 가진 다중 작업 방법을 제안했다. 본 연구에서는 대신 모든 모델 매개 변수가 교차 모드로 공유되는 하드 매개 변수 공유를 가진 ST/MT 다중 작업 프레임워크를 제안한다. 우리의 방법은 음성 및 텍스트 입력을 유사한 길이의 두 개의 이산 토큰 시퀀스로 변환하는 사전 처리 단계를 통해 음성-텍스트 양식 격차를 줄인다. 이를 통해 모델은 단순히 공동 어휘를 사용하여 두 양식을 모두 무분별하게 처리할 수 있다. MuST-C에 대한 실험을 통해, 우리는 우리의 멀티태스킹 프레임워크가 외부 MT 데이터 없이 주의 인코더-디코더, 연결주의 시간 분류(CTC), 변환기 및 공동 CTC/주의 모델을 평균 +0.5 BLEU 향상시킨다는 것을 보여준다. 또한 이 프레임워크는 외부 MT 데이터를 통합하여 +0.8 BLEU를 산출하고 사전 훈련된 텍스트 모델의 전송 학습을 향상시켜 +1.8 BLEU를 산출한다는 것을 보여준다. 

 

 

반응형

댓글