본문 바로가기
오늘의 자연어 처리

[2023-08-06] 오늘의 자연어처리

by 지환이아빠 2023. 8. 6.
반응형

NBIAS: A Natural Language Processing Framework for Bias Identification in Text

 

Bias in textual data can lead to skewed interpretations and outcomes when the data is used. These biases could perpetuate stereotypes, discrimination, or other forms of unfair treatment. An algorithm trained on biased data ends up making decisions that disproportionately impact a certain group of people. Therefore, it is crucial to detect and remove these biases to ensure the fair and ethical use of data. To this end, we develop a comprehensive and robust framework \textsc{Nbias} that consists of a data layer, corpus contruction, model development layer and an evaluation layer. The dataset is constructed by collecting diverse data from various fields, including social media, healthcare, and job hiring portals. As such, we applied a transformer-based token classification model that is able to identify bias words/ phrases through a unique named entity. In the assessment procedure, we incorporate a blend of quantitative and qualitative evaluations to gauge the effectiveness of our models. We achieve accuracy improvements ranging from 1% to 8% compared to baselines. We are also able to generate a robust understanding of the model functioning, capturing not only numerical data but also the quality and intricacies of its performance. The proposed approach is applicable to a variety of biases and contributes to the fair and ethical use of textual data.

 

텍스트 데이터의 편향은 다음과 같은 경우에 왜곡된 해석과 결과를 초래할 수 있다 데이터가 사용됩니다. 이러한 편견은 고정관념, 차별, 또는 다른 형태의 부당한 대우. 편향된 데이터에 대해 훈련된 알고리즘은 결국 특정 집단의 사람들에게 불균형적으로 영향을 미치는 결정을 내리는 것. 따라서 공정성을 보장하기 위해서는 이러한 편견을 감지하고 제거하는 것이 중요하다 데이터의 윤리적 사용. 이를 위해 포괄적이고 강력한 제품을 개발합니다 데이터 계층, 말뭉치 구성, 모델 개발 계층 및 평가 계층. 데이터 세트는 다음과 같이 구성됩니다 소셜 미디어를 포함한 다양한 분야에서 다양한 데이터를 수집하고, 의료, 그리고 일자리 채용 포털. 이와 같이, 우리는 변압기 기반을 적용했다 편향 단어/구를 식별할 수 있는 토큰 분류 모델 고유의 이름을 가진 개체. 평가 절차에서, 우리는 다음의 혼합물을 포함한다 우리의 효과를 측정하기 위한 양적 및 질적 평가 모형. 우리는 정확도를 1%에서 8%까지 향상시켰다 기준선. 또한 모델에 대한 강력한 이해를 창출할 수 있습니다 기능, 수치 데이터뿐만 아니라 품질 및 그 수행의 복잡성. 제안된 접근 방식은 A에 적용할 수 있다 다양한 편향과 텍스트 데이터의 공정하고 윤리적인 사용에 기여합니다. 

 

 

NBIAS: A Natural Language Processing Framework for Bias Identification in Text

 

Bias in textual data can lead to skewed interpretations and outcomes when the data is used. These biases could perpetuate stereotypes, discrimination, or other forms of unfair treatment. An algorithm trained on biased data ends up making decisions that disproportionately impact a certain group of people. Therefore, it is crucial to detect and remove these biases to ensure the fair and ethical use of data. To this end, we develop a comprehensive and robust framework \textsc{Nbias} that consists of a data layer, corpus contruction, model development layer and an evaluation layer. The dataset is constructed by collecting diverse data from various fields, including social media, healthcare, and job hiring portals. As such, we applied a transformer-based token classification model that is able to identify bias words/ phrases through a unique named entity. In the assessment procedure, we incorporate a blend of quantitative and qualitative evaluations to gauge the effectiveness of our models. We achieve accuracy improvements ranging from 1% to 8% compared to baselines. We are also able to generate a robust understanding of the model functioning, capturing not only numerical data but also the quality and intricacies of its performance. The proposed approach is applicable to a variety of biases and contributes to the fair and ethical use of textual data.

 

텍스트 데이터의 편향은 다음과 같은 경우에 왜곡된 해석과 결과를 초래할 수 있다 데이터가 사용됩니다. 이러한 편견은 고정관념, 차별, 또는 다른 형태의 부당한 대우. 편향된 데이터에 대해 훈련된 알고리즘은 결국 특정 집단의 사람들에게 불균형적으로 영향을 미치는 결정을 내리는 것. 따라서 공정성을 보장하기 위해서는 이러한 편견을 감지하고 제거하는 것이 중요하다 데이터의 윤리적 사용. 이를 위해 포괄적이고 강력한 제품을 개발합니다 데이터 계층, 말뭉치 구성, 모델 개발 계층 및 평가 계층. 데이터 세트는 다음과 같이 구성됩니다 소셜 미디어를 포함한 다양한 분야에서 다양한 데이터를 수집하고, 의료, 그리고 일자리 채용 포털. 이와 같이, 우리는 변압기 기반을 적용했다 편향 단어/구를 식별할 수 있는 토큰 분류 모델 고유의 이름을 가진 개체. 평가 절차에서, 우리는 다음의 혼합물을 포함한다 우리의 효과를 측정하기 위한 양적 및 질적 평가 모형. 우리는 정확도를 1%에서 8%까지 향상시켰다 기준선. 또한 모델에 대한 강력한 이해를 창출할 수 있습니다 기능, 수치 데이터뿐만 아니라 품질 및 그 수행의 복잡성. 제안된 접근 방식은 A에 적용할 수 있다 다양한 편향과 텍스트 데이터의 공정하고 윤리적인 사용에 기여합니다. 

 

 

Many-to-Many Spoken Language Translation via Unified Speech and Text Representation Learning with Unit-to-Unit Translation

 

In this paper, we propose a method to learn unified representations of multilingual speech and text with a single model, especially focusing on the purpose of speech synthesis. We represent multilingual speech audio with speech units, the quantized representations of speech features encoded from a self-supervised speech model. Therefore, we can focus on their linguistic content by treating the audio as pseudo text and can build a unified representation of speech and text. Then, we propose to train an encoder-decoder structured model with a Unit-to-Unit Translation (UTUT) objective on multilingual data. Specifically, by conditioning the encoder with the source language token and the decoder with the target language token, the model is optimized to translate the spoken language into that of the target language, in a many-to-many language translation setting. Therefore, the model can build the knowledge of how spoken languages are comprehended and how to relate them to different languages. A single pre-trained model with UTUT can be employed for diverse multilingual speech- and text-related tasks, such as Speech-to-Speech Translation (STS), multilingual Text-to-Speech Synthesis (TTS), and Text-to-Speech Translation (TTST). By conducting comprehensive experiments encompassing various languages, we validate the efficacy of the proposed method across diverse multilingual tasks. Moreover, we show UTUT can perform many-to-many language STS, which has not been previously explored in the literature. Samples are available on this https URL.

 

본 논문에서, 우리는 통합 표현을 학습하는 방법을 제안한다 특히 단일 모델로 다국어 음성과 텍스트를 사용합니다 음성 합성의 목적. 우리는 음성과 함께 다국어 음성 오디오를 나타낸다 단위, a에서 인코딩된 음성 특징의 양자화된 표현 자기 지도 음성 모델. 그러므로, 우리는 그들의 언어에 집중할 수 있다 오디오를 의사 텍스트로 취급하여 통합을 구축할 수 있는 콘텐츠 말과 글의 표현. 그런 다음, 우리는 인코더-디코더를 훈련시킬 것을 제안한다 유닛 간 변환(UTUT) 목표를 가진 구조화된 모델 다국어 자료. 특히, 소스로 인코더를 컨디셔닝함으로써 언어 토큰과 대상 언어 토큰이 있는 디코더, 모델은 음성 언어를 대상 언어의 것으로 변환하도록 최적화되었습니다 다대다 언어 번역 환경. 따라서 모델은 다음을 구축할 수 있습니다 구어가 어떻게 이해되고 그것들을 어떻게 연관시키는지에 대한 지식 서로 다른 언어. UTUT를 사용하여 사전 훈련된 단일 모델을 사용할 수 있습니다 음성 대 음성과 같은 다양한 다국어 음성 및 텍스트 관련 작업 번역(STS), 다국어 텍스트 음성 합성(TTS) 및 텍스트 음성 변환(TTST). 포괄적인 실험을 수행함으로써 다양한 언어를 포함하여, 우리는 제안된 방법의 효과를 검증한다 다양한 다국어 작업을 수행할 수 있습니다. 게다가, 우리는 UTUT가 수행할 수 있다는 것을 보여준다 다대다 언어 STS는 이전에 조사되지 않았다 문학. 샘플은 이 https URL에서 사용할 수 있습니다. 

 

 

반응형

댓글