Large scale analysis of gender bias and sexism in song lyrics
We employ Natural Language Processing techniques to analyse 377808 English song lyrics from the "Two Million Song Database" corpus, focusing on the expression of sexism across five decades (1960-2010) and the measurement of gender biases. Using a sexism classifier, we identify sexist lyrics at a larger scale than previous studies using small samples of manually annotated popular songs. Furthermore, we reveal gender biases by measuring associations in word embeddings learned on song lyrics. We find sexist content to increase across time, especially from male artists and for popular songs appearing in Billboard charts. Songs are also shown to contain different language biases depending on the gender of the performer, with male solo artist songs containing more and stronger biases. This is the first large scale analysis of this type, giving insights into language usage in such an influential part of popular culture.
우리는 377808 영어를 분석하기 위해 자연어 처리 기술을 사용한다. "200만 곡 데이터베이스" 말뭉치의 노래 가사. 50년에 걸친 성차별의 표현과 측정 성차별 성차별적 분류기를 사용하여, 우리는 성차별적 가사를 더 크게 식별한다. 수동으로 주석을 단 인기 있는 작은 샘플을 사용한 이전 연구보다 확장 게다가, 우리는 단어의 연관성을 측정함으로써 성별 편견을 드러낸다. 노래 가사에 대해 배운 임베딩 우리는 성차별적인 내용이 증가한다는 것을 발견한다. 특히 남성 아티스트들로부터 그리고 빌보드에 등장하는 인기곡들에 대한 시간 차트. 노래들은 또한 다른 언어 편향을 포함하는 것으로 보여진다. 남성 솔로 아티스트의 노래와 함께 연주자의 성별은 더 많은 것을 포함하고 있다. 더 강한 편견 이것은 이 유형의 첫 번째 대규모 분석입니다. 대중문화의 영향력 있는 부분에서 언어 사용에 대한 통찰력
Efficient Fine-Tuning of Compressed Language Models with Learners
Fine-tuning BERT-based models is resource-intensive in memory, computation, and time. While many prior works aim to improve inference efficiency via compression techniques, e.g., pruning, these works do not explicitly address the computational challenges of training to downstream tasks. We introduce Learner modules and priming, novel methods for fine-tuning that exploit the overparameterization of pre-trained language models to gain benefits in convergence speed and resource utilization. Learner modules navigate the double bind of 1) training efficiently by fine-tuning a subset of parameters, and 2) training effectively by ensuring quick convergence and high metric scores. Our results on DistilBERT demonstrate that learners perform on par with or surpass the baselines. Learners train 7x fewer parameters than state-of-the-art methods on GLUE. On CoLA, learners fine-tune 20% faster, and have significantly lower resource utilization.
BERT 기반 모델의 미세 조정은 메모리, 계산, 그리고 그리고 시간. 많은 선행 연구는 다음을 통해 추론 효율성을 향상시키는 것을 목표로 한다. 압축 기술, 예를 들어 가지치기, 이러한 작업은 명시적으로 다루지 않는다. 다운스트림 작업에 대한 훈련의 계산 과제 소개한다. 학습자 모듈 및 프라이밍, 미세 조정을 위한 새로운 방법 사전 훈련된 언어 모델의 과도한 매개 변수화를 통해 다음과 같은 이점을 얻는다. 컨버전스 속도 및 리소스 활용률. 학습자 모듈이 이중으로 탐색 1) 매개 변수의 하위 집합을 미세 조정하여 효율적으로 훈련하는 바인드, 2) 빠른 수렴과 높은 메트릭 점수를 보장함으로써 효과적으로 훈련할 수 있습니다. 우리들의 DistilB에 대한 결과ERT는 학습자가 동등 이상의 성능을 발휘함을 보여줍니다. 베이스라인 학습자가 최첨단 방법보다 7배 적은 매개 변수 교육 접착제로 CoLA에서 학습자는 20% 더 빠르게 미세 조정하고 훨씬 더 낮게 조정 리소스 활용도
N-best Response-based Analysis of Contradiction-awareness in Neural Response Generation Models
Avoiding the generation of responses that contradict the preceding context is a significant challenge in dialogue response generation. One feasible method is post-processing, such as filtering out contradicting responses from a resulting n-best response list. In this scenario, the quality of the n-best list considerably affects the occurrence of contradictions because the final response is chosen from this n-best list. This study quantitatively analyzes the contextual contradiction-awareness of neural response generation models using the consistency of the n-best lists. Particularly, we used polar questions as stimulus inputs for concise and quantitative analyses. Our tests illustrate the contradiction-awareness of recent neural response generation models and methodologies, followed by a discussion of their properties and limitations.
앞의 문맥과 모순되는 반응의 생성을 피하는 것은 대화 응답 생성의 중요한 과제. 실현 가능한 방법 중 하나는 결과에서 모순되는 응답을 필터링하는 것과 같은 사후 처리 n-최적 반응 리스트. 이 시나리오에서 n-best 목록의 품질 최종적인 것은 모순의 발생에 상당히 영향을 준다. n-best 목록에서 반응이 선택됩니다. 이 연구는 정량적으로 분석한다. 신경 반응 생성 모델의 문맥적 모순 분석 n-best 목록의 일관성을 사용합니다. 특히, 우리는 극지를 사용했다. 간결하고 정량적인 분석을 위한 자극 입력으로 질문을 한다. 우리의 테스트 최근의 신경 반응 생성의 모순을 설명한다. 모델 및 방법론, 그리고 그 특성에 대한 토론이 뒤따른다. 한계
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-08-07] 오늘의 자연어처리 (0) | 2022.08.07 |
---|---|
[2022-08-07] 오늘의 자연어처리 (0) | 2022.08.07 |
[2022-08-07] 오늘의 자연어처리 (0) | 2022.08.07 |
[2022-08-07] 오늘의 자연어처리 (0) | 2022.08.07 |
[2022-08-07] 오늘의 자연어처리 (0) | 2022.08.07 |
댓글