본문 바로가기
오늘의 자연어 처리

[2023-10-27] 오늘의 자연어처리

by 지환이아빠 2023. 10. 27.
반응형

DISCO: A Large Scale Human Annotated Corpus for Disfluency Correction in Indo-European Languages

 

Disfluency correction (DC) is the process of removing disfluent elements like fillers, repetitions and corrections from spoken utterances to create readable and interpretable text. DC is a vital post-processing step applied to Automatic Speech Recognition (ASR) outputs, before subsequent processing by downstream language understanding tasks. Existing DC research has primarily focused on English due to the unavailability of large-scale open-source datasets. Towards the goal of multilingual disfluency correction, we present a high-quality human-annotated DC corpus covering four important Indo-European languages: English, Hindi, German and French. We provide extensive analysis of results of state-of-the-art DC models across all four languages obtaining F1 scores of 97.55 (English), 94.29 (Hindi), 95.89 (German) and 92.97 (French). To demonstrate the benefits of DC on downstream tasks, we show that DC leads to 5.65 points increase in BLEU scores on average when used in conjunction with a state-of-the-art Machine Translation (MT) system. We release code to run our experiments along with our annotated dataset here.

 

불연속성 보정(DC)은 다음과 같은 불연속적인 요소를 제거하는 과정이다 읽을 수 있도록 하기 위한 말에서 필러, 반복 및 수정 그리고 해석 가능한 텍스트. DC는 Automatic(자동)에 적용되는 중요한 후처리 단계입니다 다운스트림에 의한 후속 처리 전의 음성 인식(ASR) 출력 언어 이해 과제. 기존 DC 연구는 주로 다음에 초점을 맞춰왔다 대규모 오픈 소스 데이터셋을 사용할 수 없기 때문에 영어. 향해서 다국어 유창성 보정의 목표, 우리는 고품질을 제시한다 네 가지 중요한 인도유럽어족 언어를 포괄하는 인간 주해 DC 코퍼스이다: 영어, 힌디어, 독일어, 프랑스어. 우리는 다음의 결과에 대한 광범위한 분석을 제공한다 4개 언어에 걸친 최첨단 DC 모델의 F1 점수 획득 영어 97.55 (영어), 94.29 (힌디어), 95.89 (독일어), 92.97 (프랑스어) 순이었다. 로. 다운스트림 작업에 대한 DC의 이점을 입증합니다. DC가 다음으로 이어짐을 보여줍니다 A와 함께 사용했을 때 BLEU 점수는 평균 5.65점 상승한다 최첨단 기계 번역(MT) 시스템. 우리는 코드를 풀어서 우리의 것을 실행한다 여기에 주석이 달린 데이터 세트와 함께 실험을 수행합니다. 

 

 

On the Interplay between Fairness and Explainability

 

In order to build reliable and trustworthy NLP applications, models need to be both fair across different demographics and explainable. Usually these two objectives, fairness and explainability, are optimized and/or examined independently of each other. Instead, we argue that forthcoming, trustworthy NLP systems should consider both. In this work, we perform a first study to understand how they influence each other: do fair(er) models rely on more plausible rationales? and vice versa. To this end, we conduct experiments on two English multi-class text classification datasets, BIOS and ECtHR, that provide information on gender and nationality, respectively, as well as human-annotated rationales. We fine-tune pre-trained language models with several methods for (i) bias mitigation, which aims to improve fairness; (ii) rationale extraction, which aims to produce plausible explanations. We find that bias mitigation algorithms do not always lead to fairer models. Moreover, we discover that empirical fairness and explainability are orthogonal.

 

신뢰할 수 있고 신뢰할 수 있는 NLP 애플리케이션을 구축하기 위해 모델은 다음과 같은 작업을 수행해야 합니다 다양한 인구 통계에 걸쳐 공정하고 설명 가능하다. 보통 이 둘이 목표, 공정성 및 설명 가능성을 최적화하고/또는 검토한다 서로 독립적으로. 대신에, 우리는 곧, 신뢰할 수 있다고 주장한다 NLP 시스템은 두 가지를 모두 고려해야 한다. 이 작업에서 우리는 첫번째 연구를 수행한다 그들이 어떻게 서로에게 영향을 미치는지 이해하라: 모델들이 더 많이 의존하는가 그럴듯한 이성? 그리고 역도 성립. 이를 위해 우리는 다음과 같은 실험을 실시한다 두 개의 영어 멀티 클래스 텍스트 분류 데이터 세트, BIOS 및 ECtHR 성별과 국적에 관한 정보를 각각 제공한다 인간과 annotated의 이성. 우리는 사전에 훈련된 언어 모델을 미세 조정한다 공정성 향상을 목표로 하는 (i) 편향 완화를 위한 몇 가지 방법들; (ii) 설득력 있는 설명을 제공하는 것을 목표로 하는 논리적 추출. 우리는 찾는다 편향 완화 알고리즘이 항상 더 공정한 모델로 이어지는 것은 아니다. 게다가. 우리는 경험적 공정성과 설명가능성이 서로 수직이라는 것을 발견한다. 

 

 

BabyStories: Can Reinforcement Learning Teach Baby Language Models to Write Better Stories?

 

Language models have seen significant growth in the size of their corpus, leading to notable performance improvements. Yet, there has been limited progress in developing models that handle smaller, more human-like datasets. As part of the BabyLM shared task, this study explores the impact of reinforcement learning from human feedback (RLHF) on language models pretrained from scratch with a limited training corpus. Comparing two GPT-2 variants, the larger model performs better in storytelling tasks after RLHF fine-tuning. These findings suggest that RLHF techniques may be more advantageous for larger models due to their higher learning and adaptation capacity, though more experiments are needed to confirm this finding. These insights highlight the potential benefits of RLHF fine-tuning for language models within limited data, enhancing their ability to maintain narrative focus and coherence while adhering better to initial instructions in storytelling tasks. The code for this work is publicly at this https URL.

 

언어 모델은 말뭉치의 크기에 있어서 상당한 성장을 보였다, 눈에 띄는 성능 개선으로 이어집니다. 그러나 제한적이었다 더 작고 더 인간과 유사한 데이터 세트를 처리하는 모델을 개발하는 데 진전이 있습니다. ~하듯이 아기의 일부LM 공유과제, 본 연구는 보강의 영향을 탐색한다 처음부터 미리 훈련된 언어 모델에 대한 인간 피드백(RLHF) 학습 제한된 훈련용 말뭉치로. 두 GPT-2 변형을 비교해보면, 더 큰 모델이다 RLHF 미세 조정 후 스토리텔링 작업에서 더 나은 성능을 발휘합니다. 이 결과는 RLHF 기법이 더 큰 모델에 더 유리할 수 있음을 시사한다 더 많은 실험들이 있지만, 그들의 더 높은 학습과 적응 능력은 이 발견을 확인할 필요가 있었어요. 이러한 통찰력은 잠재적인 이점을 강조합니다 제한된 데이터 내에서 언어 모델을 위해 RLHF 미세 조정을 수행함으로써 그들의 이야기의 초점과 일관성을 유지하는 동시에 더 잘 고수할 수 있는 능력 스토리텔링 작업의 첫 번째 지시 사항. 이 작품의 코드는 공개적이다 이 https URL에서. 

 

 

반응형

댓글