CAMELL: Confidence-based Acquisition Model for Efficient Self-supervised Active Learning with Label Validation
Abstract:Supervised neural approaches are hindered by their dependence on large, meticulously annotated datasets, a requirement that is particularly cumbersome for sequential tasks. The quality of annotations tends to deteriorate with the transition from expert-based to crowd-sourced labelling. To address these challenges, we present \textbf{CAMELL} (Confidence-based Acquisition Model for Efficient self-supervised active Learning with Label validation), a pool-based active learning framework tailored for sequential multi-output problems. CAMELL possesses three core features: (1) it requires expert annotators to label only a fraction of a chosen sequence, (2) it facilitates self-supervision for the remainder of the sequence, and (3) it employs a label validation mechanism to prevent erroneous labels from contaminating the dataset and harming model performance. We evaluate CAMELL on sequential tasks, with a special emphasis on dialogue belief tracking, a task plagued by the constraints of limited and noisy datasets. Our experiments demonstrate that CAMELL outperforms the baselines in terms of efficiency. Furthermore, the data corrections suggested by our method contribute to an overall improvement in the quality of the resulting datasets.
초록:감독된 신경 접근 방식은 순차 작업에 특히 번거로운 요구 사항인 크고 꼼꼼하게 주석이 달린 데이터 세트에 대한 의존성으로 인해 방해를 받는다. 주석의 품질은 전문가 기반에서 크라우드 소싱 라벨링으로 전환됨에 따라 악화되는 경향이 있다. 이러한 과제를 해결하기 위해 순차적 다중 출력 문제에 맞게 조정된 풀 기반 능동 학습 프레임워크인 \textbf{CAMELL}(레이블 검증을 통한 효율적인 자기 감독 능동 학습을 위한 신뢰 기반 획득 모델)을 제시한다. CAMELL은 세 가지 핵심 기능을 가지고 있다. (1) 전문가 주석자가 선택한 시퀀스의 일부에만 레이블을 지정해야 하며, (2) 시퀀스의 나머지 부분에 대한 자체 감독을 용이하게 하며, (3) 잘못된 레이블이 데이터 세트를 오염시키고 모델 성능을 손상시키지 않도록 레이블 검증 메커니즘을 사용한다. 우리는 제한적이고 시끄러운 데이터 세트의 제약으로 인해 어려움을 겪는 작업인 대화 신념 추적에 특별히 중점을 두고 순차적 작업에 대해 CAMELL을 평가한다. 우리의 실험은 CAMELL이 효율성 측면에서 기준선을 능가한다는 것을 보여준다. 또한, 우리의 방법이 제안한 데이터 수정은 결과 데이터 세트의 품질을 전반적으로 개선하는 데 기여한다.
PromptRE: Weakly-Supervised Document-Level Relation Extraction via Prompting-Based Data Programming
Abstract:Relation extraction aims to classify the relationships between two entities into pre-defined categories. While previous research has mainly focused on sentence-level relation extraction, recent studies have expanded the scope to document-level relation extraction. Traditional relation extraction methods heavily rely on human-annotated training data, which is time-consuming and labor-intensive. To mitigate the need for manual annotation, recent weakly-supervised approaches have been developed for sentence-level relation extraction while limited work has been done on document-level relation extraction. Weakly-supervised document-level relation extraction faces significant challenges due to an imbalanced number "no relation" instances and the failure of directly probing pretrained large language models for document relation extraction. To address these challenges, we propose PromptRE, a novel weakly-supervised document-level relation extraction method that combines prompting-based techniques with data programming. Furthermore, PromptRE incorporates the label distribution and entity types as prior knowledge to improve the performance. By leveraging the strengths of both prompting and data programming, PromptRE achieves improved performance in relation classification and effectively handles the "no relation" problem. Experimental results on ReDocRED, a benchmark dataset for document-level relation extraction, demonstrate the superiority of PromptRE over baseline approaches.
초록:관계 추출은 두 개체 간의 관계를 미리 정의된 범주로 분류하는 것을 목표로 한다. 기존의 연구가 주로 문장 수준의 관계 추출에 초점을 맞추어왔다면, 최근의 연구들은 문서 수준의 관계 추출로 범위를 확장하고 있다. 전통적인 관계 추출 방법은 시간과 노동 집약적인 인간이 주석을 단 훈련 데이터에 크게 의존한다. 수동 주석의 필요성을 완화하기 위해 문서 수준 관계 추출에 대한 제한적인 작업이 수행된 반면 문장 수준 관계 추출에 대한 최근의 약한 감독 방식이 개발되었다. 약하게 감독되는 문서 수준의 관계 추출은 불균형한 수의 "관계 없음" 인스턴스와 문서 관계 추출을 위해 사전 훈련된 대형 언어 모델을 직접 탐색하지 못하기 때문에 상당한 어려움에 직면한다. 이러한 문제를 해결하기 위해, 우리는 프롬프트 기반 기법과 데이터 프로그래밍을 결합한 새로운 약한 감독 문서 수준의 관계 추출 방법인 PromptRE를 제안한다. 또한 PromptRE는 성능 향상을 위해 사전 지식으로 레이블 분포와 엔티티 유형을 통합한다. PromptRE는 프롬프트와 데이터 프로그래밍의 장점을 모두 활용하여 관계 분류에서 향상된 성능을 달성하고 "관계 없음" 문제를 효과적으로 처리한다. 문서 수준 관계 추출을 위한 벤치마크 데이터 세트인 ReDocRED에 대한 실험 결과는 기준 접근 방식에 비해 PromptRE의 우수성을 보여준다.
PuoBERTa: Training and evaluation of a curated language model for Setswana
Abstract:Natural language processing (NLP) has made significant progress for well-resourced languages such as English but lagged behind for low-resource languages like Setswana. This paper addresses this gap by presenting PuoBERTa, a customised masked language model trained specifically for Setswana. We cover how we collected, curated, and prepared diverse monolingual texts to generate a high-quality corpus for PuoBERTa's training. Building upon previous efforts in creating monolingual resources for Setswana, we evaluated PuoBERTa across several NLP tasks, including part-of-speech (POS) tagging, named entity recognition (NER), and news categorisation. Additionally, we introduced a new Setswana news categorisation dataset and provided the initial benchmarks using PuoBERTa. Our work demonstrates the efficacy of PuoBERTa in fostering NLP capabilities for understudied languages like Setswana and paves the way for future research directions.
초록:자연어 처리(NLP)는 영어와 같은 자원이 풍부한 언어에서는 상당한 발전을 이루었지만 셋츠와나와 같은 자원이 적은 언어에서는 뒤쳐졌다. 본 논문은 Setswana를 위해 특별히 훈련된 맞춤형 마스크 언어 모델인 PuoBERTA를 제시함으로써 이러한 격차를 해결한다. PuoB를 위한 고품질 코퍼스를 생성하기 위해 다양한 단일 언어 텍스트를 수집하고, 큐레이션하고, 준비한 방법을 다룬다ERTA의 훈련. Setswana를 위한 단일 언어 자원을 생성하기 위한 이전의 노력을 바탕으로, 우리는 품사(POS) 태깅, 명명된 개체 인식(NER) 및 뉴스 분류를 포함한 여러 NLP 작업 전반에 걸쳐 PuoBERTA를 평가했다. 또한 새로운 Setswana 뉴스 분류 데이터 세트를 도입하고 PuoBERTA를 사용한 초기 벤치마크를 제공했다. 우리의 연구는 Setswana와 같은 연구되지 않은 언어에 대한 NLP 기능을 육성하는 PuoBERTA의 효과를 입증하고 향후 연구 방향의 길을 개척한다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-10-19] 오늘의 자연어처리 (0) | 2023.10.19 |
---|---|
[2023-10-18] 오늘의 자연어처리 (1) | 2023.10.18 |
[2023-10-16] 오늘의 자연어처리 (0) | 2023.10.16 |
[2023-10-15] 오늘의 자연어처리 (0) | 2023.10.15 |
[2023-10-14] 오늘의 자연어처리 (1) | 2023.10.14 |
댓글