본문 바로가기
오늘의 자연어 처리

[2023-10-19] 오늘의 자연어처리

by 지환이아빠 2023. 10. 19.
반응형

Utilizing Weak Supervision To Generate Indonesian Conservation Dataset

 

Abstract:Weak supervision has emerged as a promising approach for rapid and large-scale dataset creation in response to the increasing demand for accelerated NLP development. By leveraging labeling functions, weak supervision allows practitioners to generate datasets quickly by creating learned label models that produce soft-labeled datasets. This paper aims to show how such an approach can be utilized to build an Indonesian NLP dataset from conservation news text. We construct two types of datasets: multi-class classification and sentiment classification. We then provide baseline experiments using various pretrained language models. These baseline results demonstrate test performances of 59.79% accuracy and 55.72% F1-score for sentiment classification, 66.87% F1-score-macro, 71.5% F1-score-micro, and 83.67% ROC-AUC for multi-class classification. Additionally, we release the datasets and labeling functions used in this work for further research and exploration.

 

초록:NLP 개발 가속화에 대한 수요 증가에 따라 취약한 감독이 신속하고 대규모 데이터 세트 생성을 위한 유망한 접근법으로 부상했다. 라벨링 기능을 활용하여 취약한 감독을 통해 실무자는 소프트 라벨이 부착된 데이터 세트를 생성하는 학습된 라벨 모델을 생성하여 데이터 세트를 신속하게 생성할 수 있다. 본 논문은 그러한 접근법이 보존 뉴스 텍스트로부터 인도네시아 NLP 데이터 세트를 구축하는 데 어떻게 활용될 수 있는지를 보여주는 것을 목표로 한다. 우리는 다중 클래스 분류와 감정 분류의 두 가지 유형의 데이터 세트를 구성한다. 그런 다음 다양한 사전 훈련된 언어 모델을 사용하여 기본 실험을 제공한다. 이러한 기준 결과는 감정 분류의 경우 59.79%의 정확도와 55.72%의 F1-점수, 66.87%의 F1-점수-거시, 71.5%의 F1-점수-마이크로, 83.67%의 ROC-AUC 테스트 성능을 보여준다. 또한 본 연구에서 사용된 데이터 세트 및 레이블링 기능을 추가적인 연구 및 탐색을 위해 공개한다. 

 

 

Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting

 

Abstract:As large language models (LLMs) are adopted as a fundamental component of language technologies, it is crucial to accurately characterize their performance. Because choices in prompt design can strongly influence model behavior, this design process is critical in effectively using any modern pre-trained generative language model. In this work, we focus on LLM sensitivity to a quintessential class of meaning-preserving design choices: prompt formatting. We find that several widely used open-source LLMs are extremely sensitive to subtle changes in prompt formatting in few-shot settings, with performance differences of up to 76 accuracy points when evaluated using LLaMA-2-13B. Sensitivity remains even when increasing model size, the number of few-shot examples, or performing instruction tuning. Our analysis suggests that work evaluating LLMs with prompting-based methods would benefit from reporting a range of performance across plausible prompt formats, instead of the currently-standard practice of reporting performance on a single format. We also show that format performance only weakly correlates between models, which puts into question the methodological validity of comparing models with an arbitrarily chosen, fixed prompt format. To facilitate systematic analysis we propose FormatSpread, an algorithm that rapidly evaluates a sampled set of plausible prompt formats for a given task, and reports the interval of expected performance without accessing model weights. Furthermore, we present a suite of analyses that characterize the nature of this sensitivity, including exploring the influence of particular atomic perturbations and the internal representation of particular formats.

 

초록:언어 기술의 기본 구성 요소로 대형 언어 모델(LLM)이 채택됨에 따라 이들의 성능을 정확하게 파악하는 것이 중요하다. 신속한 설계에서의 선택은 모델 행동에 강력한 영향을 미칠 수 있기 때문에, 이 설계 과정은 현대 사전 훈련된 생성 언어 모델을 효과적으로 사용하는 데 있어 매우 중요하다. 이 연구에서, 우리는 의미 보존 설계 선택의 본질적인 클래스인 신속한 형식에 대한 LLM 민감도에 초점을 맞춘다. 우리는 널리 사용되는 여러 오픈 소스 LLM이 LLAMA-2-13B를 사용하여 평가했을 때 최대 76개의 정확도 포인트의 성능 차이와 함께 퓨샷 설정에서 신속한 포맷의 미묘한 변화에 매우 민감하다는 것을 발견했다. 모델 크기를 늘리거나, 퓨샷 예제의 수를 늘리거나, 명령어 튜닝을 수행하는 경우에도 감도는 유지된다. 우리의 분석은 프롬프트 기반 방법으로 LLM을 평가하는 작업이 단일 형식으로 성능을 보고하는 현재 표준 관행 대신 그럴듯한 프롬프트 형식에 걸쳐 다양한 성능을 보고하는 데 도움이 될 것임을 시사한다. 우리는 또한 포맷 성능이 모델 간 상관관계가 약하다는 것을 보여주는데, 이는 임의로 선택된 고정된 프롬프트 형식과 모델을 비교하는 방법론적 타당성에 의문을 제기한다. 체계적인 분석을 용이하게 하기 위해 주어진 작업에 대해 샘플화된 그럴듯한 프롬프트 형식 집합을 신속하게 평가하고 모델 가중치에 액세스하지 않고 예상 성능의 간격을 보고하는 알고리듬인 FormatSpread를 제안한다. 또한 특정 원자 섭동의 영향과 특정 형식의 내부 표현을 탐구하는 것을 포함하여 이 민감도의 특성을 특징짓는 일련의 분석을 제시한다. 

 

 

Disentangling the Linguistic Competence of Privacy-Preserving BERT

 

Abstract:Differential Privacy (DP) has been tailored to address the unique challenges of text-to-text privatization. However, text-to-text privatization is known for degrading the performance of language models when trained on perturbed text. Employing a series of interpretation techniques on the internal representations extracted from BERT trained on perturbed pre-text, we intend to disentangle at the linguistic level the distortion induced by differential privacy. Experimental results from a representational similarity analysis indicate that the overall similarity of internal representations is substantially reduced. Using probing tasks to unpack this dissimilarity, we find evidence that text-to-text privatization affects the linguistic competence across several formalisms, encoding localized properties of words while falling short at encoding the contextual relationships between spans of words.

 

초록:DP(Differential Privacy)는 텍스트 간 사유화의 독특한 과제를 해결하기 위해 조정되었다. 그러나 텍스트 간 사유화는 교란된 텍스트를 훈련할 때 언어 모델의 성능을 저하시키는 것으로 알려져 있다. 교란된 사전 텍스트에 대해 훈련된 BERT에서 추출된 내부 표현에 대한 일련의 해석 기술을 사용하여, 우리는 차별적 프라이버시에 의해 유도된 왜곡을 언어적 수준에서 분리하고자 한다. 표현 유사성 분석의 실험 결과는 내부 표현의 전반적인 유사성이 상당히 감소함을 나타낸다. 이러한 유사성을 풀기 위해 탐색 작업을 사용하여 텍스트 간 사유화가 여러 형식주의에 걸쳐 언어적 역량에 영향을 미쳐 단어의 지역화된 특성을 인코딩하는 반면 단어의 범위 사이의 맥락적 관계를 인코딩하는 데는 부족하다는 증거를 발견한다. 

 

 

반응형

댓글