본문 바로가기
오늘의 자연어 처리

[2023-02-08] 오늘의 자연어처리

by 지환이아빠 2023. 2. 8.
반응형

Controllable Lexical Simplification for English

 

Fine-tuning Transformer-based approaches have recently shown exciting results on sentence simplification task. However, so far, no research has applied similar approaches to the Lexical Simplification (LS) task. In this paper, we present ConLS, a Controllable Lexical Simplification system fine-tuned with T5 (a Transformer-based model pre-trained with a BERT-style approach and several other tasks). The evaluation results on three datasets (LexMTurk, BenchLS, and NNSeval) have shown that our model performs comparable to LSBert (the current state-of-the-art) and even outperforms it in some cases. We also conducted a detailed comparison on the effectiveness of control tokens to give a clear view of how each token contributes to the model.

 

최근 트랜스포머 기반 접근 방식의 미세 조정이 흥미로운 결과를 보여주었습니다 문장 단순화 작업에 대해 설명합니다. 그러나 지금까지 어떤 연구도 적용되지 않았다 어휘 단순화(LS) 작업에 대한 유사한 접근 방식. 이 논문에서, 우리는 T5로 미세 조정된 제어 가능한 어휘 단순화 시스템인 ConLS를 제시한다 (BERT 스타일 접근 방식으로 사전 훈련된 트랜스포머 기반 모델과 여러 가지 기타 작업). 3개의 데이터셋(LexMTurk, BenchLS 및 NNSeval)은 우리 모델이 LSBert(현재)와 비슷한 성능을 발휘한다는 것을 보여주었다 심지어 어떤 경우에는 그것을 능가하기도 한다. 우리는 또한 실시했다 명확한 보기를 제공하기 위해 제어 토큰의 효과에 대한 자세한 비교 각 토큰이 모델에 어떻게 기여하는지에 대해 설명합니다. 

 

 

A New cross-domain strategy based XAI models for fake news detection

 

In this study, we presented a four-level cross-domain strategy for fake news detection on pre-trained models. Cross-domain text classification is a task of a model adopting a target domain by using the knowledge of the source domain. Explainability is crucial in understanding the behaviour of these complex models. A fine-tune BERT model is used to. perform cross-domain classification with several experiments using datasets from different domains. Explanatory models like Anchor, ELI5, LIME and SHAP are used to design a novel explainable approach to cross-domain levels. The experimental analysis has given an ideal pair of XAI models on different levels of cross-domain.

 

본 연구에서는 가짜뉴스에 대한 4단계 교차 도메인 전략을 제시하였다 사전 훈련된 모델에 대한 탐지. 교차 도메인 텍스트 분류는 다음과 같은 작업이다 소스 도메인의 지식을 사용하여 대상 도메인을 채택하는 모델. 설명 가능성은 이러한 복합체의 행동을 이해하는 데 중요하다 모델. BERT 모델은 교차 도메인 분류를 수행하는 데 사용된다 서로 다른 도메인의 데이터 세트를 사용하는 여러 실험으로. 설명 Anchor, ELI5, LIME 및 SHAP과 같은 모델은 설명 가능한 소설을 설계하는 데 사용됩니다 도메인 간 수준에 대한 접근 방식입니다. 실험적인 분석은 이상을 주었다 서로 다른 수준의 교차 도메인에 있는 XAI 모델 쌍. 

 

 

Nationality Bias in Text Generation

 

Little attention is placed on analyzing nationality bias in language models, especially when nationality is highly used as a factor in increasing the performance of social NLP models. This paper examines how a text generation model, GPT-2, accentuates pre-existing societal biases about country-based demonyms. We generate stories using GPT-2 for various nationalities and use sensitivity analysis to explore how the number of internet users and the country's economic status impacts the sentiment of the stories. To reduce the propagation of biases through large language models (LLM), we explore the debiasing method of adversarial triggering. Our results show that GPT-2 demonstrates significant bias against countries with lower internet users, and adversarial triggering effectively reduces the same.

 

언어 모델에서 국적 편향을 분석하는 데는 거의 주의를 기울이지 않는다, 특히 국적이 증가하는 요인으로 많이 사용될 때 소셜 NLP 모델의 성능. 이 문서는 텍스트 생성 방법을 검토합니다 GPT-2 모델은 국가 기반에 대한 기존의 사회적 편견을 강조한다 부인의 이름. 우리는 다양한 국적과 사용을 위해 GPT-2를 사용하여 스토리를 생성한다 어떻게 인터넷 사용자의 수와 인터넷 사용자의 수를 탐구하기 위한 민감도 분석 국가의 경제적 지위는 이야기의 정서에 영향을 미친다. 을 줄이기 위해 큰 언어 모델(LLM)을 통한 편견의 전파, 우리는 다음을 탐구한다 적대적 트리거링의 편향을 제거하는 방법. 우리의 결과는 GPT-2가 인터넷 사용자가 낮은 국가에 대한 상당한 편견을 보여준다 적대적 트리거링은 효과적으로 동일한 것을 감소시킨다. 

 

 

반응형

댓글