Exploiting Representation Bias for Data Distillation in Abstractive Text Summarization
Abstract:Abstractive text summarization is surging with the number of training samples to cater to the needs of the deep learning models. These models tend to exploit the training data representations to attain superior performance by improving the quantitative element of the resultant summary. However, increasing the size of the training set may not always be the ideal solution to maximize the performance, and therefore, a need to revisit the quality of training samples and the learning protocol of deep learning models is a must. In this paper, we aim to discretize the vector space of the abstractive text summarization models to understand the characteristics learned between the input embedding space and the models' encoder space. We show that deep models fail to capture the diversity of the input space. Further, the distribution of data points on the encoder space indicates that an unchecked increase in the training samples does not add value; rather, a tear-down of data samples is highly needed to make the models focus on variability and faithfulness. We employ clustering techniques to learn the diversity of a model's sample space and how data points are mapped from the embedding space to the encoder space and vice versa. Further, we devise a metric to filter out redundant data points to make the model more robust and less data hungry. We benchmark our proposed method using quantitative metrics, such as Rouge, and qualitative metrics, such as BERTScore, FEQA and Pyramid score. We also quantify the reasons that inhibit the models from learning the diversity from the varied input samples.
추상화:딥 러닝 모델의 요구를 충족시키기 위한 훈련 샘플의 수와 함께 추상적인 텍스트 요약이 급증하고 있다. 이러한 모델은 결과 요약의 양적 요소를 개선함으로써 우수한 성능을 달성하기 위해 훈련 데이터 표현을 활용하는 경향이 있다. 그러나, 트레이닝 세트의 크기를 증가시키는 것이 항상 성능을 최대화하기 위한 이상적인 해결책은 아닐 수 있으며, 따라서 트레이닝 샘플의 품질과 딥러닝 모델의 학습 프로토콜을 재검토할 필요성이 필수적이다. 본 논문에서는 입력 임베딩 공간과 모델의 인코더 공간 사이에서 학습된 특성을 이해하기 위해 추상적 텍스트 요약 모델의 벡터 공간을 이산화하는 것을 목표로 한다. 우리는 심층 모델이 입력 공간의 다양성을 포착하지 못한다는 것을 보여준다. 또한 인코더 공간의 데이터 포인트 분포는 훈련 샘플의 확인되지 않은 증가가 가치를 추가하지 않는다는 것을 나타내며, 오히려 모델이 가변성과 충실성에 초점을 맞추도록 하기 위해서는 데이터 샘플의 해체가 매우 필요하다. 우리는 클러스터링 기법을 사용하여 모델의 샘플 공간의 다양성과 데이터 포인트가 임베딩 공간에서 인코더 공간으로 매핑되거나 그 반대의 경우에도 매핑되는 방법을 학습한다. 또한 중복 데이터 포인트를 필터링하여 모델을 보다 강력하고 데이터 부족을 줄이기 위한 메트릭을 고안한다. 우리는 Rouge와 같은 정량적 메트릭과 BERTS 점수, FEQA 및 피라미드 점수와 같은 정성적 메트릭을 사용하여 제안된 방법을 벤치마킹한다. 또한 모델이 다양한 입력 샘플에서 다양성을 학습하는 것을 방해하는 이유를 정량화한다.
SECNN: Squeeze-and-Excitation Convolutional Neural Network for Sentence Classification
Abstract:Sentence classification is one of the basic tasks of natural language processing. Convolution neural network (CNN) has the ability to extract n-grams features through convolutional filters and capture local correlations between consecutive words in parallel, so CNN is a popular neural network architecture to dealing with the task. But restricted by the width of convolutional filters, it is difficult for CNN to capture long term contextual dependencies. Attention is a mechanism that considers global information and pays more attention to keywords in sentences, thus attention mechanism is cooperated with CNN network to improve performance in sentence classification task. In our work, we don't focus on keyword in a sentence, but on which CNN's output feature map is more important. We propose a Squeeze-and-Excitation Convolutional neural Network (SECNN) for sentence classification. SECNN takes the feature maps from multiple CNN as different channels of sentence representation, and then, we can utilize channel attention mechanism, that is SE attention mechanism, to enable the model to learn the attention weights of different channel features. The results show that our model achieves advanced performance in the sentence classification task.
추상화:문장 분류는 자연어 처리의 기본 작업 중 하나이다. CNN(Convolution Neural Network)은 컨볼루션 필터를 통해 n-gram 특징을 추출하고 연속된 단어 간의 로컬 상관 관계를 병렬로 캡처하는 기능을 가지고 있으므로 CNN은 작업을 처리하는 데 인기 있는 신경망 아키텍처이다. 그러나 컨볼루션 필터들의 폭에 의해 제한을 받는 CNN은 장기적인 상황 의존성을 포착하기 어렵다. 어텐션은 글로벌 정보를 고려하고 문장 내 키워드에 더 많은 관심을 기울이는 메커니즘이므로 어텐션 메커니즘은 문장 분류 작업의 성능을 향상시키기 위해 CNN 네트워크와 협력한다. 우리의 작업에서 우리는 문장에서 키워드에 초점을 맞추는 것이 아니라 CNN의 출력 피처맵이 어떤 것에 더 중요한지에 초점을 맞춘다. 문장 분류를 위한 SECNN(Squeeze-and-Excitation Convolutional Network)을 제안한다. SECNN은 여러 CNN의 특징 맵을 문장 표현의 서로 다른 채널로 가져온 다음, 채널 주의 메커니즘, 즉 SE 주의 메커니즘을 활용하여 모델이 서로 다른 채널 특징의 주의 가중치를 학습할 수 있도록 할 수 있다. 결과는 우리 모델이 문장 분류 작업에서 고급 성능을 달성한다는 것을 보여준다.
GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language Models
Abstract:Warning: This paper contains content that may be offensive or upsetting. There has been a significant increase in the usage of large language models (LLMs) in various applications, both in their original form and through fine-tuned adaptations. As a result, LLMs have gained popularity and are being widely adopted by a large user community. However, one of the concerns with LLMs is the potential generation of socially biased content. The existing evaluation methods have many constraints, and their results exhibit a limited degree of interpretability. In this work, we propose a bias evaluation framework named GPTBIAS that leverages the high performance of LLMs (e.g., GPT-4 \cite{openai2023gpt4}) to assess bias in models. We also introduce prompts called Bias Attack Instructions, which are specifically designed for evaluating model bias. To enhance the credibility and interpretability of bias evaluation, our framework not only provides a bias score but also offers detailed information, including bias types, affected demographics, keywords, reasons behind the biases, and suggestions for improvement. We conduct extensive experiments to demonstrate the effectiveness and usability of our bias evaluation framework.
추상화:경고: 이 논문은 모욕적이거나 불쾌할 수 있는 내용을 담고 있다. LLM(Large Language Model)의 원래 형태와 미세 조정된 적응을 통해 다양한 응용 분야에서 사용이 크게 증가했다. 그 결과, LLM은 인기를 얻었으며, 대규모 사용자 커뮤니티에서 널리 채택되고 있다. 그러나 LLM의 우려 중 하나는 사회적으로 편향된 콘텐츠의 잠재적 생성이다. 기존의 평가 방법들은 많은 제약을 가지고 있으며, 그 결과는 제한된 정도의 해석 가능성을 보인다. 본 연구에서는 모델의 편향을 평가하기 위해 LLM(예: GPT-4 \cite{openai2023gpt4})의 고성능을 활용하는 GPTBIAS라는 이름의 편향 평가 프레임워크를 제안한다. 또한 모델 바이어스를 평가하기 위해 특별히 설계된 바이어스 공격 지침이라는 프롬프트도 소개한다. 편향 평가의 신뢰성과 해석 가능성을 향상시키기 위해 우리의 프레임워크는 편향 점수뿐만 아니라 편향 유형, 영향을 받는 인구 통계, 키워드, 편향 배경 이유 및 개선 제안을 포함한 자세한 정보를 제공한다. 우리는 편향 평가 프레임워크의 효과와 유용성을 입증하기 위해 광범위한 실험을 수행한다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-12-17] 오늘의 자연어처리 (1) | 2023.12.17 |
---|---|
[2023-12-16] 오늘의 자연어처리 (0) | 2023.12.16 |
[2023-12-12] 오늘의 자연어처리 (0) | 2023.12.12 |
[2023-12-11] 오늘의 자연어처리 (0) | 2023.12.11 |
[2023-12-10] 오늘의 자연어처리 (1) | 2023.12.10 |
댓글