본문 바로가기
오늘의 자연어 처리

[2023-09-12] 오늘의 자연어처리

by 지환이아빠 2023. 9. 12.
반응형

ConDA: Contrastive Domain Adaptation for AI-generated Text Detection

 

Large language models (LLMs) are increasingly being used for generating text in a variety of use cases, including journalistic news articles. Given the potential malicious nature in which these LLMs can be used to generate disinformation at scale, it is important to build effective detectors for such AI-generated text. Given the surge in development of new LLMs, acquiring labeled training data for supervised detectors is a bottleneck. However, there might be plenty of unlabeled text data available, without information on which generator it came from. In this work we tackle this data problem, in detecting AI-generated news text, and frame the problem as an unsupervised domain adaptation task. Here the domains are the different text generators, i.e. LLMs, and we assume we have access to only the labeled source data and unlabeled target data. We develop a Contrastive Domain Adaptation framework, called ConDA, that blends standard domain adaptation techniques with the representation power of contrastive learning to learn domain invariant representations that are effective for the final unsupervised detection task. Our experiments demonstrate the effectiveness of our framework, resulting in average performance gains of 31.7% from the best performing baselines, and within 0.8% margin of a fully supervised detector. All our code and data is available at this https URL.

 

텍스트 생성을 위해 대형 언어 모델(LLM)이 점점 더 많이 사용되고 있다 다양한 활용 사례에서 볼 수 있습니다. 여기에는 언론 뉴스 기사도 포함됩니다. 생각해보면 이러한 LLM이 생성에 사용될 수 있는 잠재적인 악의적인 특성 규모에 맞는 잘못된 정보, 그러한 것을 위한 효과적인 검출기를 만드는 것이 중요하다 인공지능이 만든 텍스트. 새로운 LLM의 개발이 급증하고 있는 점을 감안할 때, 인수 감독된 검출기에 대한 라벨이 부착된 훈련 데이터는 병목 현상이다. 그런데 거기서 라벨이 부착되지 않은 많은 텍스트 데이터를 사용할 수 있습니다 발전기에서 나온거에요. 이 연구에서 우리는 탐지할 때 이 데이터 문제를 다룬다 인공지능이 만든 뉴스 텍스트, 그리고 문제를 감독되지 않는 영역으로 틀을 잡는다 적응 과제. 여기서 도메인들은 상이한 텍스트 생성기들, 즉 LLM들이다, 그리고 우리는 라벨링된 소스 데이터와 라벨링되지 않은 데이터에만 접근할 수 있다고 가정한다 데이터를 대상으로 합니다. 우리는 다음과 같은 대조 도메인 적응 프레임워크를 개발한다 ConDA는 표준 도메인 적응 기술과 함께 사용됩니다 영역 불변성을 학습하는 대조 학습의 표현력 감독되지 않은 최종 탐지 작업에 효과적인 표현. 우리의 실험은 우리의 프레임워크의 효과를 증명하고, 결과적으로 최고 성능의 기준선을 통해 평균 성능이 31.7% 향상됩니다 완전히 감독된 검출기의 0.8% 범위 내에서. 우리의 모든 코드와 데이터는 이 https URL에서 사용할 수 있습니다. 

 

 

Beyond Static Datasets: A Deep Interaction Approach to LLM Evaluation

 

Large Language Models (LLMs) have made progress in various real-world tasks, which stimulates requirements for the evaluation of LLMs. Existing LLM evaluation methods are mainly supervised signal-based which depends on static datasets and cannot evaluate the ability of LLMs in dynamic real-world scenarios where deep interaction widely exists. Other LLM evaluation methods are human-based which are costly and time-consuming and are incapable of large-scale evaluation of LLMs. To address the issues above, we propose a novel Deep Interaction-based LLM-evaluation framework. In our proposed framework, LLMs' performances in real-world domains can be evaluated from their deep interaction with other LLMs in elaborately designed evaluation tasks. Furthermore, our proposed framework is a general evaluation method that can be applied to a host of real-world tasks such as machine translation and code generation. We demonstrate the effectiveness of our proposed method through extensive experiments on four elaborately designed evaluation tasks.

 

대형 언어 모델(Large Language Models, LLM)은 다양한 실제 작업에서 발전을 이루었다, LLMs의 평가를 위한 요구사항을 자극합니다. 기존 LLM 평가 방법은 주로 정적에 의존하는 감독 신호 기반이다 동적 실세계에서 LLM의 능력을 평가할 수 없는 데이터셋 깊은 상호작용이 널리 존재하는 시나리오. 기타 LLM 평가 방법 비용과 시간이 많이 소요되고 할 수 없는 인간 기반이다 LLMs의 대규모 평가 위의 문제들을 해결하기 위해, 우리는 새로운 것을 제안한다 심층 상호작용 기반 LLM 평가 프레임워크. 우리가 제안한 틀에서, 실제 도메인에서 LLM의 성능을 심층적으로 평가할 수 있습니다 정교하게 설계된 평가 작업에서 다른 LLM과의 상호작용. 또한, 우리가 제안한 프레임워크는 다음과 같은 일반적인 평가 방법이다 기계 번역 및 코드와 같은 실제 작업에 적용됩니다 시대. 우리는 다음을 통해 제안된 방법의 효과를 입증한다 정교하게 설계된 네 가지 평가 작업에 대한 광범위한 실험. 

 

 

TIDE: Textual Identity Detection for Evaluating and Augmenting Classification and Language Models

 

Machine learning models can perpetuate unintended biases from unfair and imbalanced datasets. Evaluating and debiasing these datasets and models is especially hard in text datasets where sensitive attributes such as race, gender, and sexual orientation may not be available. When these models are deployed into society, they can lead to unfair outcomes for historically underrepresented groups. In this paper, we present a dataset coupled with an approach to improve text fairness in classifiers and language models. We create a new, more comprehensive identity lexicon, TIDAL, which includes 15,123 identity terms and associated sense context across three demographic categories. We leverage TIDAL to develop an identity annotation and augmentation tool that can be used to improve the availability of identity context and the effectiveness of ML fairness techniques. We evaluate our approaches using human contributors, and additionally run experiments focused on dataset and model debiasing. Results show our assistive annotation technique improves the reliability and velocity of human-in-the-loop processes. Our dataset and methods uncover more disparities during evaluation, and also produce more fair models during remediation. These approaches provide a practical path forward for scaling classifier and generative model fairness in real-world settings.

 

기계 학습 모델은 불공정한 것으로부터 의도하지 않은 편견을 영속화할 수 있다 불균형 데이터셋. 이러한 데이터셋과 모델을 평가하고 세분화하는 것은 특히 인종과 같은 민감한 속성이 있는 텍스트 데이터 세트에서는 특히 어렵습니다, 성별, 성적 취향이 안 될 수도 있어요. 이 모델들이 사회에 배치되어, 그들은 역사적으로 불공평한 결과를 초래할 수 있다 대표성이 떨어지는 집단들. 본 논문에서는 데이터 세트를 다음과 같이 제시한다 분류기와 언어 모델에서 텍스트 공정성을 향상시키기 위한 접근법. 우리는 창조한다 15,123개를 포함하는 보다 포괄적인 새로운 아이덴티티 어휘, TIDAL 세 가지 인구통계학에 걸쳐 동일성 용어와 연관된 감각 맥락 분류. 우리는 TIDAL을 활용하여 아이덴티티 주석을 개발하고 ID의 가용성을 향상시키는 데 사용할 수 있는 증강 도구 ML 공정성 기법의 맥락과 효과. 우리는 우리의 것을 평가한다 인적 기여자를 이용한 접근법, 또한 실험에 초점을 맞춘 실험을 실행한다 데이터셋 및 모델 디바이어싱에 관한 정보를 제공합니다. 결과는 우리의 보조 주석 기술을 보여준다 인간-인-더-루프 프로세스의 신뢰성 및 속도를 향상시킵니다. 우리들의 데이터셋과 메소드는 평가 중에 더 많은 차이를 발견하고 또한 교정 중에 보다 공정한 모델을 제작할 수 있습니다. 이러한 접근법은 다음을 제공한다 분류기와 생성 모델 공정성을 확장하기 위한 실용적인 경로 전진 현실 세계의 설정. 

 

 

반응형

댓글