본문 바로가기
오늘의 자연어 처리

[2023-03-12] 오늘의 자연어처리

by 지환이아빠 2023. 3. 12.
반응형

Personalisation within bounds: A risk taxonomy and policy framework for the alignment of large language models with personalised feedback

 

Large language models (LLMs) are used to generate content for a wide range of tasks, and are set to reach a growing audience in coming years due to integration in product interfaces like ChatGPT or search engines like Bing. This intensifies the need to ensure that models are aligned with human preferences and do not produce unsafe, inaccurate or toxic outputs. While alignment techniques like reinforcement learning with human feedback (RLHF) and red-teaming can mitigate some safety concerns and improve model capabilities, it is unlikely that an aggregate fine-tuning process can adequately represent the full range of users' preferences and values. Different people may legitimately disagree on their preferences for language and conversational norms, as well as on values or ideologies which guide their communication. Personalising LLMs through micro-level preference learning processes may result in models that are better aligned with each user. However, there are several normative challenges in defining the bounds of a societally-acceptable and safe degree of personalisation. In this paper, we ask how, and in what ways, LLMs should be personalised. First, we review literature on current paradigms for aligning LLMs with human feedback, and identify issues including (i) a lack of clarity regarding what alignment means; (ii) a tendency of technology providers to prescribe definitions of inherently subjective preferences and values; and (iii) a 'tyranny of the crowdworker', exacerbated by a lack of documentation in who we are really aligning to. Second, we present a taxonomy of benefits and risks associated with personalised LLMs, for individuals and society at large. Finally, we propose a three-tiered policy framework that allows users to experience the benefits of personalised alignment, while restraining unsafe and undesirable LLM-behaviours within (supra-)national and organisational bounds.

 

LLM(Large Language Model)은 다양한 범위의 콘텐츠를 생성하는 데 사용됩니다 작업, 그리고 다음 몇 년 동안 증가하는 청중에게 도달할 예정입니다 ChatGPT나 빙과 같은 검색 엔진과 같은 제품 인터페이스의 통합. 이는 모델이 인간과 일치하도록 보장할 필요성을 강화한다 안전하지 않거나 부정확하거나 독성이 있는 출력을 생성하지 마십시오. 하는 동안에 인간 피드백을 통한 강화 학습(RLHF)과 같은 정렬 기술 적색 경보는 일부 안전 문제를 완화하고 모델 기능을 개선할 수 있다, 종합 미세 조정 프로세스가 적절하게 표현할 수 있을 것 같지는 않다 사용자의 전체 선호도 및 가치 범위. 다른 사람들은 할 수 있다 언어와 대화에 대한 그들의 선호에 대해 합법적으로 동의하지 않는다 규범뿐만 아니라 그들의 의사소통을 이끄는 가치나 이데올로기에 대해서도. 마이크로 레벨 선호 학습 프로세스를 통해 LLM을 개인화하면 결과적으로 발생할 수 있습니다 각 사용자와 더 잘 일치하는 모델에서. 그러나 몇 가지가 있다 사회적으로 수용 가능하고 안전한 범위를 정의하는 규범적인 도전 개인화 정도. 본 논문에서, 우리는 LLM이 어떻게 그리고 어떤 방식으로 개인화해야 합니다. 먼저, 우리는 다음을 위해 현재 패러다임에 대한 문헌을 검토한다 LLM을 인간의 피드백과 일치시키고, (i) 다음의 부족을 포함한 문제를 식별한다 정렬이 의미하는 바에 대한 명확성; (ii) 기술 제공자의 경향 본질적으로 주관적인 선호와 가치의 정의를 규정한다 (iii) 에서 문서화의 부족으로 악화된 '대중 노동자의 문제' 우리가 진정으로 누구와 일치하는지. 둘째, 우리는 이익의 분류법을 제시한다 개인 및 사회 전반에 대한 개인화된 LLM과 관련된 위험. 마지막으로, 우리는 사용자가 다음을 수행할 수 있는 3단계 정책 프레임워크를 제안한다 개인화된 정렬의 이점을 경험하는 동시에 안전하지 않고 국가 및 조직 범위 내에서 바람직하지 않은 LLM 행동. 

 

 

Multi-Stage Coarse-to-Fine Contrastive Learning for Conversation Intent Induction

 

Intent recognition is critical for task-oriented dialogue systems. However, for emerging domains and new services, it is difficult to accurately identify the key intent of a conversation due to time-consuming data annotation and comparatively poor model transferability. Therefore, the automatic induction of dialogue intention is very important for intelligent dialogue systems. This paper presents our solution to Track 2 of Intent Induction from Conversations for Task-Oriented Dialogue at the Eleventh Dialogue System Technology Challenge (DSTC11). The essence of intention clustering lies in distinguishing the representation of different dialogue utterances. The key to automatic intention induction is that, for any given set of new data, the sentence representation obtained by the model can be well distinguished from different labels. Therefore, we propose a multi-stage coarse-to-fine contrastive learning model training scheme including unsupervised contrastive learning pre-training, supervised contrastive learning pre-training, and fine-tuning with joint contrastive learning and clustering to obtain a better dialogue utterance representation model for the clustering task. In the released DSTC11 Track 2 evaluation results, our proposed system ranked first on both of the two subtasks of this Track.

 

의도 인식은 작업 지향 대화 시스템에 매우 중요하다. 하지만, 신흥 도메인과 새로운 서비스의 경우, 정확하게 식별하는 것은 어렵다 시간 소모적인 데이터 주석으로 인한 대화의 핵심 의도 및 상대적으로 열악한 모델 전송성. 따라서, 자동 유도는 대화 의도는 지능형 대화 시스템에 매우 중요하다. 이것. 논문은 대화에서 의도 유도 2번 트랙에 대한 솔루션을 제시합니다 제11회 대화시스템 기술도전 과제중심 대화를 위한 연구 (DSTC11). 의도 클러스터링의 본질은 다음을 구별하는 데 있다 다른 대화 발언의 표현. 자동 의도의 핵심 유도는 주어진 새로운 데이터 세트에 대해 문장 표현이다 모델에 의해 얻어지는 것은 다른 라벨과 잘 구별될 수 있다. 따라서, 우리는 다단계의 거칠고 미세한 대조 학습 모델을 제안한다 비감독 대조 학습 사전 훈련을 포함한 훈련 계획, 지도 대조 학습 사전 훈련 및 관절을 통한 미세 조정 더 나은 대화 발화를 얻기 위한 대조 학습 및 클러스터링 클러스터링 작업에 대한 표현 모델입니다. 출시된 DSTC11 트랙 2에서 평가 결과, 우리가 제안한 시스템은 두 가지 모두에서 1위를 차지했다 이 트랙의 하위 작업입니다. 

 

 

Early Warning Signals of Social Instabilities in Twitter Data

 

The goal of this project is to create and study novel techniques to identify early warning signals for socially disruptive events, like riots, wars, or revolutions using only publicly available data on social media. Such techniques need to be robust enough to work on real-time data: to achieve this goal we propose a topological approach together with more standard BERT models. Indeed, topology-based algorithms, being provably stable against deformations and noise, seem to work well in low-data regimes. The general idea is to build a binary classifier that predicts if a given tweet is related to a disruptive event or not. The results indicate that the persistent-gradient approach is stable and even more performant than deep-learning-based anomaly detection algorithms. We also benchmark the generalisability of the methodology against out-of-samples tasks, with very promising results.

 

이 프로젝트의 목표는 식별할 수 있는 새로운 기술을 만들고 연구하는 것이다 폭동, 전쟁, 또는 같은 사회적으로 파괴적인 사건에 대한 조기 경고 신호 소셜 미디어에서 공개적으로 사용할 수 있는 데이터만 사용하는 혁명. 그런 기술들 실시간 데이터 작업을 수행할 수 있을 정도로 강력해야 합니다. 이 목표를 달성하려면 보다 표준적인 BERT 모델과 함께 토폴로지 접근법을 제안한다. 실제로. 위상 기반 알고리즘, 변형에 대해 안정적이며 노이즈, 낮은 데이터 영역에서 잘 작동하는 것 같습니다. 일반적인 생각은 다음을 구축하는 것이다 주어진 트윗이 중단과 관련이 있는지 예측하는 이진 분류기 사건의 유무. 결과는 지속적인 그레이디언트 접근법이 다음과 같은 것을 나타낸다 딥 러닝 기반 이상 탐지보다 안정적이고 훨씬 더 성능이 뛰어납니다 알고리즘. 우리는 또한 이 방법론의 일반화 가능성을 벤치마크한다 매우 유망한 결과를 가진, 실행 불가능한 작업. 

 

 

반응형

댓글