본문 바로가기
오늘의 자연어 처리

[2023-09-20] 오늘의 자연어처리

by 지환이아빠 2023. 9. 20.
반응형

Instruction-Following Speech Recognition

 

Conventional end-to-end Automatic Speech Recognition (ASR) models primarily focus on exact transcription tasks, lacking flexibility for nuanced user interactions. With the advent of Large Language Models (LLMs) in speech processing, more organic, text-prompt-based interactions have become possible. However, the mechanisms behind these models' speech understanding and "reasoning" capabilities remain underexplored. To study this question from the data perspective, we introduce instruction-following speech recognition, training a Listen-Attend-Spell model to understand and execute a diverse set of free-form text instructions. This enables a multitude of speech recognition tasks -- ranging from transcript manipulation to summarization -- without relying on predefined command sets. Remarkably, our model, trained from scratch on Librispeech, interprets and executes simple instructions without requiring LLMs or pre-trained speech modules. It also offers selective transcription options based on instructions like "transcribe first half and then turn off listening," providing an additional layer of privacy and safety compared to existing LLMs. Our findings highlight the significant potential of instruction-following training to advance speech foundation models.

 

종래의 ASR(end-to-end Automatic Speech Recognition) 모델은 주로 미묘한 사용자를 위한 유연성이 부족한 정확한 전사 작업에 집중한다 상호작용들. 연설에 LLM(Large Language Models)의 등장으로 처리, 보다 유기적인 텍스트 prompt 기반 상호작용이 가능해졌다. 그러나 이 모델들의 발화 이해의 메커니즘과 "reasoning" 기능은 아직 충분히 개발되지 않았습니다. 이 질문을 공부하려면 데이터 관점에서, 우리는 following 음성 인식을 도입한다, Listen-Attend-Spell 모델을 교육하여 다양한 세트를 이해하고 실행합니다 자유 형식의 텍스트 명령어. 이것은 다양한 음성 인식을 가능하게 한다 스크립트 조작에서 요약에 이르기까지 다양한 작업을 수행할 수 있습니다 미리 정의된 명령 집합에 의존합니다. 놀랍게도, 우리 모델은 처음부터 훈련을 받았고 Librispeech에서는 간단한 명령을 필요없이 해석하고 실행한다 LLM 또는 사전 교육된 음성 모듈. 선택적 전사 기능도 제공합니다 "전반부를 기록한 다음 꺼짐"과 같은 지시에 따른 옵션 듣는 것"과 비교하여 프라이버시와 안전의 추가적인 계층을 제공한다 기존 LLM. 우리의 발견은 중요한 잠재력을 강조한다 음성 기초 모델을 발전시키기 위한 명령-following 교육. 

 

 

Facilitating NSFW Text Detection in Open-Domain Dialogue Systems via Knowledge Distillation

 

NSFW (Not Safe for Work) content, in the context of a dialogue, can have severe side effects on users in open-domain dialogue systems. However, research on detecting NSFW language, especially sexually explicit content, within a dialogue context has significantly lagged behind. To address this issue, we introduce CensorChat, a dialogue monitoring dataset aimed at NSFW dialogue detection. Leveraging knowledge distillation techniques involving GPT-4 and ChatGPT, this dataset offers a cost-effective means of constructing NSFW content detectors. The process entails collecting real-life human-machine interaction data and breaking it down into single utterances and single-turn dialogues, with the chatbot delivering the final utterance. ChatGPT is employed to annotate unlabeled data, serving as a training set. Rationale validation and test sets are constructed using ChatGPT and GPT-4 as annotators, with a self-criticism strategy for resolving discrepancies in labeling. A BERT model is fine-tuned as a text classifier on pseudo-labeled data, and its performance is assessed. The study emphasizes the importance of AI systems prioritizing user safety and well-being in digital conversations while respecting freedom of expression. The proposed approach not only advances NSFW content detection but also aligns with evolving user protection needs in AI-driven dialogues.

 

NSFW(Not Safe for Work) 콘텐츠는 대화의 맥락에서 다음을 가질 수 있습니다 개방형 대화 시스템에서 사용자에게 미치는 심각한 부작용. 그러나 연구 NSFW 언어, 특히 성적으로 노골적인 내용을 a 안에서 감지하는 것에 대화의 맥락이 상당히 뒤떨어져 있다. 이 문제를 해결하기 위해 우리는 NSFW 대화를 목표로 하는 대화 모니터링 데이터 세트인 ScensorChat을 소개한다 탐지. GPT-4와 관련된 지식 증류 기술 활용 ChatGPT, 이 데이터 세트는 NSFW를 구축하는 비용 효율적인 방법을 제공합니다 내용물 탐지기. 그 과정은 실제 인간 기계를 수집하는 것을 수반한다 상호작용 데이터를 단일 발화 및 단일 턴으로 분해합니다 챗봇이 마지막 발화를 전달하는 대화. ChatGPT이 고용되다 레이블이 지정되지 않은 데이터에 주석을 달기 위해 교육 세트 역할을 합니다. 근거 검증 및 테스트 세트는 ChatGPT 및 GPT-4를 주석자로 사용하여 구성된다 라벨링 불일치 해결을 위한 자기 criticism 전략. BERT 모형 가 의사 라벨링된 데이터의 텍스트 분류기로서 미세 tuned이며, 그 성능은 다음과 같다 평가한다. 이 연구는 인공지능 시스템의 중요성을 강조한다 디지털 대화에서 사용자의 안전과 웰빙을 보장하는 동시에 자유를 존중한다 표현. 제안된 접근법은 NSFW 콘텐츠 검출을 향상시킬 뿐만 아니라 또한 인공지능 기반 대화에서 진화하는 사용자 보호 요구에 부합한다. 

 

 

Do Large GPT Models Discover Moral Dimensions in Language Representations? A Topological Study Of Sentence Embeddings

 

As Large Language Models are deployed within Artificial Intelligence systems, that are increasingly integrated with human society, it becomes more important than ever to study their internal structures. Higher level abilities of LLMs such as GPT-3.5 emerge in large part due to informative language representations they induce from raw text data during pre-training on trillions of words. These embeddings exist in vector spaces of several thousand dimensions, and their processing involves mapping between multiple vector spaces, with total number of parameters on the order of trillions. Furthermore, these language representations are induced by gradient optimization, resulting in a black box system that is hard to interpret. In this paper, we take a look at the topological structure of neuronal activity in the "brain" of Chat-GPT's foundation language model, and analyze it with respect to a metric representing the notion of fairness. We develop a novel approach to visualize GPT's moral dimensions. We first compute a fairness metric, inspired by social psychology literature, to identify factors that typically influence fairness assessments in humans, such as legitimacy, need, and responsibility. Subsequently, we summarize the manifold's shape using a lower-dimensional simplicial complex, whose topology is derived from this metric. We color it with a heat map associated with this fairness metric, producing human-readable visualizations of the high-dimensional sentence manifold. Our results show that sentence embeddings based on GPT-3.5 can be decomposed into two submanifolds corresponding to fair and unfair moral judgments. This indicates that GPT-based language models develop a moral dimension within their representation spaces and induce an understanding of fairness during their training process.

 

대형 언어 모델이 인공지능 시스템 내에 배치됨에 따라, 인간 사회와 점점 더 통합되고, 그것은 더 중요해진다 그 어느 때보다도 그들의 내부 구조를 연구하기 위해. LLM의 높은 수준의 능력 GPT-3.5와 같은 것들은 대부분 정보적인 언어에 기인한다 수조 단위의 사전 교육 중에 원시 텍스트 데이터에서 유도하는 표현 말로는. 이러한 임베딩은 수천 개의 벡터 공간에 존재한다 차원들, 그리고 그들의 처리는 여러 벡터들 사이의 매핑을 포함한다 공간, 총 매개변수 수가 수조 단위입니다. 더 나아가, 이러한 언어 표현은 그래디언트 최적화에 의해 유도되며, 결과적으로 해석하기 어려운 블랙박스 시스템에서 말이죠. 이 논문에서는, 우리는 다음과 같이 본다 Chat-GPT의 "뇌"에 있는 신경세포 활동의 위상 구조에서 기초 언어 모델, 그리고 그것을 다음을 나타내는 메트릭과 관련하여 분석한다 공평의 관념. GPT의 도덕성을 시각화하는 새로운 접근법을 개발한다 치수. 우리는 먼저 사회 심리학에서 영감을 받아 공정성 지표를 계산한다 일반적으로 공정성 평가에 영향을 미치는 요인을 식별하기 위한 문헌 합법성, 필요성, 책임감 같은 인간의 경우. 그다음에 저희가 저차원 단순 복합체를 사용하여 매니폴드 형상을 요약한다, 그의 토폴로지는 이 메트릭에서 파생됩니다. 히트맵으로 색칠해요 이 공정성 지표와 관련하여 인간-readable 시각화를 생성한다 높은 차원의 문장 다양체의. 우리의 결과는 그 문장을 보여준다 GPT-3.5에 기반한 임베딩은 두 개의 하위 매니폴드로 분해될 수 있다 공정하고 불공평한 도덕적 판단에 상응하는. 이는 GPT 기반이 언어 모델은 그들의 표현 공간 안에서 도덕적 차원을 발전시킨다 훈련 과정에서 공정성에 대한 이해를 유도한다. 

 

 

반응형

댓글