본문 바로가기
오늘의 자연어 처리

[2023-05-06] 오늘의 자연어처리

by 지환이아빠 2023. 5. 6.
반응형

2x Faster Language Model Pre-training via Masked Structural Growth

 

Acceleration of large language model pre-training is a critical issue in present NLP research. In this paper, we focus on speeding up pre-training by progressively growing from a small Transformer structure to a large one. There are two main research problems related to progressive growth: growth schedule and growth operator. For growth schedule, existing work has explored multi-stage expansion of depth and feedforward layers. However, the impact of each dimension on the schedule's efficiency is still an open question. For growth operator, existing work relies on the initialization of new weights to inherit knowledge, and achieve only non-strict function preservation, limiting further optimization of training dynamics. To address these issues, we propose Masked Structural Growth (MSG), including growth schedules involving all possible dimensions and strictly function-preserving growth operators that is independent of the initialization of new weights. Experiments show that MSG is significantly faster than related work: we achieve a speed-up of 80% for Bert-base and 120% for Bert-large pre-training. Moreover, MSG is able to improve fine-tuning performances at the same time.

 

대규모 언어 모델 사전 훈련의 가속화는 에서 중요한 문제이다 NLP 연구를 제시하다. 본 논문에서는 사전 교육 속도를 높이는 데 중점을 둡니다 작은 트랜스포머 구조에서 큰 구조로 점진적으로 성장합니다. 거기. 점진적 성장과 관련된 두 가지 주요 연구 문제: 성장 일정 그리고 성장 연산자. 성장 일정을 위해 기존 작업이 탐색되었습니다 깊이 및 피드포워드 레이어의 다단계 확장. 하지만, 영향은 일정의 효율성에 대한 각 차원은 여전히 미해결 문제입니다. 위해서 성장 연산자, 기존 작업은 새로운 가중치의 초기화에 의존한다 지식을 상속하고 비선택적 기능 보존만 달성, 제한 교육 역학의 추가 최적화. 이러한 문제들을 해결하기 위해, 우리는 제안한다 모두가 참여하는 성장 일정을 포함한 마스킹된 구조적 성장(MSG) 가능한 치수와 엄격하게 기능을 보존하는 성장 연산자 새 가중치의 초기화와 무관하게. 실험 결과 MSG는 관련 작업보다 훨씬 빠릅니다. 우리는 80%의 속도 향상을 달성했습니다 Bert-base와 Bert-large 사전 훈련의 경우 120%입니다. 게다가, MSG는 할 수 있다 미세 조정 성능을 동시에 향상시킵니다. 

 

 

A framework for the emergence and analysis of language in social learning agents

 

Artificial neural networks (ANNs) are increasingly used as research models, but questions remain about their generalizability and representational invariance. Biological neural networks under social constraints evolved to enable communicable representations, demonstrating generalization capabilities. This study proposes a communication protocol between cooperative agents to analyze the formation of individual and shared abstractions and their impact on task performance. This communication protocol aims to mimic language features by encoding high-dimensional information through low-dimensional representation. Using grid-world mazes and reinforcement learning, teacher ANNs pass a compressed message to a student ANN for better task completion. Through this, the student achieves a higher goal-finding rate and generalizes the goal location across task worlds. Further optimizing message content to maximize student reward improves information encoding, suggesting that an accurate representation in the space of messages requires bi-directional input. This highlights the role of language as a common representation between agents and its implications on generalization capabilities.

 

인공 신경망(ANN)이 연구 모델로 점점 더 많이 사용되고 있다, 하지만 그들의 일반화 가능성과 대표성에 대한 의문은 남아있다 불변성. 사회적 제약 하에서 생물학적 신경망은 진화했다 일반화 기능을 시연하여 의사소통 가능한 표현을 활성화합니다. 이 연구는 협력 에이전트 간의 통신 프로토콜을 제안한다 개별적이고 공유된 추상의 형성과 그것들이 미치는 영향을 분석한다 작업 수행. 이 통신 프로토콜은 언어 기능을 모방하는 것을 목표로 한다 저차원을 통해 고차원 정보를 인코딩함으로써 표상. 그리드 월드 미로 및 강화 학습을 사용하여 교사 ANN 더 나은 작업 완료를 위해 학생 ANN에게 압축 메시지를 전달합니다. 통해. 이것, 학생은 더 높은 목표 찾기율을 달성하고 목표를 일반화한다 여러 태스크 월드에 걸쳐 위치합니다. 메시지 내용을 추가로 최적화하여 최대화 학생 보상은 정보 인코딩을 개선하고, 정확함을 시사한다 메시지 공간에서의 표현은 양방향 입력을 필요로 한다. 이것. 에이전트와 에이전트 사이의 공통 표현으로서의 언어의 역할을 강조한다 일반화 능력에 미치는 영향. 

 

 

NatCS: Eliciting Natural Customer Support Dialogues

 

Despite growing interest in applications based on natural customer support conversations, there exist remarkably few publicly available datasets that reflect the expected characteristics of conversations in these settings. Existing task-oriented dialogue datasets, which were collected to benchmark dialogue systems mainly in written human-to-bot settings, are not representative of real customer support conversations and do not provide realistic benchmarks for systems that are applied to natural data. To address this gap, we introduce NatCS, a multi-domain collection of spoken customer service conversations. We describe our process for collecting synthetic conversations between customers and agents based on natural language phenomena observed in real conversations. Compared to previous dialogue datasets, the conversations collected with our approach are more representative of real human-to-human conversations along multiple metrics. Finally, we demonstrate potential uses of NatCS, including dialogue act classification and intent induction from conversations as potential applications, showing that dialogue act annotations in NatCS provide more effective training data for modeling real conversations compared to existing synthetic written datasets. We publicly release NatCS to facilitate research in natural dialog systems

 

자연스러운 고객 지원을 기반으로 한 애플리케이션에 대한 관심 증가에도 불구하고 대화, 공개적으로 사용 가능한 데이터 세트가 매우 적다 이러한 설정에서 예상되는 대화의 특성을 반영합니다. 벤치마크를 위해 수집된 기존 작업 지향 대화 데이터 세트 주로 서면 인간 대 로봇 설정에서 대화 시스템은 그렇지 않다 실제 고객 지원 대화를 대표하며 제공하지 않음 자연 데이터에 적용되는 시스템에 대한 현실적인 벤치마크. 주소 지정 이 격차로, 우리는 음성 고객의 다중 도메인 컬렉션인 NATCS를 소개합니다 서비스 대화. 우리는 합성 물질을 수집하는 과정을 설명한다 자연어 현상에 기초한 고객과 대리점 간의 대화 실제 대화에서 관찰됩니다. 이전 대화 데이터 세트와 비교하여 우리의 접근법으로 수집된 대화는 실제를 더 대표한다 다양한 측정 기준에 따른 인간 대 인간의 대화. 마지막으로, 우리는 시범을 보인다 대화 행위 분류 및 의도를 포함한 NATCS의 잠재적 사용 잠재적 응용 프로그램으로서 대화로부터 유도, 대화를 보여준다 NATCS의 Act 주석은 실제 모델링을 위한 보다 효과적인 교육 데이터를 제공합니다 기존의 합성 기록 데이터 세트와 비교한 대화. 공개적으로 자연스러운 대화 시스템에서 연구를 용이하게 하기 위해 NATCS를 출시 

 

 

반응형

댓글