본문 바로가기
오늘의 자연어 처리

[2023-07-24] 오늘의 자연어처리

by 지환이아빠 2023. 7. 24.
반응형

Integrating Pretrained ASR and LM to Perform Sequence Generation for Spoken Language Understanding

 

There has been an increased interest in the integration of pretrained speech recognition (ASR) and language models (LM) into the SLU framework. However, prior methods often struggle with a vocabulary mismatch between pretrained models, and LM cannot be directly utilized as they diverge from its NLU formulation. In this study, we propose a three-pass end-to-end (E2E) SLU system that effectively integrates ASR and LM subnetworks into the SLU formulation for sequence generation tasks. In the first pass, our architecture predicts ASR transcripts using the ASR subnetwork. This is followed by the LM subnetwork, which makes an initial SLU prediction. Finally, in the third pass, the deliberation subnetwork conditions on representations from the ASR and LM subnetworks to make the final prediction. Our proposed three-pass SLU system shows improved performance over cascaded and E2E SLU models on two benchmark SLU datasets, SLURP and SLUE, especially on acoustically challenging utterances.

 

사전 훈련된 연설의 통합에 대한 관심이 증가해 왔다 인식(ASR) 및 언어 모델(LM)이 SLU 프레임워크에 포함됩니다. 하지만, 이전의 방법들은 종종 사전 훈련된 사이의 어휘 불일치로 어려움을 겪는다 모델 및 LM은 NLU에서 분리되어 직접 사용할 수 없습니다 공식화. 본 연구에서는 3패스 종단 간(E2E) SLU 시스템을 제안한다 ASR 및 LM 하위 네트워크를 효과적으로 SLU 공식에 통합합니다 시퀀스 생성 태스크. 첫 번째로, 우리의 아키텍처는 ASR을 예측합니다 ASR 하위 네트워크를 사용하는 스크립트. 다음은 LM 하위 네트워크입니다, 초기 SLU 예측을 하는 거죠. 마지막으로, 세 번째 패스에서 ASR 및 LM 표현에 대한 심의 하위 네트워크 조건 최종 예측을 위한 하위 네트워크. 제안된 3패스 SLU 시스템 두 가지 벤치마크에서 계단식 및 E2ESLU 모델에 비해 향상된 성능을 보여줍니다 SLU 데이터셋, SLURP 및 SLUE, 특히 음향학적으로 어려운 경우 언사. 

 

 

FinGPT: Democratizing Internet-scale Data for Financial Large Language Models

 

Large language models (LLMs) have demonstrated remarkable proficiency in understanding and generating human-like texts, which may potentially revolutionize the finance industry. However, existing LLMs often fall short in the financial field, which is mainly attributed to the disparities between general text data and financial text data. Unfortunately, there is only a limited number of financial text datasets available (quite small size), and BloombergGPT, the first financial LLM (FinLLM), is close-sourced (only the training logs were released). In light of this, we aim to democratize Internet-scale financial data for LLMs, which is an open challenge due to diverse data sources, low signal-to-noise ratio, and high time-validity. To address the challenges, we introduce an open-sourced and data-centric framework, \textit{Financial Generative Pre-trained Transformer (FinGPT)}, that automates the collection and curation of real-time financial data from >34 diverse sources on the Internet, providing researchers and practitioners with accessible and transparent resources to develop their FinLLMs. Additionally, we propose a simple yet effective strategy for fine-tuning FinLLM using the inherent feedback from the market, dubbed Reinforcement Learning with Stock Prices (RLSP). We also adopt the Low-rank Adaptation (LoRA, QLoRA) method that enables users to customize their own FinLLMs from open-source general-purpose LLMs at a low cost. Finally, we showcase several FinGPT applications, including robo-advisor, sentiment analysis for algorithmic trading, and low-code development. FinGPT aims to democratize FinLLMs, stimulate innovation, and unlock new opportunities in open finance. The codes are available at this https URL and this https URL

 

대형 언어 모델(LLM)은 다음 분야에서 놀라운 숙련도를 보여주었다 잠재적으로 인간과 같은 텍스트를 이해하고 생성할 수 있다 금융 산업을 혁신하다. 그러나, 기존의 LLM은 종종 부족하다 주로 사이의 격차로 인한 재정 분야 일반 텍스트 데이터 및 재무 텍스트 데이터. 불행하게도, 오직 한 가지 사용 가능한 재무 텍스트 데이터셋의 수가 제한되어 있습니다(대부분 소규모) 최초의 금융 LLM(FinLLM)인 Bloomberg GPT는 근접 소스입니다(단 교육 로그가 공개됨). 이것에 비추어, 우리는 민주화를 목표로 한다 LLM에 대한 인터넷 규모의 재무 데이터는 다음과 같은 이유로 공개되지 않은 과제이다 다양한 데이터 소스, 낮은 신호 대 잡음비, 높은 시간 지연. 로. 문제를 해결하고, 우리는 오픈 소스 및 데이터 중심을 도입한다 프레임워크, \textit{Financial Generative Pre-trained Transformer(Financial GPT)}, 즉 >34의 실시간 재무 데이터 수집 및 큐레이션을 자동화 연구자들과 실무자들에게 제공하는 인터넷의 다양한 소스들 액세스 가능하고 투명한 리소스 제공그들의 FinLLM을 개발합니다. 게다가, 우리는 를 사용하여 FinLLM을 미세 조정하기 위한 간단하지만 효과적인 전략을 제안합니다 주식을 통한 강화 학습이라고 불리는 시장의 고유한 피드백 가격(RSP). 우리는 또한 다음과 같은 낮은 순위 적응(LoRA, QLoRA) 방법을 채택한다 사용자는 오픈 소스 범용에서 자신의 FinLLM을 사용자 정의할 수 있습니다 저렴한 비용으로 LLM. 마지막으로, 우리는 다음을 포함한 몇 가지 FinGPT 애플리케이션을 보여준다 로보어드바이저, 알고리즘 트레이딩을 위한 감성분석, 로우코드 발전. FinGPT는 FinLLMs를 민주화하고 혁신을 자극하는 것을 목표로 한다 개방 금융의 새로운 기회를 열다. 코드는 다음 사이트에서 사용할 수 있습니다 이 https URL 및 이 https URL 

 

 

Learn to Compose Syntactic and Semantic Representations Appropriately for Compositional Generalization

 

Recent studies have shown that sequence-to-sequence (Seq2Seq) models are limited in solving the compositional generalization (CG) tasks, failing to systematically generalize to unseen compositions of seen components. There is mounting evidence that one of the reasons hindering CG is the representation of the encoder uppermost layer is entangled. In other words, the syntactic and semantic representations of sequences are twisted inappropriately. However, most previous studies mainly concentrate on enhancing semantic information at token-level, rather than composing the syntactic and semantic representations of sequences appropriately as humans do. In addition, we consider the representation entanglement problem they found is not comprehensive, and further hypothesize that source keys and values representations passing into different decoder layers are also entangled. Staring from this intuition and inspired by humans' strategies for CG, we propose COMPSITION (Compose Syntactic and Semantic Representations), an extension to Seq2Seq models to learn to compose representations of different encoder layers appropriately for generating different keys and values passing into different decoder layers through introducing a composed layer between the encoder and decoder. COMPSITION achieves competitive and even state-of-the-art results on two realistic benchmarks, which empirically demonstrates the effectiveness of our proposal.

 

최근 연구에 따르면 시퀀스 투 시퀀스(Seq2Seq) 모델은 구성 일반화(CG) 작업을 해결하는 데 제한이 있지만 실패했습니다 보이지 않는 구성 요소의 구성으로 체계적으로 일반화합니다. 있어 CG를 방해하는 이유 중 하나가 다음의 표현이라는 증거가 증가하고 있다 인코더 최상층이 얽혀 있습니다. 다시 말해서, 통사론과 시퀀스의 의미론적 표현이 부적절하게 꼬인다. 하지만, 대부분의 이전 연구는 주로 의미 정보를 향상시키는 데 집중한다 구문 및 의미론적 표현을 구성하는 대신 토큰 수준 인간이 하는 것처럼 적절하게 배열의. 추가로, 우리는 고려한다 그들이 발견한 표현 얽힘 문제는 포괄적이지 않다 소스 키와 값 표현이 전달된다는 가설을 추가합니다 서로 다른 디코더 레이어도 얽혀 있습니다. 이 직관에서 바라보면서 CG에 대한 인간의 전략에서 영감을 받아 컴포지션(Composition)을 제안한다 및 의미론적 표현), Seq2Seq 모델의 확장을 통해 학습할 수 있습니다 서로 다른 인코더 레이어의 표현을 적절하게 구성합니다 서로 다른 디코더 계층에 전달되는 서로 다른 키 및 값 생성 인코더와 디코더 사이에 합성 레이어를 도입함으로써. 컴피티션은 두 가지 측면에서 경쟁력 있고 최첨단 결과를 달성합니다 우리의 효과를 경험적으로 보여주는 현실적인 벤치마크 제안. 

 

 

반응형

댓글