Efficiency-oriented approaches for self-supervised speech representation learning
Abstract:Self-supervised learning enables the training of large neural models without the need for large, labeled datasets. It has been generating breakthroughs in several fields, including computer vision, natural language processing, biology, and speech. In particular, the state-of-the-art in several speech processing applications, such as automatic speech recognition or speaker identification, are models where the latent representation is learned using self-supervised approaches. Several configurations exist in self-supervised learning for speech, including contrastive, predictive, and multilingual approaches. There is, however, a crucial limitation in most existing approaches: their high computational costs. These costs limit the deployment of models, the size of the training dataset, and the number of research groups that can afford research with large self-supervised models. Likewise, we should consider the environmental costs that high energy consumption implies. Efforts in this direction comprise optimization of existing models, neural architecture efficiency, improvements in finetuning for speech processing tasks, and data efficiency. But despite current efforts, more work could be done to address high computational costs in self-supervised representation learning.
추상화:자기 지도 학습을 통해 대규모 라벨이 부착된 데이터 세트 없이 대규모 신경 모델을 학습할 수 있다. 컴퓨터 비전, 자연어 처리, 생물학 및 음성을 포함한 여러 분야에서 혁신을 일으키고 있습니다. 특히, 자동 음성 인식 또는 화자 식별과 같은 여러 음성 처리 응용 분야에서의 최첨단 기술은 자기 지도 접근법을 사용하여 잠재 표현을 학습하는 모델이다. 음성에 대한 자기 지도 학습에는 대조적, 예측적 및 다국어 접근법을 포함하는 여러 구성이 존재한다. 그러나 기존의 대부분의 방법들은 높은 계산 비용이라는 중대한 한계가 있다. 이러한 비용은 모델의 배치, 훈련 데이터 세트의 크기, 대규모 자체 감독 모델로 연구를 할 수 있는 연구 그룹의 수를 제한한다. 마찬가지로, 우리는 높은 에너지 소비가 의미하는 환경 비용을 고려해야 한다. 이러한 방향으로의 노력은 기존 모델의 최적화, 신경 아키텍처 효율성, 음성 처리 작업을 위한 미세 조정의 개선 및 데이터 효율성을 포함한다. 그러나 현재의 노력에도 불구하고 자가 지도 표현 학습에서 높은 계산 비용을 해결하기 위해 더 많은 작업을 수행할 수 있다.
Efficiency-oriented approaches for self-supervised speech representation learning
Abstract:Self-supervised learning enables the training of large neural models without the need for large, labeled datasets. It has been generating breakthroughs in several fields, including computer vision, natural language processing, biology, and speech. In particular, the state-of-the-art in several speech processing applications, such as automatic speech recognition or speaker identification, are models where the latent representation is learned using self-supervised approaches. Several configurations exist in self-supervised learning for speech, including contrastive, predictive, and multilingual approaches. There is, however, a crucial limitation in most existing approaches: their high computational costs. These costs limit the deployment of models, the size of the training dataset, and the number of research groups that can afford research with large self-supervised models. Likewise, we should consider the environmental costs that high energy consumption implies. Efforts in this direction comprise optimization of existing models, neural architecture efficiency, improvements in finetuning for speech processing tasks, and data efficiency. But despite current efforts, more work could be done to address high computational costs in self-supervised representation learning.
추상화:자기 지도 학습을 통해 대규모 라벨이 부착된 데이터 세트 없이 대규모 신경 모델을 학습할 수 있다. 컴퓨터 비전, 자연어 처리, 생물학 및 음성을 포함한 여러 분야에서 혁신을 일으키고 있습니다. 특히, 자동 음성 인식 또는 화자 식별과 같은 여러 음성 처리 응용 분야에서의 최첨단 기술은 자기 지도 접근법을 사용하여 잠재 표현을 학습하는 모델이다. 음성에 대한 자기 지도 학습에는 대조적, 예측적 및 다국어 접근법을 포함하는 여러 구성이 존재한다. 그러나 기존의 대부분의 방법들은 높은 계산 비용이라는 중대한 한계가 있다. 이러한 비용은 모델의 배치, 훈련 데이터 세트의 크기, 대규모 자체 감독 모델로 연구를 할 수 있는 연구 그룹의 수를 제한한다. 마찬가지로, 우리는 높은 에너지 소비가 의미하는 환경 비용을 고려해야 한다. 이러한 방향으로의 노력은 기존 모델의 최적화, 신경 아키텍처 효율성, 음성 처리 작업을 위한 미세 조정의 개선 및 데이터 효율성을 포함한다. 그러나 현재의 노력에도 불구하고 자가 지도 표현 학습에서 높은 계산 비용을 해결하기 위해 더 많은 작업을 수행할 수 있다.
Entity or Relation Embeddings? An Analysis of Encoding Strategies for Relation Extraction
Abstract:Relation extraction is essentially a text classification problem, which can be tackled by fine-tuning a pre-trained language model (LM). However, a key challenge arises from the fact that relation extraction cannot straightforwardly be reduced to sequence or token classification. Existing approaches therefore solve the problem in an indirect way: they fine-tune an LM to learn embeddings of the head and tail entities, and then predict the relationship from these entity embeddings. Our hypothesis in this paper is that relation extraction models can be improved by capturing relationships in a more direct way. In particular, we experiment with appending a prompt with a [MASK] token, whose contextualised representation is treated as a relation embedding. While, on its own, this strategy significantly underperforms the aforementioned approach, we find that the resulting relation embeddings are highly complementary to what is captured by embeddings of the head and tail entity. By jointly considering both types of representations, we end up with a simple model that outperforms the state-of-the-art across several relation extraction benchmarks.
추상화:관계 추출은 기본적으로 텍스트 분류 문제로, 사전에 학습된 LM(Language Model)을 미세 조정함으로써 해결할 수 있다. 그러나 관계 추출을 단순히 시퀀스 또는 토큰 분류로 축소할 수 없다는 점에서 핵심적인 문제가 발생한다. 따라서 기존의 접근 방식은 간접적인 방법으로 문제를 해결한다: 그들은 LM을 미세 조정하여 머리와 꼬리 엔티티의 임베딩을 학습한 다음 이러한 엔티티 임베딩으로부터 관계를 예측한다. 본 논문에서의 우리의 가설은 관계를 보다 직접적인 방법으로 포착함으로써 관계 추출 모형을 개선할 수 있다는 것이다. 특히 맥락화된 표현이 관계 임베딩으로 처리되는 [MASK] 토큰으로 프롬프트를 추가하는 실험을 한다. 이 전략은 그 자체로 앞서 언급한 접근 방식을 크게 능가하지만, 결과적인 관계 임베딩이 머리와 꼬리 개체의 임베딩으로 포착된 것과 매우 상보적이라는 것을 발견했다. 두 가지 유형의 표현을 공동으로 고려함으로써, 우리는 여러 관계 추출 벤치마크에서 최첨단을 능가하는 간단한 모델로 귀결된다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-12-22] 오늘의 자연어처리 (1) | 2023.12.22 |
---|---|
[2023-12-21] 오늘의 자연어처리 (1) | 2023.12.21 |
[2023-12-19] 오늘의 자연어처리 (0) | 2023.12.19 |
[2023-12-18] 오늘의 자연어처리 (0) | 2023.12.18 |
[2023-12-17] 오늘의 자연어처리 (1) | 2023.12.17 |
댓글