본문 바로가기
오늘의 자연어 처리

[2022-09-11] 오늘의 자연어처리

by 지환이아빠 2022. 9. 11.
반응형

Visual Grounding of Inter-lingual Word-Embeddings

 

Visual grounding of Language aims at enriching textual representations of language with multiple sources of visual knowledge such as images and videos. Although visual grounding is an area of intense research, inter-lingual aspects of visual grounding have not received much attention. The present study investigates the inter-lingual visual grounding of word embeddings. We propose an implicit alignment technique between the two spaces of vision and language in which inter-lingual textual information interacts in order to enrich pre-trained textual word embeddings. We focus on three languages in our experiments, namely, English, Arabic, and German. We obtained visually grounded vector representations for these languages and studied whether visual grounding on one or multiple languages improved the performance of embeddings on word similarity and categorization benchmarks. Our experiments suggest that inter-lingual knowledge improves the performance of grounded embeddings in similar languages such as German and English. However, inter-lingual grounding of German or English with Arabic led to a slight degradation in performance on word similarity benchmarks. On the other hand, we observed an opposite trend on categorization benchmarks where Arabic had the most improvement on English. In the discussion section, several reasons for those findings are laid out. We hope that our experiments provide a baseline for further research on inter-lingual visual grounding.

 

언어의 시각적 기초는 텍스트 표현을 풍부하게 하는 것을 목표로 한다. 이미지 및 비디오와 같은 여러 시각적 지식의 원천을 가진 언어 시각적 기초가 집중적인 연구 영역이지만 언어 간 측면 시각적 접지력이 크게 주목받지 못하고 있습니다. 본 연구 단어 임베딩의 언어 간 시각적 근거를 조사한다. 제안합니다 시각과 언어의 두 공간 사이의 암묵적 정렬 기술 언어 간 텍스트 정보가 풍부하게 하기 위해 상호 작용하는 것 사전 훈련된 텍스트 단어 임베딩 우리는 우리의 3개 언어에 초점을 맞추고 있다. 실험, 즉 영어, 아랍어, 독일어 우리는 시각적으로 근거지를 얻었다. 이러한 언어에 대한 벡터 표현과 시각적 접지 여부를 연구했다. 하나 이상의 언어에서 단어의 임베딩 성능을 향상시켰다. 유사성 및 범주화 벤치마크. 우리의 실험은 다음과 같다. 언어 간 지식은 기초 임베딩의 성능을 향상시킨다. 독일어나 영어와 같은 비슷한 언어들 그러나, 언어 간 접지. 아랍어와 함께 독일어 또는 영어에 대한 약간의 성능 저하로 이어졌다. 단어 유사성 벤치마크 반면에, 우리는 반대되는 경향을 관찰했다. 아랍어가 영어에서 가장 많이 향상된 분류 벤치마크 인 토론 섹션, 이러한 발견에 대한 몇 가지 이유가 제시됩니다. 우리가 우리의 실험이 에 대한 추가 연구를 위한 기준을 제공하기를 바란다. 언어 간 시각 접지 

 

 

Pre-Training a Graph Recurrent Network for Language Representation

 

Transformer-based pre-trained models have gained much advance in recent years, becoming one of the most important backbones in natural language processing. Recent work shows that the attention mechanism inside Transformer may not be necessary, both convolutional neural networks and multi-layer perceptron based models have also been investigated as Transformer alternatives. In this paper, we consider a graph recurrent network for language model pre-training, which builds a graph structure for each sequence with local token-level communications, together with a sentence-level representation decoupled from other tokens. The original model performs well in domain-specific text classification under supervised training, however, its potential in learning transfer knowledge by self-supervised way has not been fully exploited. We fill this gap by optimizing the architecture and verifying its effectiveness in more general language understanding tasks, for both English and Chinese languages. As for model efficiency, instead of the quadratic complexity in Transformer-based models, our model has linear complexity and performs more efficiently during inference. Moreover, we find that our model can generate more diverse outputs with less contextualized feature redundancy than existing attention-based models.

 

트랜스포머 기반 사전 교육 모델은 최근 크게 발전했습니다. 몇 년 동안, 자연어에서 가장 중요한 배경 중 하나가 되었다. 처리. 최근의 연구는 트랜스포머 내부의 주의 메커니즘이 컨볼루션 신경망과 다층 모두 필요하지 않을 수 있다. 퍼셉트론 기반 모델은 트랜스포머로도 조사되었다. 대체 수단 이 논문에서, 우리는 언어에 대한 그래프 반복 네트워크를 고려한다. 모델 사전 교육, 로컬을 사용하여 각 시퀀스에 대한 그래프 구조를 작성합니다. 문장 수준의 표현과 함께 토큰 수준의 커뮤니케이션 다른 토큰과 분리됩니다. 원래 모델은 다음과 같이 성능이 우수합니다. 지도 교육 하에서의 도메인별 텍스트 분류, 그러나. 자기 지도 방식으로 이전 지식을 학습하는 잠재력은 없었다. 충분히 착취된 아키텍처를 최적화하고 검증함으로써 이러한 격차를 메웁니다. 보다 일반적인 언어 이해 과제에서 그것의 효과, 둘 다. 영어와 중국어. 모델 효율성에 대해서는, 트랜스포머 기반 모델의 2차 복잡성, 우리 모델은 선형입니다. 복잡성과 추론 중에 더 효율적으로 수행됩니다. 더군다나, 우리는 우리 모델이 문맥을 덜 파악하여 더 다양한 출력을 생성할 수 있다. 기존 주의 기반 모델보다 중복된 기능을 제공합니다. 

 

 

Accented Speech Recognition under the Indian context

 

Accent forms an integral part of identifying cultures, emotions,behavior's, etc. People often perceive each other in a different manner due to their accent. The accent itself can be a conveyor of status, pride, and other emotional information which can be captured through Speech itself. Accent itself can be defined as: "the way in which people in a particular area, country, or social group pronounce words" or "a special emphasis given to a syllable in a word, word in a sentence, or note in a set of musical notes". Accented Speech Recognition is one the most important problems in the domain of Speech Recognition. Speech recognition is an interdisciplinary sub-field of Computer Science and Linguistics research where the main aim is to develop technologies which enable conversion of speech into text. The speech can be of any form such as read speech or spontaneous speech, conversational speech. Speech unlike text has lot of diversity. This diversity stems from the environmental conditions, variabilities from speaker to speaker, channel noise, differences in Speech production due to disabilities, presence of disfluencies. Speech therefore is indeed a rich source of information waiting to be exploited.

 

악센트는 문화, 감정, 행동을 식별하는 데 필수적인 부분을 형성합니다. 등등. 사람들은 종종 다른 방식으로 서로를 인식한다. 악센트. 악센트 자체는 지위, 자존심, 그리고 다른 것의 컨베이어가 될 수 있다. 스피치 자체를 통해 포착할 수 있는 감정 정보 악센트 그 자체는 다음과 같이 정의될 수 있다: "특정 지역에 있는 사람들이 국가 또는 사회 집단이 단어를 발음한다" 또는 "특별히 강조된 단어" 단어의 음절, 문장의 단어 또는 음표 집합의 음표". 악센트가 있는 음성 인식은 그 영역에서 가장 중요한 문제들 중 하나이다. 음성 인식. 음성 인식은 학제간 하위 분야이다. 컴퓨터 과학 및 언어학 연구 개발의 주요 목표 음성을 텍스트로 변환할 수 있는 기술 연설은 이 될 수 있다. 읽기 연설이나 즉흥 연설, 대화 연설과 같은 모든 형태. 텍스트와 다르게 말하는 것은 많은 다양성을 가지고 있다. 이러한 다양성은 환경 조건, 스피커에서 스피커까지의 가변성, 채널 소음, 장애로 인한 음성 제작의 차이, 불협화음의 존재. 그러므로 연설은 정말로 기다리고 있는 풍부한 정보의 원천이다. 착취당한 

 

 

반응형

댓글