본문 바로가기
오늘의 자연어 처리

[2023-01-14] 오늘의 자연어처리

by 지환이아빠 2023. 1. 14.
반응형

Semantic Web Enabled Geographic Question Answering Framework: GeoTR

 

With the considerable growth of linked data, researchers have focused on how to increase the availability of semantic web technologies to provide practical usages for real life systems. Question answering systems are an example of real-life systems that communicate directly with end users, understand user intention and generate answers. End users do not care about the structural query language or the vocabulary of the knowledge base where the point of a problem arises. In this study, a question answering framework that converts Turkish natural language input into SPARQL queries in the geographical domain is proposed. Additionally, a novel Turkish ontology, which covers a 10th grade geography lesson named Spatial Synthesis Turkey, has been developed to be used as a linked data provider. Moreover, a gap in the literature on Turkish question answering systems, which utilizes linked data in the geographical domain, is addressed. A hybrid system architecture that combines natural language processing techniques with linked data technologies to generate answers is also proposed. Further related research areas are suggested.

 

링크된 데이터의 상당한 성장과 함께, 연구원들은 어떻게 실용적인 것을 제공하기 위해 시맨틱 웹 기술의 가용성을 증가시킨다 실생활 시스템을 위한 사용. 질문 답변 시스템은 다음과 같은 예입니다 최종 사용자와 직접 통신하고 사용자를 이해하는 실제 시스템 의도하고 답변을 생성합니다. 최종 사용자는 구조적인 문제에 신경 쓰지 않습니다 질의 언어 또는 지식 기반의 어휘의 요점은 다음과 같다 문제가 생기다. 이 연구에서, 변환하는 질문 답변 프레임워크 지리적 영역의 SPARQL 쿼리에 대한 터키어 자연어 입력 제안됩니다. 추가적으로, 10학년을 다루는 새로운 터키어 온톨로지 터키라는 이름의 지리 수업은 사용하기 위해 개발되었다 연결된 데이터 공급자로서. 게다가, 터키어에 대한 문학의 격차 지리적으로 연결된 데이터를 활용하는 질문 답변 시스템 도메인, 주소가 지정됩니다. Natural을 결합한 하이브리드 시스템 아키텍처 생성하기 위해 연결된 데이터 기술을 가진 언어 처리 기술 답변도 제안됩니다. 추가적인 관련 연구 분야가 제안된다. 

 

 

Improving And Analyzing Neural Speaker Embeddings for ASR

 

Neural speaker embeddings encode the speaker's speech characteristics through a DNN model and are prevalent for speaker verification tasks. However, few studies have investigated the usage of neural speaker embeddings for an ASR system. In this work, we present our efforts w.r.t integrating neural speaker embeddings into a conformer based hybrid HMM ASR system. For ASR, our improved embedding extraction pipeline in combination with the Weighted-Simple-Add integration method results in x-vector and c-vector reaching on par performance with i-vectors. We further compare and analyze different speaker embeddings. We present our acoustic model improvements obtained by switching from newbob learning rate schedule to one cycle learning schedule resulting in a ~3% relative WER reduction on Switchboard, additionally reducing the overall training time by 17%. By further adding neural speaker embeddings, we gain additional ~3% relative WER improvement on Hub5'00. Our best Conformer-based hybrid ASR system with speaker embeddings achieves 9.0% WER on Hub5'00 and Hub5'01 with training on SWB 300h.

 

신경 스피커 임베딩은 다음을 통해 화자의 음성 특성을 인코딩한다 DNN 모델이며 스피커 검증 작업에 널리 사용됩니다. 그러나, 소수 연구는 ASR을 위한 신경 스피커 임베딩의 사용을 조사했다 시스템. 이 작업에서, 우리는 신경 스피커를 통합하는 우리의 노력을 제시한다 컨포머 기반 하이브리드 HMM ASR 시스템에 임베딩. ASR의 경우, 우리의 개선된 Weighted-Simple-Add와 함께 추출 파이프라인 포함 통합 방법을 사용하면 x-벡터와 c-벡터가 동등한 성능에 도달합니다 i-market로. 우리는 다양한 스피커 임베딩을 추가로 비교하고 분석한다. 우리가 newjob에서 전환하여 얻은 음향 모델 개선 사항을 제시합니다 1주기 학습 일정에 대한 학습 속도 일정으로 최대 3% 달성 스위치보드의 상대적 WER 감소, 추가적으로 전체적인 감소 교육 시간 17% 단축. 신경 스피커 임베딩을 더 추가함으로써, 우리는 이득을 얻는다 Hub5'00에서 상대적 WER이 3% 향상되었습니다. NAT 최고의 컨포머 기반 스피커 임베딩이 있는 하이브리드 ASR 시스템은 Hub5'00에서 9.0% WER을 달성하고 SWB 300h에 대한 교육을 받은 허브 5'01. 

 

 

SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images

 

Visual question answering on document images that contain textual, visual, and layout information, called document VQA, has received much attention recently. Although many datasets have been proposed for developing document VQA systems, most of the existing datasets focus on understanding the content relationships within a single image and not across multiple images. In this study, we propose a new multi-image document VQA dataset, SlideVQA, containing 2.6k+ slide decks composed of 52k+ slide images and 14.5k questions about a slide deck. SlideVQA requires complex reasoning, including single-hop, multi-hop, and numerical reasoning, and also provides annotated arithmetic expressions of numerical answers for enhancing the ability of numerical reasoning. Moreover, we developed a new end-to-end document VQA model that treats evidence selection and question answering in a unified sequence-to-sequence format. Experiments on SlideVQA show that our model outperformed existing state-of-the-art QA models, but that it still has a large gap behind human performance. We believe that our dataset will facilitate research on document VQA.

 

텍스트, 시각적, 시각적이 포함된 문서 이미지에 대한 시각적 질문 답변, 그리고 문서 VQA라고 불리는 레이아웃 정보는 많은 관심을 받았다 최근에. 문서 VQA를 개발하기 위해 많은 데이터 세트가 제안되었지만 시스템, 대부분의 기존 데이터 세트는 내용을 이해하는 데 초점을 맞춥니다 여러 이미지 간이 아닌 단일 이미지 내의 관계입니다. 이 점에서. 연구, 우리는 다음을 포함하는 새로운 다중 이미지 문서 VQA 데이터 세트인 SlideVQA를 제안한다 52,000개 이상의 슬라이드 이미지와 14.5,000개의 질문으로 구성된 2.6,000개 이상의 슬라이드 덱 미끄럼 갑판. 슬라이드 VQA는 단일 홉을 포함한 복잡한 추론이 필요합니다, 멀티홉, 수치 추론, 주석이 달린 산술도 제공한다 숫자의 능력을 향상시키기 위한 숫자 답의 표현들 추리의. 게다가, 우리는 다음과 같은 새로운 종단 간 문서 VQA 모델을 개발했다 증거 선택 및 질문 답변을 통합적으로 처리합니다 시퀀스 대 시퀀스 형식입니다. Slide VQA에 대한 실험은 우리의 모델이 기존의 최첨단 QA 모델을 능가했지만 여전히 큰 성능을 가지고 있습니다 인간의 업적 뒤에 있는 격차. 우리는 우리의 데이터 세트가 우리를 도와줄 것이라고 믿는다 문서 VQA에 대한 연구. 

 

 

반응형

댓글