본문 바로가기
오늘의 자연어 처리

[2023-07-28] 오늘의 자연어처리

by 지환이아빠 2023. 7. 28.
반응형

LOIS: Looking Out of Instance Semantics for Visual Question Answering

 

Visual question answering (VQA) has been intensively studied as a multimodal task that requires effort in bridging vision and language to infer answers correctly. Recent attempts have developed various attention-based modules for solving VQA tasks. However, the performance of model inference is largely bottlenecked by visual processing for semantics understanding. Most existing detection methods rely on bounding boxes, remaining a serious challenge for VQA models to understand the causal nexus of object semantics in images and correctly infer contextual information. To this end, we propose a finer model framework without bounding boxes in this work, termed Looking Out of Instance Semantics (LOIS) to tackle this important issue. LOIS enables more fine-grained feature descriptions to produce visual facts. Furthermore, to overcome the label ambiguity caused by instance masks, two types of relation attention modules: 1) intra-modality and 2) inter-modality, are devised to infer the correct answers from the different multi-view features. Specifically, we implement a mutual relation attention module to model sophisticated and deeper visual semantic relations between instance objects and background information. In addition, our proposed attention model can further analyze salient image regions by focusing on important word-related questions. Experimental results on four benchmark VQA datasets prove that our proposed method has favorable performance in improving visual reasoning capability.

 

시각적 질문 응답(VQA)은 멀티모달로서 집중적으로 연구되어 왔다 답을 추론하기 위해 시각과 언어를 연결하는 노력이 필요한 과제 정확하게. 최근의 시도들은 다음을 위한 다양한 주의 기반 모듈을 개발하고 있다 VQA 태스크를 해결합니다. 그러나 모델 추론의 성능은 크게 다르다 시맨틱스 이해를 위한 시각적 처리로 병목 현상을 일으킵니다. 가장 존재하는 탐지 방법은 경계 상자에 의존하며, VQA의 심각한 문제로 남아 있습니다 이미지에서 객체 의미론의 인과 관계를 이해하기 위한 모델 및 문맥 정보를 정확하게 추론하다. 이를 위해 보다 세밀한 모델을 제안한다 이 작업에서는 Looking Out of Instance라고 하는 경계 상자가 없는 프레임워크입니다 이 중요한 문제를 해결하기 위한 시맨틱스(LOIS). LOIS를 통해 보다 세분화 가능 시각적 사실을 생성하기 위한 특징 설명. 게다가, 그것을 극복하기 위해서 인스턴스 마스크로 인한 레이블 모호성, 두 가지 유형의 관계 주의 모듈: 1) 인트라 픽셀 및 2) 인터 픽셀은 다음을 추론하기 위해 고안되었습니다 다양한 멀티뷰 기능에서 정답을 맞춥니다. 구체적으로 저희가 상호관계 주의 모듈을 구현하여 정교하고 깊이 있는 모델을 만든다 인스턴스 개체와 배경 정보 사이의 시각적 의미 관계. 또한, 우리가 제안한 주의 모델은 두드러진 이미지를 추가로 분석할 수 있다 단어와 관련된 중요한 질문에 초점을 맞추어 지역을 구분합니다. 실험 결과 4개의 벤치마크 VQA 데이터 세트에서 우리가 제안한 방법이 유리하다는 것을 증명한다 시각적 추론 능력을 향상시키는 성능. 

 

 

Towards Bridging the Digital Language Divide

 

It is a well-known fact that current AI-based language technology -- language models, machine translation systems, multilingual dictionaries and corpora -- focuses on the world's 2-3% most widely spoken languages. Recent research efforts have attempted to expand the coverage of AI technology to `under-resourced languages.' The goal of our paper is to bring attention to a phenomenon that we call linguistic bias: multilingual language processing systems often exhibit a hardwired, yet usually involuntary and hidden representational preference towards certain languages. Linguistic bias is manifested in uneven per-language performance even in the case of similar test conditions. We show that biased technology is often the result of research and development methodologies that do not do justice to the complexity of the languages being represented, and that can even become ethically problematic as they disregard valuable aspects of diversity as well as the needs of the language communities themselves. As our attempt at building diversity-aware language resources, we present a new initiative that aims at reducing linguistic bias through both technological design and methodology, based on an eye-level collaboration with local communities.

 

현재의 인공지능 기반 언어 기술 -- 언어라는 것은 잘 알려진 사실이다 모델, 기계 번역 시스템, 다국어 사전 및 말뭉치 -- 세계에서 가장 널리 사용되는 2-3% 언어에 초점을 맞추고 있습니다. 최근 연구 AI 기술의 적용 범위를 확장하려는 노력을 시도했다 '자원이 부족한 언어' 우리 논문의 목표는 관심을 끄는 것이다 우리가 언어적 편향이라고 부르는 현상: 다국어 처리 시스템은 종종 유선 연결되어 있지만 대개 비자발적이고 숨겨진 것을 보여준다 특정 언어에 대한 표현적 선호. 언어적 편향은 유사한 테스트의 경우에도 언어별 성능이 일정하지 않게 나타남 조건들. 우리는 편향된 기술이 종종 연구의 결과라는 것을 보여준다 복잡성을 정당화하지 않는 개발 방법론 표현되는 언어들, 그리고 그것은 심지어 윤리적으로 문제가 될 수 있다 그들은 다양성의 가치 있는 측면과 필요한 것들을 무시한다 언어 공동체 자체입니다. 다양성 인식을 구축하기 위한 우리의 시도로서 언어 자원, 우리는 감소를 목표로 하는 새로운 계획을 제시한다 기술적 설계와 방법론을 통한 언어적 편향, 에 기초한 지역 사회와의 눈높이에 맞춘 협력. 

 

 

Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems

 

Creating high-quality annotated data for task-oriented dialog (ToD) is known to be notoriously difficult, and the challenges are amplified when the goal is to create equitable, culturally adapted, and large-scale ToD datasets for multiple languages. Therefore, the current datasets are still very scarce and suffer from limitations such as translation-based non-native dialogs with translation artefacts, small scale, or lack of cultural adaptation, among others. In this work, we first take stock of the current landscape of multilingual ToD datasets, offering a systematic overview of their properties and limitations. Aiming to reduce all the detected limitations, we then introduce Multi3WOZ, a novel multilingual, multi-domain, multi-parallel ToD dataset. It is large-scale and offers culturally adapted dialogs in 4 languages to enable training and evaluation of multilingual and cross-lingual ToD systems. We describe a complex bottom-up data collection process that yielded the final dataset, and offer the first sets of baseline scores across different ToD-related tasks for future reference, also highlighting its challenging nature.

 

작업 지향 대화(ToD)를 위한 고품질 주석이 달린 데이터를 만드는 것이 알려져 있다 어렵기로 악명 높고, 목표가 달성되면 도전이 증폭된다 다음을 위해 공평하고 문화적으로 적응된 대규모 ToD 데이터 세트를 만든다 다국어. 따라서 현재 데이터 세트는 여전히 매우 부족하고 번역 기반 비원어민 대화와 같은 한계로 어려움을 겪다 번역 인공물, 작은 규모, 또는 문화적 적응의 부족 다른이들. 이 작업에서, 우리는 먼저 현재의 풍경을 조사한다 다국어 ToD 데이터 세트, 속성에 대한 체계적인 개요 제공 그리고 한계. 탐지된 모든 한계를 줄이는 것을 목표로, 우리는 그때 멀티3를 소개하다WOZ, 새로운 다국어, 다중 도메인, 다중 병렬 ToD 데이터 세트. 그것은 대규모이며 4개의 언어로 문화적으로 적응된 대화를 제공한다 다국어 및 다국어 ToD 교육 및 평가를 가능하게 합니다 시스템들. 우리는 산출된 복잡한 상향식 데이터 수집 프로세스를 설명한다 최종 데이터 세트 및 다양한 데이터 세트에 걸친 첫 번째 기준 점수 제공 향후 참조를 위해 ToD 관련 작업을 수행하고 과제를 강조합니다 자연. 

 

 

반응형

댓글