본문 바로가기
오늘의 자연어 처리

[2022-10-13] 오늘의 자연어처리

by 지환이아빠 2022. 10. 13.
반응형

Machine Translation between Spoken Languages and Signed Languages Represented in SignWriting

 

This paper presents work on novel machine translation (MT) systems between spoken and signed languages, where signed languages are represented in SignWriting, a sign language writing system. Our work seeks to address the lack of out-of-the-box support for signed languages in current MT systems and is based on the SignBank dataset, which contains pairs of spoken language text and SignWriting content. We introduce novel methods to parse, factorize, decode, and evaluate SignWriting, leveraging ideas from neural factored MT. In a bilingual setup--translating from American Sign Language to (American) English--our method achieves over 30 BLEU, while in two multilingual setups--translating in both directions between spoken languages and signed languages--we achieve over 20 BLEU. We find that common MT techniques used to improve spoken language translation similarly affect the performance of sign language translation. These findings validate our use of an intermediate text representation for signed languages to include them in natural language processing research.

 

이 논문은 다음의 새로운 기계 번역(MT) 시스템에 대한 연구를 제시한다. 수화 및 수화, 수화가 표현되는 언어 수화 표기 시스템인 Sign Writing. 우리의 작업은 부족함을 해결하려고 한다. 현재 MT 시스템에서 수화를 즉시 지원할 수 있습니다. 음성 언어 텍스트 쌍을 포함하는 SignBank 데이터 세트를 기반으로 합니다. 서명 내용. 우리는 구문 분석, 인수 분해, 디코딩을 위한 새로운 방법을 소개한다. 신경 요소 MT의 아이디어를 활용하여 SignWriting을 평가합니다. 이나. 이중 언어 설정--미국 수화에서 (미국어로) 번역 영어--우리의 방법은 두 개의 다국어로 30BLEU 이상을 달성한다. 설정--구어와 수화 사이의 양방향 대화 언어는 20BLEU 이상을 달성합니다. 우리는 일반적인 MT 기법이 구어 번역이 수화의 수행에 유사하게 영향을 미치는 것을 개선하다. 언어 번역 이러한 결과는 중간 텍스트의 사용을 입증한다. 자연어에 포함시키기 위한 수화 표현 가공 연구 

 

 

Capturing Global Structural Information in Long Document Question Answering with Compressive Graph Selector Network

 

Long document question answering is a challenging task due to its demands for complex reasoning over long text. Previous works usually take long documents as non-structured flat texts or only consider the local structure in long documents. However, these methods usually ignore the global structure of the long document, which is essential for long-range understanding. To tackle this problem, we propose Compressive Graph Selector Network (CGSN) to capture the global structure in a compressive and iterative manner. Specifically, the proposed model consists of three modules: local graph network, global graph network and evidence memory network. Firstly, the local graph network builds the graph structure of the chunked segment in token, sentence, paragraph and segment levels to capture the short-term dependency of the text. Secondly, the global graph network selectively receives the information of each level from the local graph, compresses them into the global graph nodes and applies graph attention into the global graph nodes to build the long-range reasoning over the entire text in an iterative way. Thirdly, the evidence memory network is designed to alleviate the redundancy problem in the evidence selection via saving the selected result in the previous steps. Extensive experiments show that the proposed model outperforms previous methods on two datasets.

 

긴 문서 질문 답변은 다음과 같은 요구 사항으로 인해 어려운 작업입니다. 긴 텍스트에 대한 복잡한 추론 이전 작품들은 보통 다음과 같이 긴 문서들을 가져간다. 구조화되지 않은 플랫 텍스트 또는 긴 로컬 구조만 고려합니다. 문서. 그러나 이러한 방법은 일반적으로 글로벌 구조를 무시한다. 장기적인 이해를 위해 필수적인 긴 문서 이 문제를 해결하려면 문제, 우리는 압축 그래프 선택기 네트워크(CGSN)를 캡처할 것을 제안한다. 압축 및 반복 방식의 글로벌 구조. 특히, 제안된 모델은 3개의 모듈로 구성된다: 로컬 그래프 네트워크, 글로벌 그래프 네트워크 및 증거 메모리 네트워크. 첫째, 로컬 그래프 네트워크가 구축됩니다. 토큰, 문장, 단락, 그리고 청크 세그먼트의 그래프 구조 세그먼트 수준을 사용하여 텍스트의 단기 종속성을 캡처할 수 있습니다. 둘째로, 글로벌 그래프 네트워크는 각 레벨의 정보를 선택적으로 수신합니다. 로컬 그래프, 전역 그래프 노드로 압축하고 그래프를 적용합니다. 에 대한 장거리 추론을 구축하기 위해 글로벌 그래프 노드에 대한 관심 반복되는 방식으로 전체 텍스트 셋째, 증거 기억 네트워크는 다음을 통해 증거 선택의 중복 문제를 완화하도록 설계되었다. 이전 단계에서 선택한 결과를 저장합니다. 광범위한 실험을 통해 알 수 있다. 제안된 모델이 두 데이터 세트에서 이전 방법보다 성능이 우수하다. 

 

 

Machine Translation between Spoken Languages and Signed Languages Represented in SignWriting

 

This paper presents work on novel machine translation (MT) systems between spoken and signed languages, where signed languages are represented in SignWriting, a sign language writing system. Our work seeks to address the lack of out-of-the-box support for signed languages in current MT systems and is based on the SignBank dataset, which contains pairs of spoken language text and SignWriting content. We introduce novel methods to parse, factorize, decode, and evaluate SignWriting, leveraging ideas from neural factored MT. In a bilingual setup--translating from American Sign Language to (American) English--our method achieves over 30 BLEU, while in two multilingual setups--translating in both directions between spoken languages and signed languages--we achieve over 20 BLEU. We find that common MT techniques used to improve spoken language translation similarly affect the performance of sign language translation. These findings validate our use of an intermediate text representation for signed languages to include them in natural language processing research.

 

이 논문은 다음의 새로운 기계 번역(MT) 시스템에 대한 연구를 제시한다. 수화 및 수화, 수화가 표현되는 언어 수화 표기 시스템인 Sign Writing. 우리의 작업은 부족함을 해결하려고 한다. 현재 MT 시스템에서 수화를 즉시 지원할 수 있습니다. 음성 언어 텍스트 쌍을 포함하는 SignBank 데이터 세트를 기반으로 합니다. 서명 내용. 우리는 구문 분석, 인수 분해, 디코딩을 위한 새로운 방법을 소개한다. 신경 요소 MT의 아이디어를 활용하여 SignWriting을 평가합니다. 이나. 이중 언어 설정--미국 수화에서 (미국어로) 번역 영어--우리의 방법은 두 개의 다국어로 30BLEU 이상을 달성한다. 설정--구어와 수화 사이의 양방향 대화 언어는 20BLEU 이상을 달성합니다. 우리는 일반적인 MT 기법이 구어 번역이 수화의 수행에 유사하게 영향을 미치는 것을 개선하다. 언어 번역 이러한 결과는 중간 텍스트의 사용을 입증한다. 자연어에 포함시키기 위한 수화 표현 가공 연구 

 

 

반응형

댓글