본문 바로가기
오늘의 자연어 처리

[2023-05-22] 오늘의 자연어처리

by 지환이아빠 2023. 5. 22.
반응형

Silver Syntax Pre-training for Cross-Domain Relation Extraction

 

Relation Extraction (RE) remains a challenging task, especially when considering realistic out-of-domain evaluations. One of the main reasons for this is the limited training size of current RE datasets: obtaining high-quality (manually annotated) data is extremely expensive and cannot realistically be repeated for each new domain. An intermediate training step on data from related tasks has shown to be beneficial across many NLP tasks.However, this setup still requires supplementary annotated data, which is often not available. In this paper, we investigate intermediate pre-training specifically for RE. We exploit the affinity between syntactic structure and semantic RE, and identify the syntactic relations which are closely related to RE by being on the shortest dependency path between two entities. We then take advantage of the high accuracy of current syntactic parsers in order to automatically obtain large amounts of low-cost pre-training data. By pre-training our RE model on the relevant syntactic relations, we are able to outperform the baseline in five out of six cross-domain setups, without any additional annotated data.

 

관계 추출(RE)은 특히 다음과 같은 경우 여전히 어려운 과제로 남아 있다 현실적인 도메인 외부 평가를 고려합니다. 주요 이유 중 하나는 이것은 현재 RE 데이터 세트의 제한된 훈련 크기이다 높은 품질의 (주로 주석이 달린) 데이터는 매우 비싸고 그럴 수 없다 각 새 도메인에 대해 현실적으로 반복됩니다. 중간 교육 단계 관련 작업의 데이터는 많은 NLP에 걸쳐 유익한 것으로 나타났다 그러나 이 설정은 여전히 추가 주석이 달린 데이터를 필요로 한다 사용할 수 없는 경우가 많습니다. 이 논문에서, 우리는 중간 사전 훈련을 조사한다 특히 RE를 위해. 우리는 통사적 구조 사이의 친화성을 이용한다 의미 RE, 그리고 밀접하게 관련된 통사적 관계를 식별한다 두 엔티티 사이의 가장 짧은 종속성 경로에 있는 RE. 그리고 나서 우리는 가져간다 현재 구문 분석기의 높은 정확도의 이점을 제공합니다 자동으로 많은 양의 저비용 사전 교육 데이터를 얻습니다. 타고 관련 구문 관계에 대한 RE 모델을 사전 교육할 수 있습니다 도메인 간 설정 6개 중 5개에서 기본값을 능가합니다 주석이 달린 추가 데이터. 

 

 

Cross-modality Data Augmentation for End-to-End Sign Language Translation

 

End-to-end sign language translation (SLT) aims to convert sign language videos into spoken language texts directly without intermediate representations. It has been a challenging task due to the modality gap between sign videos and texts and the data scarcity of labeled data. To tackle these challenges, we propose a novel Cross-modality Data Augmentation (XmDA) framework to transfer the powerful gloss-to-text translation capabilities to end-to-end sign language translation (i.e. video-to-text) by exploiting pseudo gloss-text pairs from the sign gloss translation model. Specifically, XmDA consists of two key components, namely, cross-modality mix-up and cross-modality knowledge distillation. The former explicitly encourages the alignment between sign video features and gloss embeddings to bridge the modality gap. The latter utilizes the generation knowledge from gloss-to-text teacher models to guide the spoken language text generation. Experimental results on two widely used SLT datasets, i.e., PHOENIX-2014T and CSL-Daily, demonstrate that the proposed XmDA framework significantly and consistently outperforms the baseline models. Extensive analyses confirm our claim that XmDA enhances spoken language text generation by reducing the representation distance between videos and texts, as well as improving the processing of low-frequency words and long sentences.

 

종단 간 수화 번역(SLT)은 수화 변환을 목표로 한다 중간자 없이 직접 음성 언어 텍스트로 비디오 제작 표상. 그것은 사이의 양식 차이 때문에 어려운 작업이었다 서명 비디오 및 텍스트와 레이블이 지정된 데이터의 부족. 이 문제를 해결하려면 과제, 우리는 새로운 교차 모달리티 데이터 증강(XmDA)을 제안한다 강력한 글로스-텍스트 변환 기능을 전송하는 프레임워크 유사성을 이용한 종단 간 수화 번역(즉, 비디오에서 텍스트로) 기호 글로스 변환 모델의 글로스-텍스트 쌍. 구체적으로, XmDA 두 가지 핵심 구성 요소로 구성된다. 즉, 교차 혼합 및 교차 결합 지식 증류. 전자는 명시적으로 장려한다 사인 비디오 기능과 글로스 임베딩 사이의 정렬을 통해 다리를 연결합니다 양식의 차이. 후자는 글로스에서 텍스트로의 세대 지식을 활용한다 교사 모델을 사용하여 음성 언어 텍스트 생성을 안내합니다. 실험적 널리 사용되는 두 개의 SLT 데이터 세트(즉, PHIONIX-2014T 및 CSL-Daily)에 대한 결과, 제안된 XmDA 프레임워크가 유의하고 일관적임을 입증한다 기준 모형을 능가합니다. 광범위한 분석을 통해 XmDA가 표현을 줄임으로써 구어 텍스트 생성을 향상시킨다 비디오와 텍스트 사이의 거리 및 처리 개선 저주파 단어와 긴 문장. 

 

 

SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation

 

Converting text into the structured query language (Text2SQL) is a research hotspot in the field of natural language processing (NLP), which has broad application prospects. In the era of big data, the use of databases has penetrated all walks of life, in which the collected data is large in scale, diverse in variety, and wide in scope, making the data query cumbersome and inefficient, and putting forward higher requirements for the Text2SQL model. In practical applications, the current mainstream end-to-end Text2SQL model is not only difficult to build due to its complex structure and high requirements for training data, but also difficult to adjust due to massive parameters. In addition, the accuracy of the model is hard to achieve the desired result. Based on this, this paper proposes a pipelined Text2SQL method: SPSQL. This method disassembles the Text2SQL task into four subtasks--table selection, column selection, SQL generation, and value filling, which can be converted into a text classification problem, a sequence labeling problem, and two text generation problems, respectively. Then, we construct data formats of different subtasks based on existing data and improve the accuracy of the overall model by improving the accuracy of each submodel. We also use the named entity recognition module and data augmentation to optimize the overall model. We construct the dataset based on the marketing business data of the State Grid Corporation of China. Experiments demonstrate our proposed method achieves the best performance compared with the end-to-end method and other pipeline methods.

 

텍스트를 구조화된 쿼리 언어(Text2SQL)로 변환하는 것은 연구이다 광범위한 자연어 처리(NLP) 분야의 핫스팟 응용 전망. 빅데이터 시대에 데이터베이스의 사용은 수집된 데이터의 규모가 큰 모든 계층에 침투했다, 다양하고 범위가 넓어서 데이터 쿼리를 번거롭게 하고 비효율적이며 Text2에 대한 더 높은 요구사항을 제시합니다SQL 모델입니다. 인 실용적인 응용, 현재 주류 종단 간 텍스트2SQL 모델은 그렇지 않습니다 복잡한 구조와 높은 요구사항 때문에 건설하기가 어려울 뿐이다 교육 데이터이지만 방대한 매개 변수로 인해 조정하기도 어렵습니다. 인 또한 모델의 정확도는 원하는 결과를 얻기 어렵습니다. 이를 바탕으로 본 논문에서는 파이프라인 Text2를 제안한다SQL 메서드: SPSQL. 이것. 메소드: 텍스트2를 분해합니다SQL 작업을 네 가지 하위 작업(테이블 선택, 변환 가능한 열 선택, SQL 생성 및 값 채우기 텍스트 분류 문제, 시퀀스 레이블링 문제 및 두 개의 텍스트로 분류됩니다 각각의 세대 문제. 그런 다음 서로 다른 데이터 형식을 구성합니다 기존 데이터를 기반으로 한 하위 작업 및 전체 모델의 정확도 향상 각 하위 모델의 정확도를 향상시킴으로써. 명명된 엔티티도 사용합니다 전체 모델을 최적화하기 위한 인식 모듈 및 데이터 확대. 우리가 State Grid의 마케팅 비즈니스 데이터를 기반으로 데이터 세트를 구성합니다 주식회사 중국. 실험은 우리가 제안한 방법이 다음을 달성한다는 것을 증명한다 엔드 투 엔드 방식 및 기타 파이프라인과 비교한 최고의 성능 방법들. 

 

 

반응형

댓글