본문 바로가기
오늘의 자연어 처리

[2023-01-13] 오늘의 자연어처리

by 지환이아빠 2023. 1. 13.
반응형

Dual Learning for Large Vocabulary On-Device ASR

 

Dual learning is a paradigm for semi-supervised machine learning that seeks to leverage unsupervised data by solving two opposite tasks at once. In this scheme, each model is used to generate pseudo-labels for unlabeled examples that are used to train the other model. Dual learning has seen some use in speech processing by pairing ASR and TTS as dual tasks. However, these results mostly address only the case of using unpaired examples to compensate for very small supervised datasets, and mostly on large, non-streaming models. Dual learning has not yet been proven effective for using unsupervised data to improve realistic on-device streaming models that are already trained on large supervised corpora. We provide this missing piece though an analysis of an on-device-sized streaming conformer trained on the entirety of Librispeech, showing relative WER improvements of 10.7%/5.2% without an LM and 11.7%/16.4% with an LM.

 

이중 학습은 다음을 추구하는 준지도 기계 학습의 패러다임이다 두 개의 반대 작업을 동시에 해결하여 비지도 데이터를 활용한다. 이 점에서. 각 모델은 레이블이 지정되지 않은 예제에 대한 유사 변수를 생성하는 데 사용됩니다 다른 모델을 훈련시키는 데 사용됩니다. 이중 학습은 다음과 같은 분야에서 어느 정도 활용되고 있습니다 ASR과 TTS를 이중 작업으로 페어링하여 음성 처리를 수행합니다. 그러나 이러한 결과는 대부분은 매우 보완하기 위해 짝을 이루지 않은 예를 사용하는 경우만을 다룬다 소규모의 감독 데이터 세트, 그리고 대부분 대규모의 비독점 모델에서. 이중 학습은 아직 감독되지 않은 데이터를 사용하는 데 효과적이라는 것이 증명되지 않았다 이미 대규모로 훈련된 현실적인 장치 스트리밍 모델을 개선합니다 감독 말뭉치. 우리는 의 분석을 통해 이 누락된 조각을 제공한다 기기 크기의 스트리밍 컨포머가 Libris 음성 전체에 대해 교육을 받았습니다, LM을 사용하지 않을 경우 10.7%/5.2%, 11.7%/16.4%의 상대적 WER 개선을 보여줍니다 LM으로. 

 

 

Multilingual Entity and Relation Extraction from Unified to Language-specific Training

 

Entity and relation extraction is a key task in information extraction, where the output can be used for downstream NLP tasks. Existing approaches for entity and relation extraction tasks mainly focus on the English corpora and ignore other languages. Thus, it is critical to improving performance in a multilingual setting. Meanwhile, multilingual training is usually used to boost cross-lingual performance by transferring knowledge from languages (e.g., high-resource) to other (e.g., low-resource) languages. However, language interference usually exists in multilingual tasks as the model parameters are shared among all languages. In this paper, we propose a two-stage multilingual training method and a joint model called Multilingual Entity and Relation Extraction framework (mERE) to mitigate language interference across languages. Specifically, we randomly concatenate sentences in different languages to train a Language-universal Aggregator (LA), which narrows the distance of embedding representations by obtaining the unified language representation. Then, we separate parameters to mitigate interference via tuning a Language-specific Switcher (LS), which includes several independent sub-modules to refine the language-specific feature representation. After that, to enhance the relational triple extraction, the sentence representations concatenated with the relation feature are used to recognize the entities. Extensive experimental results show that our method outperforms both the monolingual and multilingual baseline methods. Besides, we also perform detailed analysis to show that mERE is lightweight but effective on relational triple extraction and mERE{} is easy to transfer to other backbone models of multi-field tasks, which further demonstrates the effectiveness of our method.

 

엔티티 및 관계 추출은 다음과 같은 정보 추출의 핵심 과제는 다음과 같습니다 출력은 다운스트림 NLP 작업에 사용할 수 있습니다. 엔티티에 대한 기존 접근 방식 그리고 관계 추출 작업은 주로 영어 코퍼스에 초점을 맞추고 무시한다 타국어. 따라서 성능을 개선하는 데 중요합니다 다국어 환경. 한편, 다국어 교육은 일반적으로 강화하기 위해 사용된다 언어로부터 지식을 이전함으로써 언어 간 성과(예: 다른 언어(예: 저자원)로 이동합니다. 하지만 언어는 모델 매개변수가 그렇듯이, 일반적으로 다국어 작업에 간섭이 존재한다 모든 언어가 공유하는. 본 논문에서는 2단계 다국어를 제안한다 교육 방법 및 다국어 엔터티 및 관계라는 공동 모델 언어 간의 언어 간섭을 완화하기 위한 추출 프레임워크(mERE). 특히, 우리는 훈련하기 위해 다른 언어로 된 문장을 무작위로 연결한다 임베딩 거리를 좁히는 LA(Language-Universal Aggregator) 통일된 언어 표현을 얻음으로써 표현. 그러면 저희가 언어별 조정을 통해 간섭을 완화하기 위한 별도의 매개 변수 전환기(LS)는 여러 개의 독립적인 하위 모듈을 포함하여 언어별 특징 표현. 그 후에, 관계를 강화하기 위해 삼중 추출, 관계와 연관된 문장 표현 피쳐는 도면요소를 인식하는 데 사용됩니다. 광범위한 실험 결과는 다음을 보여준다 우리의 방법이 단일 언어 및 다국어 기준선을 모두 능가한다는 것 방법들. 게다가, 우리는 또한 mERE가 가볍지만 관계적인 삼중 추출에 효과적이며 mERE{}는 하기 쉽다 다중 필드 작업의 다른 백본 모델로 이전합니다 는 우리 방법의 효과를 보여줍니다. 

 

 

Structured Case-based Reasoning for Inference-time Adaptation of Text-to-SQL parsers

 

Inference-time adaptation methods for semantic parsing are useful for leveraging examples from newly-observed domains without repeated fine-tuning. Existing approaches typically bias the decoder by simply concatenating input-output example pairs (cases) from the new domain at the encoder's input in a Seq-to-Seq model. Such methods cannot adequately leverage the structure of logical forms in the case examples. We propose StructCBR, a structured case-based reasoning approach, which leverages subtree-level similarity between logical forms of cases and candidate outputs, resulting in better decoder decisions. For the task of adapting Text-to-SQL models to unseen schemas, we show that exploiting case examples in a structured manner via StructCBR offers consistent performance improvements over prior inference-time adaptation methods across five different databases. To the best of our knowledge, we are the first to attempt inference-time adaptation of Text-to-SQL models, and harness trainable structured similarity between subqueries.

 

시맨틱 구문 분석을 위한 추론 시간 적응 방법은 다음과 같다 반복적인 미세 조정 없이 새로 추가된 도메인의 예제를 활용한다. 기존 접근법은 일반적으로 단순히 연결함으로써 디코더를 편향시킨다 인코더 입력의 새 도메인에서 입력-출력 예제 쌍(케이스) Seq-to-Seq 모형에서. 그러한 방법은 다음과 같은 구조를 적절히 활용할 수 없다 사례의 논리적 형식. 구조화된 Struct CBR을 제안합니다 사례 기반 추론 접근법, 사이의 하위 트리 수준 유사성을 활용한다 논리적 형태의 사례와 후보 출력, 결과적으로 더 나은 디코더를 제공한다 결정. Text-to-SQL 모델을 보이지 않는 스키마에 적용하는 작업을 위해, 우리는 Struct CBR을 통해 구조화된 방식으로 사례 사례를 활용하는 것은 다음을 제공합니다 이전 추론 시간 적응에 비해 일관된 성능 향상 메소드를 사용할 수 있습니다. 우리가 아는 한, 우리는 Text-to-SQL 모델의 추론 시간 적응을 최초로 시도했다 하위 쿼리 간의 훈련 가능한 구조적 유사성을 활용합니다. 

 

 

반응형

댓글