Domain-Specific Text Generation for Machine Translation
Preservation of domain knowledge from the source to target is crucial in any translation workflow. It is common in the translation industry to receive highly specialized projects, where there is hardly any parallel in-domain data. In such scenarios where there is insufficient in-domain data to fine-tune Machine Translation (MT) models, producing translations that are consistent with the relevant context is challenging. In this work, we propose a novel approach to domain adaptation leveraging state-of-the-art pretrained language models (LMs) for domain-specific data augmentation for MT, simulating the domain characteristics of either (a) a small bilingual dataset, or (b) the monolingual source text to be translated. Combining this idea with back-translation, we can generate huge amounts of synthetic bilingual in-domain data for both use cases. For our investigation, we use the state-of-the-art Transformer architecture. We employ mixed fine-tuning to train models that significantly improve translation of in-domain texts. More specifically, in both scenarios, our proposed methods achieve improvements of approximately 5-6 BLEU and 2-3 BLEU, respectively, on the Arabic-to-English and English-to-Arabic language pairs. Furthermore, the outcome of human evaluation corroborates the automatic evaluation results.
소스에서 대상으로의 도메인 지식의 보존은 모든 경우에 중요하다. 변환 워크플로우 번역업계에서 받는 것은 흔한 일이다. 도메인 내 병렬 데이터가 거의 없는 고도로 전문화된 프로젝트 세부 조정에 필요한 도메인 내 데이터가 충분하지 않은 경우 일관된 번역을 생성하는 MT(기계 번역) 모델 관련 문맥이 있는 것은 어려운 일입니다. 이 작품에서 우리는 소설을 제안한다. 최첨단 사전 훈련된 언어를 활용한 도메인 적응 접근법 MT를 위한 도메인별 데이터 증강을 위한 모델(LM), 시뮬레이션 (a) 소규모 이중언어 데이터 세트의 도메인 특성 또는 (b) 번역할 단일 언어 원본 텍스트입니다. 이 아이디어를 결합하는 것은 역확산, 우리는 도메인 내에서 엄청난 양의 합성 이중언어들을 생성할 수 있다. 두 사용 사례에 대한 데이터입니다. 우리의 조사를 위해, 우리는 최첨단 기술을 사용합니다. 트랜스포머 아키텍처. 우리는 혼합 미세 조정을 사용하여 다음과 같은 모델을 훈련시킨다. 도메인 내 텍스트의 번역을 크게 개선한다. 좀 더 구체적으로 말하면, 두 시나리오 모두, 제안된 방법은 약 5-6의 개선을 달성한다. 아랍어 대 영어, 영어 대 아랍어 각각 BLEU와 2-3 BLEU 언어 쌍 게다가, 인간 평가의 결과는 다음 사항을 확증한다. 자동 평가 결과
MILAN: Masked Image Pretraining on Language Assisted Representation
Self-attention based transformer models have been dominating many computer vision tasks in the past few years. Their superb model qualities heavily depend on the excessively large labeled image datasets. In order to reduce the reliance on large labeled datasets, reconstruction based masked autoencoders are gaining popularity, which learn high quality transferable representations from unlabeled images. For the same purpose, recent weakly supervised image pretraining methods explore language supervision from text captions accompanying the images. In this work, we propose masked image pretraining on language assisted representation, dubbed as MILAN. Instead of predicting raw pixels or low level features, our pretraining objective is to reconstruct the image features with substantial semantic signals that are obtained using caption supervision. Moreover, to accommodate our reconstruction target, we propose a more efficient prompting decoder architecture and a semantic aware mask sampling mechanism, which further advance the transfer performance of the pretrained model. Experimental results demonstrate that MILAN delivers higher accuracy than the previous works. When the masked autoencoder is pretrained and finetuned on ImageNet-1K dataset with an input resolution of 224x224, MILAN achieves a top-1 accuracy of 85.4% on ViTB/16, surpassing previous state-of-the-arts by 1%. In the downstream semantic segmentation task, MILAN achieves 52.7 mIoU using ViT-B/16 backbone on ADE20K dataset, outperforming previous masked pretraining results by 4 points.
자기 주의 기반 변압기 모델은 많은 컴퓨터를 지배해 왔다. 지난 몇 년간의 비전 과제들. 그들의 뛰어난 모델 품질은 크게 좌우된다. 너무 큰 레이블링된 이미지 데이터 세트에 있습니다. 를 줄이기 위해 레이블이 지정된 대규모 데이터 세트에 대한 의존성, 재구성 기반 마스킹된 자동 인코더 높은 품질의 양도 가능한 표현을 학습하는 인기를 얻고 있습니다. 분류되지 않은 이미지에서 추출합니다. 같은 목적으로, 최근에 약하게 감독된 이미지 사전 교육 방법 텍스트 캡션에서 언어 감독 탐색 이미지를 첨부합니다. 본 연구에서 우리는 마스크된 이미지 사전 훈련을 제안한다. 밀란이라고 불리는 언어 보조 표현 원시 예측 대신 픽셀이나 낮은 수준의 특징들, 우리의 사전 훈련 목표는 다음을 사용하여 얻은 상당한 의미 신호를 가진 이미지 특징 자막 감독 게다가, 우리의 재건 목표를 수용하기 위해서 보다 효율적인 프롬프트 디코더 아키텍처와 의미 인식을 제안한다. 마스크 샘플링 메커니즘의 전달 성능을 더욱 향상시킵니다. 사전 훈련된 모델 실험 결과는 밀라노가 더 높은 성능을 제공한다는 것을 보여줍니다. 전작보다 정확하다. 마스킹된 자동 인코더가 사전 학습된 경우 224x224의 입력 해상도로 ImageNet-1K 데이터 세트에서 미세 조정, 밀라노 ViTB/16에서 85.4%의 상위 1위 정확도 달성, 이전 제품보다 뛰어남 최첨단 기술의 1퍼센트 다운스트림 시맨틱 분할 작업에서, MILAN은 ADE20K 데이터 세트에서 ViT-B/16 백본을 사용하여 52.7mIoU 달성, 성능 향상 이전에 마스킹된 사전 훈련 결과는 4점.
Proceedings End-to-End Compositional Models of Vector-Based Semantics
The workshop End-to-End Compositional Models of Vector-Based Semantics was held at NUI Galway on 15 and 16 August 2022 as part of the 33rd European Summer School in Logic, Language and Information (ESSLLI 2022). The workshop was sponsored by the research project 'A composition calculus for vector-based semantic modelling with a localization for Dutch' (Dutch Research Council 360-89-070, 2017-2022). The workshop program was made up of two parts, the first part reporting on the results of the aforementioned project, the second part consisting of contributed papers on related approaches. The present volume collects the contributed papers and the abstracts of the invited talks.
벡터 기반 의미론의 워크숍 엔드 투 엔드 구성 모델은 다음과 같다. 2022년 8월 15일과 16일, 제33회 유럽 여름의 일환으로 NUI 골웨이에서 개최되었다. 논리, 언어 및 정보 관련 학교(ESSLI 2022). 그 워크숍은 연구 프로젝트 '작문 미적분학'의 후원을 받았다. 더치 현지화를 통한 벡터 기반 의미 모델링의 경우(네덜란드) 연구회 360-89-070, 2017-2022). 워크숍 프로그램은 다음과 같이 구성되었다. 두 부분, 앞에서 언급한 결과에 대한 첫 번째 부분 프로젝트, 두 번째 부분은 관련 논문으로 구성되어 있다. 접근하다 본서는 기고된 논문과 그 논문들을 수집한다. 초청 회담의 요약
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-08-17] 오늘의 자연어처리 (0) | 2022.08.17 |
---|---|
[2022-08-16] 오늘의 자연어처리 (0) | 2022.08.16 |
[2022-08-15] 오늘의 자연어처리 (0) | 2022.08.15 |
[2022-08-15] 오늘의 자연어처리 (0) | 2022.08.15 |
[2022-08-15] 오늘의 자연어처리 (0) | 2022.08.15 |
댓글