본문 바로가기
오늘의 자연어 처리

[2023-02-05] 오늘의 자연어처리

by 지환이아빠 2023. 2. 5.
반응형

Predefined domain specific embeddings of food concepts and recipes: A case study on heterogeneous recipe datasets

 

Although recipe data are very easy to come by nowadays, it is really hard to find a complete recipe dataset - with a list of ingredients, nutrient values per ingredient, and per recipe, allergens, etc. Recipe datasets are usually collected from social media websites where users post and publish recipes. Usually written with little to no structure, using both standardized and non-standardized units of measurement. We collect six different recipe datasets, publicly available, in different formats, and some including data in different languages. Bringing all of these datasets to the needed format for applying a machine learning (ML) pipeline for nutrient prediction [1], [2], includes data normalization using dictionary-based named entity recognition (NER), rule-based NER, as well as conversions using external domain-specific resources. From the list of ingredients, domain-specific embeddings are created using the same embedding space for all recipes - one ingredient dataset is generated. The result from this normalization process is two corpora - one with predefined ingredient embeddings and one with predefined recipe embeddings. On all six recipe datasets, the ML pipeline is evaluated. The results from this use case also confirm that the embeddings merged using the domain heuristic yield better results than the baselines.

 

비록 레시피 데이터는 오늘날 얻기 매우 쉽지만, 그것은 정말 어렵다 재료 목록, 영양소 값이 포함된 완전한 레시피 데이터 세트를 찾습니다 성분별, 조리법별, 알레르겐 등. 레시피 데이터 세트는 일반적으로 다음과 같다 사용자가 레시피를 게시하고 게시하는 소셜 미디어 웹 사이트에서 수집한 것입니다. 일반적으로 표준화된 와 를 모두 사용하여 구조가 거의 또는 전혀 없이 작성됩니다 표준화되지 않은 측정 단위. 우리는 6가지 다른 요리법을 수집한다 데이터 세트, 공개적으로 사용 가능, 다양한 형식 및 일부 데이터 포함 다른 언어들. 이러한 모든 데이터셋을 다음을 위해 필요한 형식으로 전환 영양 예측을 위한 기계 학습(ML) 파이프라인 적용 [1], [2], 사전 기반 명명된 엔티티 인식을 사용한 데이터 정규화 포함 (NER), 규칙 기반 NER 및 외부 도메인별 변환 자원. 성분 목록에서 도메인별 임베딩이 생성됩니다 모든 레시피에 동일한 임베딩 공간 사용 - 한 가지 성분 데이터 세트는 생성된. 이 정규화 프로세스의 결과는 두 개의 말뭉치입니다. 하나는 다음과 같습니다 사전 정의된 재료 임베딩과 사전 정의된 레시피 임베딩이 포함된 것. 온 6가지 레시피 데이터 세트 모두, ML 파이프라인이 평가된다. 결과는 다음과 같습니다 사용 사례 또한 도메인 휴리스틱을 사용하여 임베딩이 병합되었음을 확인합니다 기준선보다 더 나은 결과를 낳습니다. 

 

 

How to choose "Good" Samples for Text Data Augmentation

 

Deep learning-based text classification models need abundant labeled data to obtain competitive performance. Unfortunately, annotating large-size corpus is time-consuming and laborious. To tackle this, multiple researches try to use data augmentation to expand the corpus size. However, data augmentation may potentially produce some noisy augmented samples. There are currently no works exploring sample selection for augmented samples in nature language processing field. In this paper, we propose a novel self-training selection framework with two selectors to select the high-quality samples from data augmentation. Specifically, we firstly use an entropy-based strategy and the model prediction to select augmented samples. Considering some samples with high quality at the above step may be wrongly filtered, we propose to recall them from two perspectives of word overlap and semantic similarity. Experimental results show the effectiveness and simplicity of our framework.

 

딥 러닝 기반 텍스트 분류 모델은 풍부한 레이블링된 데이터가 필요하다 경쟁력을 얻다. 불행하게도, 큰 크기의 말뭉치에 주석을 다는 것은 시간이 많이 걸리고 수고가 많습니다. 이를 해결하기 위해 여러 연구에서 데이터 확대를 통해 말뭉치 크기를 확장할 수 있습니다. 그러나 데이터 증가는 다음과 같다 잠재적으로 노이즈가 많은 증강 샘플을 생성합니다. 현재 작업이 없습니다 자연어 처리에서 증강된 샘플을 위한 샘플 선택 탐색 이 논문에서, 우리는 새로운 자기 훈련 선택 프레임워크를 제안한다 두 개의 선택기를 사용하여 데이터 확대에서 고품질 샘플을 선택할 수 있습니다. 구체적으로, 우리는 먼저 엔트로피 기반 전략과 모델 예측을 사용한다 증강된 샘플을 선택합니다. 품질이 우수한 샘플을 고려하여 위의 단계는 잘못 필터링될 수 있습니다. 우리는 두 단계에서 그것들을 회수할 것을 제안합니다 단어 중첩 및 의미론적 유사성의 관점. 실험 결과는 다음을 보여준다 우리 프레임워크의 효율성과 단순성. 

 

 

TransFool: An Adversarial Attack against Neural Machine Translation Models

 

Deep neural networks have been shown to be vulnerable to small perturbations of their inputs, known as adversarial attacks. In this paper, we investigate the vulnerability of Neural Machine Translation (NMT) models to adversarial attacks and propose a new attack algorithm called TransFool. To fool NMT models, TransFool builds on a multi-term optimization problem and a gradient projection step. By integrating the embedding representation of a language model, we generate fluent adversarial examples in the source language that maintain a high level of semantic similarity with the clean samples. Experimental results demonstrate that, for different translation tasks and NMT architectures, our white-box attack can severely degrade the translation quality while the semantic similarity between the original and the adversarial sentences stays high. Moreover, we show that TransFool is transferable to unknown target models. Finally, based on automatic and human evaluations, TransFool leads to improvement in terms of success rate, semantic similarity, and fluency compared to the existing attacks both in white-box and black-box settings. Thus, TransFool permits us to better characterize the vulnerability of NMT models and outlines the necessity to design strong defense mechanisms and more robust NMT systems for real-life applications.

 

심층 신경망은 작은 동요에 취약한 것으로 나타났다 적대적 공격으로 알려진 그들의 입력의. 이 논문에서 우리는 다음을 조사한다 적대적인 신경 기계 번역(NMT) 모델의 취약성 공격하고 TransFool이라는 새로운 공격 알고리즘을 제안합니다. NMT를 속이려면 모델, TransFool은 다항 최적화 문제 및 그레이디언트를 기반으로 구축됩니다 투영 단계. 언어의 임베딩 표현을 통합함으로써 모델, 우리는 소스 언어에서 유창한 적대적 사례를 생성한다 깨끗한 샘플과 높은 수준의 의미론적 유사성을 유지한다. 실험 결과는 다양한 번역 작업과 NMT에 대해 다음을 보여준다 아키텍처, 우리의 화이트박스 공격은 번역을 심각하게 저하시킬 수 있다 원본과 적대적인 것 사이의 의미론적 유사성인 반면 품질 문장이 높은 상태를 유지합니다. 게다가, 우리는 TransFool이 다음과 같이 이전할 수 있다는 것을 보여준다 알 수 없는 대상 모델입니다. 마지막으로, 자동적이고 인간적인 평가를 바탕으로, TransFool은 성공률, 의미론적 유사성, 화이트 박스와 블랙 박스 모두에서 기존 공격과 비교했을 때 유창함 설정. 따라서 TransFool은 취약성을 더 잘 특성화할 수 있게 해줍니다 강력한 방어 메커니즘을 설계할 필요성을 개략적으로 설명하고 NMT 모델에 대해 설명합니다 실생활 애플리케이션을 위한 보다 강력한 NMT 시스템. 

 

 

반응형

댓글