본문 바로가기
오늘의 자연어 처리

[2022-12-17] 오늘의 자연어처리

by 지환이아빠 2022. 12. 17.
반응형

Using Natural Language Processing to Predict Costume Core Vocabulary of Historical Artifacts

 

Historic dress artifacts are a valuable source for human studies. In particular, they can provide important insights into the social aspects of their corresponding era. These insights are commonly drawn from garment pictures as well as the accompanying descriptions and are usually stored in a standardized and controlled vocabulary that accurately describes garments and costume items, called the Costume Core Vocabulary. Building an accurate Costume Core from garment descriptions can be challenging because the historic garment items are often donated, and the accompanying descriptions can be based on untrained individuals and use a language common to the period of the items. In this paper, we present an approach to use Natural Language Processing (NLP) to map the free-form text descriptions of the historic items to that of the controlled vocabulary provided by the Costume Core. Despite the limited dataset, we were able to train an NLP model based on the Universal Sentence Encoder to perform this mapping with more than 90% test accuracy for a subset of the Costume Core vocabulary. We describe our methodology, design choices, and development of our approach, and show the feasibility of predicting the Costume Core for unseen descriptions. With more garment descriptions still being curated to be used for training, we expect to have higher accuracy for better generalizability.

 

역사적인 의상 공예품들은 인간 연구에 귀중한 자료이다. 인 특히, 그들은 사회적 측면에 대한 중요한 통찰력을 제공할 수 있다. 그들의 대응하는 시대 이러한 통찰은 일반적으로 의복에서 도출된다. 첨부된 설명뿐만 아니라 사진도 있으며 일반적으로 a에 저장됩니다. 의복을 정확하게 설명하는 표준화되고 통제된 어휘 코스튬 코어 어휘라고 불리는 코스튬 아이템. 정확한 의상 제작 의복 설명의 핵심은 역사적인 의복 때문에 어려울 수 있습니다. 아이템들은 종종 기부되고, 동반되는 설명은 다음에 기초할 수 있다. 훈련되지 않은 개인과 항목의 기간에 공통된 언어를 사용합니다. 인 본 논문에서는 자연어 처리(NLP)를 사용하여 다음과 같은 접근법을 제시한다. 역사적 항목에 대한 자유 형식의 텍스트 설명을 매핑합니다. 코스튬 코어에서 제공하는 통제된 어휘. 제한에도 불구하고 데이터 세트, 우리는 보편적 문장을 기반으로 NLP 모델을 훈련할 수 있었다. 부분 집합에 대해 90% 이상의 테스트 정확도로 이 매핑을 수행하는 인코더 코스튬 코어 어휘를 사용합니다. 우리는 우리의 방법론, 디자인 선택, 그리고 우리의 접근 방식의 개발, 그리고 예측의 실현 가능성을 보여준다. 보이지 않는 설명을 위한 코스튬 코어입니다. 의류에 대한 설명이 더 많이 남아 있는 경우 훈련에 사용되도록 큐레이팅된 우리는 더 높은 정확도를 기대한다. 더 나은 일반화 가능성 

 

 

FreCDo: A Large Corpus for French Cross-Domain Dialect Identification

 

We present a novel corpus for French dialect identification comprising 413,522 French text samples collected from public news websites in Belgium, Canada, France and Switzerland. To ensure an accurate estimation of the dialect identification performance of models, we designed the corpus to eliminate potential biases related to topic, writing style, and publication source. More precisely, the training, validation and test splits are collected from different news websites, while searching for different keywords (topics). This leads to a French cross-domain (FreCDo) dialect identification task. We conduct experiments with four competitive baselines, a fine-tuned CamemBERT model, an XGBoost based on fine-tuned CamemBERT features, a Support Vector Machines (SVM) classifier based on fine-tuned CamemBERT features, and an SVM based on word n-grams. Aside from presenting quantitative results, we also make an analysis of the most discriminative features learned by CamemBERT. Our corpus is available at this https URL.

 

우리는 다음으로 구성된 프랑스 방언 식별을 위한 새로운 말뭉치를 제시한다. 벨기에의 공공 뉴스 웹사이트에서 수집된 413,522개의 프랑스어 텍스트 샘플, 캐나다, 프랑스, 스위스. 방언의 정확한 추정을 보장하기 위해 모델의 식별 성능, 우리는 제거하기 위해 말뭉치를 설계했다. 주제, 작문 스타일 및 출판 소스와 관련된 잠재적 편견. 더 정확하게, 훈련, 검증 및 테스트 분할은 다음으로부터 수집된다. 서로 다른 키워드(검색어)를 검색하는 동안 다른 뉴스 웹 사이트를 검색할 수 있습니다. 이것. 프랑스어 교차 도메인(FreCDO) 방언 식별 작업으로 이어진다. 우리는 지휘합니다. 4개의 경쟁 기준선, 미세 조정된 CamemBERT 모델, SVM(Support Vector Machines)인 미세 조정된 CamemBERT 기능을 기반으로 한 XGBoost 세분화된 CamemBERT 기능을 기반으로 하는 분류기 및 Word 기반의 SVM n그램 정량적인 결과를 제시하는 것 외에도, 우리는 또한 분석을 한다. CamemBERT에 의해 학습된 가장 차별적인 특징들. 우리의 말뭉치는 이 https URL에서 사용할 수 있습니다. 

 

 

Multi-VALUE: A Framework for Cross-Dialectal English NLP

 

Dialect differences caused by regional, social, and economic barriers cause performance discrepancies for many groups of users of language technology. Fair, inclusive, and equitable language technology must critically be dialect invariant, meaning that performance remains constant over dialectal shifts. Current English systems often fall significantly short of this ideal since they are designed and tested on a single dialect: Standard American English. We introduce Multi-VALUE -- a suite of resources for evaluating and achieving English dialect invariance. We build a controllable rule-based translation system spanning 50 English dialects and a total of 189 unique linguistic features. Our translation maps Standard American English text to synthetic form of each dialect, which uses an upper-bound on the natural density of features in that dialect. First, we use this system to build stress tests for question answering, machine translation, and semantic parsing tasks. Stress tests reveal significant performance disparities for leading models on non-standard dialects. Second, we use this system as a data augmentation technique to improve the dialect robustness of existing systems. Finally, we partner with native speakers of Chicano and Indian English to release new gold-standard variants of the popular CoQA task.

 

지역적, 사회적, 경제적 장벽으로 인한 방언의 차이가 원인이다. 언어 기술 사용자의 많은 그룹에 대한 성능 불일치. 공정하고 포괄적이며 공평한 언어 기술은 비판적으로 방언이어야 한다. 불변성, 즉 성능이 변증법적 이동에 대해 일정하게 유지됨을 의미한다. 현재의 영어 시스템은 종종 이 이상적인 것에 비해 상당히 부족하다. 표준 미국 영어라는 단일 방언으로 설계되고 테스트됩니다. 우리가 평가 및 달성을 위한 리소스 모음인 Multi-VALUE를 소개합니다. 영어 방언 불변성 제어 가능한 규칙 기반 번역을 구축합니다. 50개의 영어 방언과 총 189개의 독특한 언어학에 걸친 체계 특징들. 우리의 번역은 표준 미국 영어 텍스트를 합성 형태로 매핑한다. 특징의 자연 밀도에 상한을 사용하는 각 방언의 그 방언으로 첫째, 우리는 질문에 대한 스트레스 테스트를 구축하기 위해 이 시스템을 사용한다. 응답, 기계 번역 및 의미 분석 작업. 스트레스 테스트에서 알 수 있습니다. 비표준에서 주요 모델의 상당한 성능 차이 방언 둘째, 우리는 이 시스템을 데이터 증강 기술로 사용하여 기존 시스템의 방언 견고성을 개선한다. 마지막으로, 우리는 파트너입니다. 새로운 금본위제를 발표하기 위해 치카노와 인도 영어를 모국어로 하는 사람들 인기 있는 CoQA 작업의 변형입니다. 

 

 

반응형

댓글