본문 바로가기
오늘의 자연어 처리

[2022-12-18] 오늘의 자연어처리

by 지환이아빠 2022. 12. 18.
반응형

Using Natural Language Processing to Predict Costume Core Vocabulary of Historical Artifacts

 

Historic dress artifacts are a valuable source for human studies. In particular, they can provide important insights into the social aspects of their corresponding era. These insights are commonly drawn from garment pictures as well as the accompanying descriptions and are usually stored in a standardized and controlled vocabulary that accurately describes garments and costume items, called the Costume Core Vocabulary. Building an accurate Costume Core from garment descriptions can be challenging because the historic garment items are often donated, and the accompanying descriptions can be based on untrained individuals and use a language common to the period of the items. In this paper, we present an approach to use Natural Language Processing (NLP) to map the free-form text descriptions of the historic items to that of the controlled vocabulary provided by the Costume Core. Despite the limited dataset, we were able to train an NLP model based on the Universal Sentence Encoder to perform this mapping with more than 90% test accuracy for a subset of the Costume Core vocabulary. We describe our methodology, design choices, and development of our approach, and show the feasibility of predicting the Costume Core for unseen descriptions. With more garment descriptions still being curated to be used for training, we expect to have higher accuracy for better generalizability.

 

역사적인 의상 공예품들은 인간 연구에 귀중한 자료이다. 인 특히, 그들은 사회적 측면에 대한 중요한 통찰력을 제공할 수 있다. 그들의 대응하는 시대 이러한 통찰은 일반적으로 의복에서 도출된다. 첨부된 설명뿐만 아니라 사진도 있으며 일반적으로 a에 저장됩니다. 의복을 정확하게 설명하는 표준화되고 통제된 어휘 코스튬 코어 어휘라고 불리는 코스튬 아이템. 정확한 의상 제작 의복 설명의 핵심은 역사적인 의복 때문에 어려울 수 있습니다. 아이템들은 종종 기부되고, 동반되는 설명은 다음에 기초할 수 있다. 훈련되지 않은 개인과 항목의 기간에 공통된 언어를 사용합니다. 인 본 논문에서는 자연어 처리(NLP)를 사용하여 다음과 같은 접근법을 제시한다. 역사적 항목에 대한 자유 형식의 텍스트 설명을 매핑합니다. 코스튬 코어에서 제공하는 통제된 어휘. 제한에도 불구하고 데이터 세트, 우리는 보편적 문장을 기반으로 NLP 모델을 훈련할 수 있었다. 부분 집합에 대해 90% 이상의 테스트 정확도로 이 매핑을 수행하는 인코더 코스튬 코어 어휘를 사용합니다. 우리는 우리의 방법론, 디자인 선택, 그리고 우리의 접근 방식의 개발, 그리고 예측의 실현 가능성을 보여준다. 보이지 않는 설명을 위한 코스튬 코어입니다. 의류에 대한 설명이 더 많이 남아 있는 경우 훈련에 사용되도록 큐레이팅된 우리는 더 높은 정확도를 기대한다. 더 나은 일반화 가능성 

 

 

The effects of gender bias in word embeddings on depression prediction

 

Word embeddings are extensively used in various NLP problems as a state-of-the-art semantic feature vector representation. Despite their success on various tasks and domains, they might exhibit an undesired bias for stereotypical categories due to statistical and societal biases that exist in the dataset they are trained on. In this study, we analyze the gender bias in four different pre-trained word embeddings specifically for the depression category in the mental disorder domain. We use contextual and non-contextual embeddings that are trained on domain-independent as well as clinical domain-specific data. We observe that embeddings carry bias for depression towards different gender groups depending on the type of embeddings. Moreover, we demonstrate that these undesired correlations are transferred to the downstream task for depression phenotype recognition. We find that data augmentation by simply swapping gender words mitigates the bias significantly in the downstream task.

 

단어 임베딩은 다양한 NLP 문제에서 광범위하게 사용된다. 최첨단 의미론적 특징 벡터 표현. 그들의 성공에도 불구하고 다양한 작업과 영역에서, 그들은 원하지 않는 편향을 보일 수 있다. 에 존재하는 통계적, 사회적 편견으로 인한 고정관념적 범주 그들이 훈련받은 데이터 세트. 이 연구에서, 우리는 성 편견을 분석한다. 우울증을 위해 특별히 미리 훈련된 네 가지 단어 임베딩 정신 장애 영역의 범주입니다. 우리는 문맥적이고 비문맥적인 방법을 사용한다. 임상적으로뿐만 아니라 도메인 독립적으로 훈련된 임베딩 도메인별 데이터. 우리는 임베딩이 우울증에 대한 편견을 가지고 있다는 것을 관찰한다. 임베딩 유형에 따라 다른 성별 그룹으로 이동합니다. 게다가. 우리는 이러한 원하지 않는 상관관계가 다음과 같이 전달된다는 것을 증명한다. 우울증 표현형 인식을 위한 다운스트림 작업. 우리는 그 자료를 찾았다. 단순히 성별 단어를 교환함으로써 증가는 편견을 상당히 완화시킨다. 다운스트림 작업에서. 

 

 

ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning

 

Large language models show improved downstream task performance when prompted to generate step-by-step reasoning to justify their final answers. These reasoning steps greatly improve model interpretability and verification, but objectively studying their correctness (independent of the final answer) is difficult without reliable methods for automatic evaluation. We simply do not know how often the stated reasoning steps actually support the final end task predictions. In this work, we present ROSCOE, a suite of interpretable, unsupervised automatic scores that improve and extend previous text generation evaluation metrics. To evaluate ROSCOE against baseline metrics, we design a typology of reasoning errors and collect synthetic and human evaluation scores on commonly used reasoning datasets. In contrast with existing metrics, ROSCOE can measure semantic consistency, logicality, informativeness, fluency, and factuality - among other traits - by leveraging properties of step-by-step rationales. We empirically verify the strength of our metrics on five human annotated and six programmatically perturbed diagnostics datasets - covering a diverse set of tasks that require reasoning skills and show that ROSCOE can consistently outperform baseline metrics.

 

대형 언어 모델은 메시지가 표시될 때 향상된 다운스트림 작업 성능을 보여줍니다. 최종 답변을 정당화하기 위해 단계별 추론을 생성합니다. 이것들 추론 단계는 모델 해석 가능성과 검증을 크게 향상시키지만, 객관적으로 그들의 정확성을 연구하는 것(최종 답과 동일)은 다음과 같다. 신뢰할 수 있는 자동 평가 방법이 없으면 어렵습니다. 우리는 단순히 하지 않는다. 명시된 추론 단계가 실제로 최종 작업을 지원하는 빈도를 파악합니다. 예측 본 연구에서는 해석 가능한 일련의 ROSCOE를 제시한다. 이전 텍스트 생성을 개선하고 확장하는 감독되지 않은 자동 점수 평가 지표 기준 메트릭과 비교하여 ROSCOE를 평가하기 위해, 우리는 다음을 설계한다. 추론 오류의 유형학과 합성 및 인간 평가 점수 수집 일반적으로 사용되는 추론 데이터 세트에 대해. 기존 메트릭과 달리 ROSCOE 의미론적 일관성, 논리성, 정보성, 유창성을 측정할 수 있다. 사실성 - 다른 특성들 중에서도 - 단계별 특성을 활용함으로써. 이성적인 사람 우리는 5명의 인간에 대한 메트릭의 강도를 경험적으로 검증한다. 주석이 달린 6개의 프로그래밍 방식으로 교란된 진단 데이터 세트 - 을 포함한다. 추론 기술이 필요하고 ROSCOE가 할 수 있다는 것을 보여주는 다양한 작업 세트 기준 메트릭을 지속적으로 능가합니다. 

 

 

반응형

댓글