A Dataset of Kurdish (Sorani) Named Entities -- An Amendment to Kurdish-BLARK Named Entities
Named Entity Recognition (NER) is one of the essential applications of Natural Language Processing (NLP). It is also an instrument that plays a significant role in many other NLP applications, such as Machine Translation (MT), Information Retrieval (IR), and Part of Speech Tagging (POST). Kurdish is an under-resourced language from the NLP perspective. Particularly, in all the categories, the lack of NER resources hinders other aspects of Kurdish processing. In this work, we present a data set that covers several categories of NEs in Kurdish (Sorani). The dataset is a significant amendment to a previously developed dataset in the Kurdish BLARK (Basic Language Resource Kit). It covers 11 categories and 33261 entries in total. The dataset is publicly available for non-commercial use under CC BY-NC-SA 4.0 license at this https URL.
명명된 엔티티 인식(NER)은 다음과 같은 필수 애플리케이션 중 하나입니다 자연어 처리(NLP). 그것은 또한 연주하는 악기이다 기계 번역과 같은 다른 많은 NLP 애플리케이션에서 중요한 역할을 수행합니다 (MT), 정보 검색(IR) 및 음성 태그(POST)의 일부입니다. 쿠르드어는 NLP 관점에서 자원이 부족한 언어. 특히, 모든 면에서 범주, NER 자원의 부족은 쿠르드족의 다른 측면을 방해한다 처리. 이 작업에서, 우리는 몇 가지 범주를 다루는 데이터 세트를 제시한다 쿠르드어(소라니어)의 NE. 데이터 세트는 a에 대한 중요한 수정 사항이다 쿠르드 BLARK(기본 언어 자원)에서 이전에 개발된 데이터 세트 총 11개 부문과 33261개 출품작을 망라하고 있다. 데이터 집합은 다음 사이트에서 CC BY-NC-SA 4.0 라이센스에 따라 비상업적 사용을 위해 공개적으로 사용할 수 있습니다 이 https URL.
Few-shot Learning for Cross-Target Stance Detection by Aggregating Multimodal Embeddings
Despite the increasing popularity of the stance detection task, existing approaches are predominantly limited to using the textual content of social media posts for the classification, overlooking the social nature of the task. The stance detection task becomes particularly challenging in cross-target classification scenarios, where even in few-shot training settings the model needs to predict the stance towards new targets for which the model has only seen few relevant samples during training. To address the cross-target stance detection in social media by leveraging the social nature of the task, we introduce CT-TN, a novel model that aggregates multimodal embeddings derived from both textual and network features of the data. We conduct experiments in a few-shot cross-target scenario on six different combinations of source-destination target pairs. By comparing CT-TN with state-of-the-art cross-target stance detection models, we demonstrate the effectiveness of our model by achieving average performance improvements ranging from 11% to 21% across different baseline models. Experiments with different numbers of shots show that CT-TN can outperform other models after seeing 300 instances of the destination target. Further, ablation experiments demonstrate the positive contribution of each of the components of CT-TN towards the final performance. We further analyse the network interactions between social media users, which reveal the potential of using social features for cross-target stance detection.
자세 감지 작업의 인기가 증가하고 있음에도 불구하고, 기존 접근법은 주로 소셜의 텍스트 콘텐츠를 사용하는 것으로 제한된다 분류를 위한 미디어 게시물, 작업의 사회적 성격을 간과한 게시물. 자세 감지 작업은 교차 대상에서 특히 어려워진다 분류 시나리오, 퓨샷 교육 설정에서도 모델 모델만 가지고 있는 새로운 목표에 대한 입장을 예측할 필요가 있다 훈련 중 관련 샘플을 거의 보지 못했습니다. 교차 표적 위치를 지정하려면 작업의 사회적 특성을 활용하여 소셜 미디어에서 탐지합니다 파생된 멀티모달 임베딩을 집계하는 새로운 모델인 CT-TN을 소개한다 데이터의 텍스트 및 네트워크 기능 모두에서. 우리는 a에서 실험을 수행한다 6개의 서로 다른 조합에 대한 퓨샷 교차 표적 시나리오 소스-대상 대상 쌍입니다. CT-TN과 최첨단 기술을 비교함으로써 교차 표적 자세 감지 모델, 우리는 우리의 효과를 입증한다 11%에서 21%에 이르는 평균 성능 향상을 달성하여 모델화 다양한 기준 모델에 적용됩니다. 다양한 샷 수를 사용한 실험 CT-TN이 300개의 인스턴스를 본 후 다른 모델보다 성능이 우수하다는 것을 보여줍니다 대상입니다. 또한, 절제 실험은 양성을 보여준다 최종 성능에 대한 CT-TN의 각 구성 요소의 기여. 우리는 소셜 미디어 사용자 간의 네트워크 상호 작용을 추가로 분석한다 교차 목표 입장을 위해 사회적 특징을 사용할 수 있는 가능성을 밝히다 탐지.
Adversarial Adaptation for French Named Entity Recognition
Named Entity Recognition (NER) is the task of identifying and classifying named entities in large-scale texts into predefined classes. NER in French and other relatively limited-resource languages cannot always benefit from approaches proposed for languages like English due to a dearth of large, robust datasets. In this paper, we present our work that aims to mitigate the effects of this dearth of large, labeled datasets. We propose a Transformer-based NER approach for French, using adversarial adaptation to similar domain or general corpora to improve feature extraction and enable better generalization. Our approach allows learning better features using large-scale unlabeled corpora from the same domain or mixed domains to introduce more variations during training and reduce overfitting. Experimental results on three labeled datasets show that our adaptation framework outperforms the corresponding non-adaptive models for various combinations of Transformer models, source datasets, and target corpora. We also show that adversarial adaptation to large-scale unlabeled corpora can help mitigate the performance dip incurred on using Transformer models pre-trained on smaller corpora.
명명된 엔티티 인식(NER)은 식별 및 분류 작업입니다 대규모 텍스트의 명명된 엔티티를 미리 정의된 클래스로 만듭니다. 프랑스어 NER와 다른 상대적으로 제한된 자원 언어들이 항상 혜택을 받을 수는 없다 크고 견고한 부족으로 인해 영어와 같은 언어에 대해 제안된 접근법 데이터 집합입니다. 이 논문에서, 우리는 영향을 완화하는 것을 목표로 하는 우리의 작업을 제시한다 레이블이 지정된 대규모 데이터 세트가 부족합니다. 우리는 트랜스포머 기반 NER을 제안한다 프랑스어를 위한 접근법, 유사한 영역 또는 일반에 대한 적대적 적응을 사용한다 corpora를 사용하여 기능 추출을 개선하고 일반화를 개선할 수 있습니다. 우리들의 접근 방식은 레이블이 없는 대규모 말뭉치를 사용하여 더 나은 기능을 학습할 수 있게 한다 동일한 도메인 또는 혼합 도메인에서 더 많은 변형을 도입하기 위해 훈련 및 과적합 감소. 레이블이 지정된 세 개의 데이터 세트에 대한 실험 결과 우리의 적응 프레임워크가 대응하는 비언어를 능가한다는 것을 보여준다 트랜스포머 모델, 소스 데이터 세트의 다양한 조합을 위한 모델 말뭉치를 노리다. 우리는 또한 대규모에 대한 적대적 적응을 보여준다 레이블이 지정되지 않은 말뭉치는 사용 시 발생하는 성능 저하를 완화하는 데 도움이 될 수 있습니다 소형 말뭉치에서 사전 교육을 받은 트랜스포머 모델.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-01-17] 오늘의 자연어처리 (0) | 2023.01.17 |
---|---|
[2023-01-16] 오늘의 자연어처리 (0) | 2023.01.16 |
[2023-01-14] 오늘의 자연어처리 (0) | 2023.01.14 |
[2023-01-13] 오늘의 자연어처리 (0) | 2023.01.13 |
[2023-01-12] 오늘의 자연어처리 (0) | 2023.01.12 |
댓글