Hubness Reduction Improves Sentence-BERT Semantic Spaces
Abstract:Semantic representations of text, i.e. representations of natural language which capture meaning by geometry, are essential for areas such as information retrieval and document grouping. High-dimensional trained dense vectors have received much attention in recent years as such representations. We investigate the structure of semantic spaces that arise from embeddings made with Sentence-BERT and find that the representations suffer from a well-known problem in high dimensions called hubness. Hubness results in asymmetric neighborhood relations, such that some texts (the hubs) are neighbours of many other texts while most texts (so-called anti-hubs), are neighbours of few or no other texts. We quantify the semantic quality of the embeddings using hubness scores and error rate of a neighbourhood based classifier. We find that when hubness is high, we can reduce error rate and hubness using hubness reduction methods. We identify a combination of two methods as resulting in the best reduction. For example, on one of the tested pretrained models, this combined method can reduce hubness by about 75% and error rate by about 9%. Thus, we argue that mitigating hubness in the embedding space provides better semantic representations of text.
추상화:텍스트의 의미론적 표현, 즉 기하학적으로 의미를 포착하는 자연어의 표현은 정보 검색 및 문서 그룹화와 같은 영역에 필수적이다. 고차원 훈련된 밀집 벡터는 이러한 표현으로서 최근 몇 년 동안 많은 관심을 받고 있다. 우리는 Sentence-BERT로 만들어진 임베딩에서 발생하는 의미 공간의 구조를 조사하고 표현이 허브니스라고 불리는 높은 차원에서 잘 알려진 문제를 겪는다는 것을 발견했다. 허브성(hubness)은 비대칭 이웃 관계를 초래하는데, 일부 텍스트(허브)는 다른 많은 텍스트의 이웃인 반면, 대부분의 텍스트(이른바 안티허브)는 다른 텍스트가 적거나 전혀 없는 이웃이다. 이웃 기반 분류기의 허브성 점수와 오류율을 사용하여 임베딩의 의미론적 품질을 정량화한다. 우리는 hubness가 높을 때 hubness 감소 방법을 사용하여 오류율과 hubness를 줄일 수 있음을 발견했다. 우리는 최적의 감소를 초래하는 두 가지 방법의 조합을 식별한다. 예를 들어, 테스트된 사전 훈련된 모델 중 하나에서, 이 결합된 방법은 약 75%의 허브성과 약 9%의 오차율을 감소시킬 수 있다. 따라서, 우리는 임베딩 공간에서 허브성을 완화하는 것이 텍스트의 더 나은 의미론적 표현을 제공한다고 주장한다.
ESG Accountability Made Easy: DocQA at Your Service
Abstract:We present Deep Search DocQA. This application enables information extraction from documents via a question-answering conversational assistant. The system integrates several technologies from different AI disciplines consisting of document conversion to machine-readable format (via computer vision), finding relevant data (via natural language processing), and formulating an eloquent response (via large language models). Users can explore over 10,000 Environmental, Social, and Governance (ESG) disclosure reports from over 2000 corporations. The Deep Search platform can be accessed at: this https URL.
추상화:Deep Search DocQA를 소개합니다. 이 애플리케이션은 질문에 대답하는 대화 보조자를 통해 문서에서 정보를 추출할 수 있습니다. 이 시스템은 (컴퓨터 비전을 통해) 문서를 기계로 읽을 수 있는 형식으로 변환하고 (자연어 처리를 통해) 관련 데이터를 찾고 (대규모 언어 모델을 통해) 웅변적인 응답을 공식화하는 것으로 구성된 다양한 AI 분야의 여러 기술을 통합한다. 사용자는 2000개 이상의 기업에서 10,000개 이상의 ESG(Environmental, Social, and Governance) 공시 보고서를 검색할 수 있습니다. Deep Search 플랫폼은 다음 https URL에서 액세스할 수 있습니다.
Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through Dialect Identification using Transformer-based Approach
Abstract:In this paper, we present our approach for the "Nuanced Arabic Dialect Identification (NADI) Shared Task 2023". We highlight our methodology for subtask 1 which deals with country-level dialect identification. Recognizing dialects plays an instrumental role in enhancing the performance of various downstream NLP tasks such as speech recognition and translation. The task uses the Twitter dataset (TWT-2023) that encompasses 18 dialects for the multi-class classification problem. Numerous transformer-based models, pre-trained on Arabic language, are employed for identifying country-level dialects. We fine-tune these state-of-the-art models on the provided dataset. The ensembling method is leveraged to yield improved performance of the system. We achieved an F1-score of 76.65 (11th rank on the leaderboard) on the test dataset.
추상화:본 논문에서는 "Nuanced Arabia Valent Identification (NADI) Shared Task 2023"을 위한 접근 방식을 제시한다. 우리는 국가 수준 사투리 식별을 다루는 하위 작업 1에 대한 방법론을 강조한다. 방언을 인식하는 것은 음성 인식 및 번역과 같은 다양한 다운스트림 NLP 작업의 성능을 높이는 데 도구적인 역할을 한다. 과제는 다중 클래스 분류 문제에 대해 18개 방언을 포괄하는 트위터 데이터 세트(TWT-2023)를 사용한다. 국가 수준의 방언을 식별하기 위해서는 사전에 아랍어에 대해 훈련된 수많은 트랜스포머 기반 모델이 사용된다. 우리는 제공된 데이터 세트에서 이러한 최첨단 모델을 미세 조정한다. 앙상블 방법은 시스템의 향상된 성능을 산출하기 위해 활용된다. 테스트 데이터 세트에서 F1-점수 76.65(리더보드 11위)를 달성했다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-12-05] 오늘의 자연어처리 (1) | 2023.12.05 |
---|---|
[2023-12-04] 오늘의 자연어처리 (0) | 2023.12.04 |
[2023-12-02] 오늘의 자연어처리 (1) | 2023.12.02 |
[2023-12-01] 오늘의 자연어처리 (1) | 2023.12.01 |
[2023-11-30] 오늘의 자연어처리 (0) | 2023.11.30 |
댓글