본문 바로가기
오늘의 자연어 처리

[2023-08-10] 오늘의 자연어처리

by 지환이아빠 2023. 8. 10.
반응형

Hybrid Retrieval-Augmented Generation for Real-time Composition Assistance

 

Retrieval augmented models show promise in enhancing traditional language models by improving their contextual understanding, integrating private data, and reducing hallucination. However, the processing time required for retrieval augmented large language models poses a challenge when applying them to tasks that require real-time responses, such as composition assistance. To overcome this limitation, we propose the Hybrid Retrieval-Augmented Generation (HybridRAG) framework that leverages a hybrid setting that combines both client and cloud models. HybridRAG incorporates retrieval-augmented memory generated asynchronously by a Large Language Model (LLM) in the cloud. By integrating this retrieval augmented memory, the client model acquires the capability to generate highly effective responses, benefiting from the LLM's capabilities. Furthermore, through asynchronous memory integration, the client model is capable of delivering real-time responses to user requests without the need to wait for memory synchronization from the cloud. Our experiments on Wikitext and Pile subsets show that HybridRAG achieves lower latency than a cloud-based retrieval-augmented LLM, while outperforming client-only models in utility.

 

검색 증강 모델은 전통적인 언어를 향상시킬 가능성을 보여준다 상황별 이해를 향상시키고 개인 데이터를 통합하여 모델을 구축합니다, 환각을 줄여주는 거죠. 그러나 검색에 필요한 처리 시간은 증강된 대형 언어 모델은 작업에 적용할 때 어려움을 초래한다 작곡 보조와 같은 실시간 응답이 필요합니다. 이 한계를 극복하기 위해 하이브리드 검색-증강을 제안한다 다음과 같은 하이브리드 설정을 활용하는 생성(HybridRAG) 프레임워크 클라이언트 모델과 클라우드 모델. HybridRAG는 검색 기능이 강화된 메모리를 통합합니다 클라우드에서 LLM(Large Language Model)에 의해 비동기적으로 생성됩니다. 타고 이 검색 증강 메모리를 통합하여, 클라이언트 모델은 다음을 획득한다 LLM의 이점을 활용하여 매우 효과적인 응답을 생성할 수 있는 능력 성능. 게다가, 비동기 메모리 통합을 통해, 클라이언트는 모델은 사용자 요청에 대해 실시간 응답을 제공할 수 있습니다 클라우드에서 메모리 동기화를 기다려야 합니다. 에 대한 우리의 실험은 Wikiteext 및 파일 하위 집합은 HybridRAG가 a보다 짧은 지연 시간을 달성한다는 것을 보여줍니다 클라우드 기반 검색 기능이 강화된 LLM은 클라이언트 전용 모델보다 성능이 우수합니다 효용. 

 

 

A Comparative Study on TF-IDF feature Weighting Method and its Analysis using Unstructured Dataset

 

Text Classification is the process of categorizing text into the relevant categories and its algorithms are at the core of many Natural Language Processing (NLP). Term Frequency-Inverse Document Frequency (TF-IDF) and NLP are the most highly used information retrieval methods in text classification. We have investigated and analyzed the feature weighting method for text classification on unstructured data. The proposed model considered two features N-Grams and TF-IDF on the IMDB movie reviews and Amazon Alexa reviews dataset for sentiment analysis. Then we have used the state-of-the-art classifier to validate the method i.e., Support Vector Machine (SVM), Logistic Regression, Multinomial Naive Bayes (Multinomial NB), Random Forest, Decision Tree, and k-nearest neighbors (KNN). From those two feature extractions, a significant increase in feature extraction with TF-IDF features rather than based on N-Gram. TF-IDF got the maximum accuracy (93.81%), precision (94.20%), recall (93.81%), and F1-score (91.99%) value in Random Forest classifier.

 

텍스트 분류는 텍스트를 관련된 텍스트로 분류하는 과정입니다 범주와 알고리즘은 많은 자연 언어의 핵심이다 처리(NLP). 용어 빈도-역 문서 빈도(TF-IDF) 및 NLP 텍스트 분류에서 가장 많이 사용되는 정보 검색 방법이다. 우리는 텍스트에 대한 특징 가중 방법을 조사하고 분석했다 비정형 데이터에 대한 분류입니다. 제안된 모델은 두 가지 특징을 고려했다 IMDB 영화 리뷰 및 아마존 알렉사 데이터 세트에 대한 N-Grams 및 TF-IDF 감정 분석을 위해. 그런 다음 우리는 최첨단 분류기를 사용하여 SVM(Vector Machine) 지원, 로지스틱 회귀 분석, 다항식 나이브 베이즈(다항 NB), 랜덤 포레스트, 의사결정 트리 및 k-근접 이웃(KNN). 그 두 가지 특징 추출로부터, 중요한 것은 기반이 아닌 TF-IDF 기능으로 특징 추출 증가 엔그램. TF-IDF는 최대 정확도(93.81%), 정밀도(94.20%), 리콜을 받았다 (93.81%), 랜덤 포레스트 분류기의 F1 점수(91.99%) 값. 

 

 

Social Media, Topic Modeling and Sentiment Analysis in Municipal Decision Support

 

Many cities around the world are aspiring to become. However, smart initiatives often give little weight to the opinions of average citizens. Social media are one of the most important sources of citizen opinions. This paper presents a prototype of a framework for processing social media posts with municipal decision-making in mind. The framework consists of a sequence of three steps: (1) determining the sentiment polarity of each social media post (2) identifying prevalent topics and mapping these topics to individual posts, and (3) aggregating these two pieces of information into a fuzzy number representing the overall sentiment expressed towards each topic. Optionally, the fuzzy number can be reduced into a tuple of two real numbers indicating the "amount" of positive and negative opinion expressed towards each topic. The framework is demonstrated on tweets published from Ostrava, Czechia over a period of about two months. This application illustrates how fuzzy numbers represent sentiment in a richer way and capture the diversity of opinions expressed on social media.

 

전 세계의 많은 도시들이 되기를 열망하고 있다. 그러나 영리하다 이니셔티브는 종종 보통 시민들의 의견에 거의 비중을 두지 않는다. 소셜 미디어는 시민 의견의 가장 중요한 원천 중 하나이다. 이것. 논문은 소셜 미디어 게시물을 처리하기 위한 프레임워크의 프로토타입을 제시한다 시의 의사결정을 염두에 두고. 그 틀은 다음의 순서로 구성되어 있다 세 단계: (1) 각 소셜 미디어 게시물의 감정 극성 결정 (2) 일반적인 주제를 식별하고 이러한 주제를 개별 게시물에 매핑합니다, 그리고 (3) 이 두 가지 정보를 퍼지 숫자로 통합한다 각 주제에 대해 표현된 전반적인 감정을 나타냅니다. 선택적으로, 퍼지수는 2개의 실수의 2배로 줄어들 수 있다 각 주제에 대해 표현된 긍정적인 의견과 부정적인 의견의 "양. 이 프레임워크는 체코 오스트라바에서 발행된 트윗에서 시연됩니다 약 두 달의 기간. 이 응용 프로그램은 퍼지 수가 어떻게 되는지 보여준다 정서를 보다 풍부하게 표현하고 다양한 견해를 포착하다 소셜 미디어에 표현되었다. 

 

 

반응형

댓글