본문 바로가기
오늘의 자연어 처리

[2023-08-08] 오늘의 자연어처리

by 지환이아빠 2023. 8. 8.
반응형

Efficient Sentiment Analysis: A Resource-Aware Evaluation of Feature Extraction Techniques, Ensembling, and Deep Learning Models

 

While reaching for NLP systems that maximize accuracy, other important metrics of system performance are often overlooked. Prior models are easily forgotten despite their possible suitability in settings where large computing resources are unavailable or relatively more costly. In this paper, we perform a broad comparative evaluation of document-level sentiment analysis models with a focus on resource costs that are important for the feasibility of model deployment and general climate consciousness. Our experiments consider different feature extraction techniques, the effect of ensembling, task-specific deep learning modeling, and domain-independent large language models (LLMs). We find that while a fine-tuned LLM achieves the best accuracy, some alternate configurations provide huge (up to 24, 283 *) resource savings for a marginal (<1%) loss in accuracy. Furthermore, we find that for smaller datasets, the differences in accuracy shrink while the difference in resource consumption grows further.

 

정확성을 극대화하는 NLP 시스템을 구축하는 한편, 다른 중요성도 있습니다 시스템 성능에 대한 메트릭은 종종 간과됩니다. 이전 모델은 쉽게 사용할 수 있습니다 대규모 컴퓨팅이 가능한 설정에서 적합할지도 모르는 상태임에도 불구하고 잊혀짐 리소스를 사용할 수 없거나 상대적으로 비용이 많이 듭니다. 이 논문에서 우리는 문서 수준 감정 분석 모델의 광범위한 비교 평가 모델의 실현 가능성에 중요한 자원 비용에 대한 초점 배치 및 일반 기후 의식. 우리의 실험은 다음을 고려한다 다양한 특징 추출 기술, 앙상블 효과, 작업별 딥 러닝 모델링 및 도메인 독립형 대용량 언어 모델(LLM). 미세 조정된 LLM이 최고의 정확도를 달성하지만, 일부 대체 구성은 막대한 리소스 절감 효과(최대 24,283*)를 제공합니다 정확도의 한계(<1%) 손실. 게다가, 우리는 그것이 더 작다는 것을 발견한다 데이터 세트, 정확도의 차이는 줄어들고 리소스의 차이는 감소합니다 소비가 더 늘다. 

 

 

Learning to Paraphrase Sentences to Different Complexity Levels

 

While sentence simplification is an active research topic in NLP, its adjacent tasks of sentence complexification and same-level paraphrasing are not. To train models on all three tasks, we present two new unsupervised datasets. We compare these datasets, one labeled by a weak classifier and the other by a rule-based approach, with a single supervised dataset. Using these three datasets for training, we perform extensive experiments on both multitasking and prompting strategies. Compared to other systems trained on unsupervised parallel data, models trained on our weak classifier labeled dataset achieve state-of-the-art performance on the ASSET simplification benchmark. Our models also outperform previous work on sentence level targeting. Finally, we establish how a handful of Large Language Models perform on these tasks under a zero-shot setting.

 

문장 단순화는 NLP에서 활발한 연구 주제이지만, 그것의 문장의 복잡화와 같은 수준의 의역화의 인접한 작업은 다음과 같다 것은 아니다. 세 가지 작업 모두에 대해 모델을 훈련하기 위해, 우리는 감독되지 않은 새로운 두 가지를 제시한다 데이터 세트. 우리는 약한 분류기로 레이블이 지정된 데이터 세트와 데이터 세트를 비교한다 하나의 감독된 데이터 세트를 사용하는 규칙 기반 접근 방식에 의해 다른 데이터가 생성됩니다. 이것들을 사용하여 교육을 위한 세 가지 데이터 세트, 우리는 두 가지 모두에 대해 광범위한 실험을 수행한다 멀티태스킹 및 활성화 전략. 교육을 받은 다른 시스템과 비교하여 감독되지 않은 병렬 데이터, 레이블이 지정된 취약 분류기에 대해 훈련된 모델 데이터셋을 통해 자산 단순화에 대한 최첨단 성능 달성 벤치마크하다. 우리 모델은 문장 수준에서도 이전 작업보다 성능이 뛰어납니다 표적의. 마지막으로, 우리는 소수의 대규모 언어 모델이 어떻게 수행하는지 설정한다 제로샷 설정에서 이러한 작업을 수행할 수 있습니다. 

 

 

Efficient Sentiment Analysis: A Resource-Aware Evaluation of Feature Extraction Techniques, Ensembling, and Deep Learning Models

 

While reaching for NLP systems that maximize accuracy, other important metrics of system performance are often overlooked. Prior models are easily forgotten despite their possible suitability in settings where large computing resources are unavailable or relatively more costly. In this paper, we perform a broad comparative evaluation of document-level sentiment analysis models with a focus on resource costs that are important for the feasibility of model deployment and general climate consciousness. Our experiments consider different feature extraction techniques, the effect of ensembling, task-specific deep learning modeling, and domain-independent large language models (LLMs). We find that while a fine-tuned LLM achieves the best accuracy, some alternate configurations provide huge (up to 24, 283 *) resource savings for a marginal (<1%) loss in accuracy. Furthermore, we find that for smaller datasets, the differences in accuracy shrink while the difference in resource consumption grows further.

 

정확성을 극대화하는 NLP 시스템을 구축하는 한편, 다른 중요성도 있습니다 시스템 성능에 대한 메트릭은 종종 간과됩니다. 이전 모델은 쉽게 사용할 수 있습니다 대규모 컴퓨팅이 가능한 설정에서 적합할지도 모르는 상태임에도 불구하고 잊혀짐 리소스를 사용할 수 없거나 상대적으로 비용이 많이 듭니다. 이 논문에서 우리는 문서 수준 감정 분석 모델의 광범위한 비교 평가 모델의 실현 가능성에 중요한 자원 비용에 대한 초점 배치 및 일반 기후 의식. 우리의 실험은 다음을 고려한다 다양한 특징 추출 기술, 앙상블 효과, 작업별 딥 러닝 모델링 및 도메인 독립형 대용량 언어 모델(LLM). 미세 조정된 LLM이 최고의 정확도를 달성하지만, 일부 대체 구성은 막대한 리소스 절감 효과(최대 24,283*)를 제공합니다 정확도의 한계(<1%) 손실. 게다가, 우리는 그것이 더 작다는 것을 발견한다 데이터 세트, 정확도의 차이는 줄어들고 리소스의 차이는 감소합니다 소비가 더 늘다. 

 

 

반응형

댓글