본문 바로가기
오늘의 자연어 처리

[2022-10-06] 오늘의 자연어처리

by 지환이아빠 2022. 10. 6.
반응형

Improving Sentiment Analysis By Emotion Lexicon Approach on Vietnamese Texts

 

The sentiment analysis task has various applications in practice. In the sentiment analysis task, words and phrases that represent positive and negative emotions are important. Finding out the words that represent the emotion from the text can improve the performance of the classification models for the sentiment analysis task. In this paper, we propose a methodology that combines the emotion lexicon with the classification model for enhancing the accuracy of the models. Our experimental results show that the emotion lexicon combined with the classification model improves the performance of models.

 

감정 분석 작업은 실제로 다양한 응용 프로그램을 가지고 있다. 에서 감정 분석 작업, 긍정과 부정의 단어와 구. 감정은 중요하다. 감정을 나타내는 단어 찾기 텍스트는 분류 모델의 성능을 향상시킬 수 있습니다. 감정 분석 작업. 본 논문에서, 우리는 다음을 결합하는 방법론을 제안한다. 의 정확성을 높이기 위한 분류 모델이 있는 감정 어휘. 모델들 우리의 실험 결과는 감정 어휘가 결합되었다는 것을 보여준다. 분류 모형을 사용하면 모형의 성능이 향상됩니다. 

 

 

Ask Me Anything: A simple strategy for prompting language models

 

Large language models (LLMs) transfer well to new tasks out-of-the-box simply given a natural language prompt that demonstrates how to perform the task and no additional training. Prompting is a brittle process wherein small modifications to the prompt can cause large variations in the model predictions, and therefore significant effort is dedicated towards designing a painstakingly "perfect prompt" for a task. To mitigate the high degree of effort involved in prompt-design, we instead ask whether producing multiple effective, yet imperfect, prompts and aggregating them can lead to a high quality prompting strategy. Our observations motivate our proposed prompting method, ASK ME ANYTHING (AMA). We first develop an understanding of the effective prompt formats, finding that question-answering (QA) prompts, which encourage open-ended generation ("Who went to the park?") tend to outperform those that restrict the model outputs ("John went to the park. Output True or False."). Our approach recursively uses the LLM itself to transform task inputs to the effective QA format. We apply the collected prompts to obtain several noisy votes for the input's true label. We find that the prompts can have very different accuracies and complex dependencies and thus propose to use weak supervision, a procedure for combining the noisy predictions, to produce the final predictions for the inputs. We evaluate AMA across open-source model families (e.g., Neo, BLOOM, OPT, and T0) and model sizes (125M-175B parameters), demonstrating an average performance lift of 10.2% over the few-shot baseline. This simple strategy enables the open-source GPT-Neo-6B model to match and exceed the performance of few-shot GPT3-175B on 15 of 20 popular benchmarks. Averaged across these tasks, the GPT-Neo-6B model outperforms few-shot GPT3-175B. We release our code here: this https URL

 

대규모 언어 모델(LLM)은 즉시 새로운 작업으로 전환됩니다. 작업을 수행하는 방법을 보여주는 자연어 프롬프트가 주어지고 추가 훈련은 없습니다. 프롬프트는 작은 부분에서 깨지기 쉬운 프로세스입니다. 프롬프트를 수정하면 모델에 큰 변화가 발생할 수 있습니다. 예측, 그리고 따라서 상당한 노력이 설계에 전념한다. 작업에 대해 "완벽한 신속성"을 발휘합니다. 높은 정도를 완화하기 위해 신속한 설계에 관련된 노력, 대신 우리는 여러 개를 생산하는지 묻는다. 효과적이지만 불완전한 프롬프트와 이를 종합하면 높은 수준으로 이어질 수 있습니다. 품질 촉진 전략 우리의 관찰은 제안된 프롬프트에 동기를 부여한다. 방법, 무엇이든 물어보세요(AMA). 우리는 먼저 그것에 대한 이해를 발전시킨다. 효과적인 프롬프트 형식, 질의응답(QA) 프롬프트 찾기, 개방적인 세대("누가 공원에 갔습니까?")를 장려하는 경향이 있다. 모델 출력을 제한하는 것들("존은 공원에 갔다. 출력 참 또는 거짓."). 우리의 접근 방식은 LLM 자체를 반복적으로 사용하여 작업 입력을 변환한다. 효과적인 QA 형식을 준수합니다. 수집된 프롬프트를 적용하여 여러 가지 정보를 얻습니다. 입력의 진정한 라벨에 대한 시끄러운 투표 우리는 프롬프트가 다음을 가질 수 있다는 것을 발견했다. 다른 정확도와 복잡한 의존성, 따라서 약한 사용을 제안한다. 시끄러운 예측을 결합하는 절차인 감독, 생산하기 위해. 입력에 대한 최종 예측. 우리는 오픈 소스 모델에 걸쳐 AMA를 평가한다. 패밀리(예: Neo, BLOOM, OPT 및 T0) 및 모델 크기(125M-175B) 매개 변수), 평균 성능 상승률 10.2%를 보여 줍니다. 퓨샷 베이스라인 이 간단한 전략은 오픈 소스 GPT-Neo-6B를 가능하게 한다. 20개 중 15개에서 퓨샷 GPT3-175B의 성능과 일치하고 이를 능가하는 모델 통속적인 기준 이러한 작업에서 평균화된 GPT-Neo-6B 모델 몇 발의 GPT3-175B보다 성능이 우수합니다. 여기서 코드를 공개합니다. 이 https URL 

 

 

Text Characterization Toolkit

 

In NLP, models are usually evaluated by reporting single-number performance scores on a number of readily available benchmarks, without much deeper analysis. Here, we argue that - especially given the well-known fact that benchmarks often contain biases, artefacts, and spurious correlations - deeper results analysis should become the de-facto standard when presenting new models or benchmarks. We present a tool that researchers can use to study properties of the dataset and the influence of those properties on their models' behaviour. Our Text Characterization Toolkit includes both an easy-to-use annotation tool, as well as off-the-shelf scripts that can be used for specific analyses. We also present use-cases from three different domains: we use the tool to predict what are difficult examples for given well-known trained models and identify (potentially harmful) biases and heuristics that are present in a dataset.

 

NLP에서 모델은 일반적으로 단일 번호 성능을 보고하여 평가됩니다. 더 깊이 있게 설명하지 않고 쉽게 이용할 수 있는 여러 벤치마크에 대한 점수 분석. 여기서, 우리는 특히 잘 알려진 사실을 고려할 때 다음과 같이 주장한다. 벤치마크는 종종 편향, 아티팩트 및 거짓 상관 관계를 포함합니다 - 더 깊이 결과 분석은 새로운 모델을 제시할 때 디스코딩 표준이 되어야 한다. 또는 벤치마크. 우리는 연구자들이 특성을 연구하는 데 사용할 수 있는 도구를 제시한다. 데이터셋과 해당 속성이 모델에 미치는 영향 행실태 텍스트 특성화 툴킷에는 사용하기 쉬운 두 가지 기능이 모두 포함되어 있습니다. 주석 도구 및 특정 용도로 사용할 수 있는 기성 스크립트 분석 우리는 또한 세 가지 다른 도메인의 사용 사례를 제시한다: 우리는 잘 알려진 훈련된 모델에 대한 어려운 예가 무엇인지 예측하는 도구 그리고 에 존재하는 (매우 해로운) 편견과 휴리스틱을 식별한다. 데이터 집합 

 

 

반응형

댓글