본문 바로가기
오늘의 자연어 처리

[2023-03-01] 오늘의 자연어처리

by 지환이아빠 2023. 3. 1.
반응형

Dr ChatGPT, tell me what I want to hear: How prompt knowledge impacts health answer correctness

 

Generative pre-trained language models (GPLMs) like ChatGPT encode in the model's parameters knowledge the models observe during the pre-training phase. This knowledge is then used at inference to address the task specified by the user in their prompt. For example, for the question-answering task, the GPLMs leverage the knowledge and linguistic patterns learned at training to produce an answer to a user question. Aside from the knowledge encoded in the model itself, answers produced by GPLMs can also leverage knowledge provided in the prompts. For example, a GPLM can be integrated into a retrieve-then-generate paradigm where a search engine is used to retrieve documents relevant to the question; the content of the documents is then transferred to the GPLM via the prompt. In this paper we study the differences in answer correctness generated by ChatGPT when leveraging the model's knowledge alone vs. in combination with the prompt knowledge. We study this in the context of consumers seeking health advice from the model. Aside from measuring the effectiveness of ChatGPT in this context, we show that the knowledge passed in the prompt can overturn the knowledge encoded in the model and this is, in our experiments, to the detriment of answer correctness. This work has important implications for the development of more robust and transparent question-answering systems based on generative pre-trained language models.

 

ChatGPT 인코딩과 같은 생성 사전 훈련 언어 모델(GPLM) 모델의 매개 변수 지식은 모델이 사전 교육 단계에서 관찰합니다. 이 지식은 추론에 사용되어 다음에 의해 지정된 작업을 처리한다 사용자를 선택합니다. 예를 들어, 질의응답 태스크의 경우 GPLM 교육에서 배운 지식과 언어 패턴을 활용하여 생산한다 사용자 질문에 대한 대답. 모델에 암호화된 지식을 제외하고는 그 자체로, GPLM에 의해 생산된 답변은 또한 제공된 지식을 활용할 수 있다 프롬프트가 표시. 예를 들어, GPLM은 검색 후 생성에 통합될 수 있습니다 검색 엔진이 관련 문서를 검색하는 데 사용되는 패러다임 질문; 그런 다음 문서의 내용이 GPLM을 통해 전달됩니다 이 논문에서 우리는 생성된 정답의 차이를 연구한다 ChatGPT를 통해 모델의 지식을 단독으로 활용하는 경우와 결합하여 신속한 지식. 우리는 건강을 추구하는 소비자의 맥락에서 이것을 연구한다 모델의 조언. ChatGPT의 효과를 측정하는 것을 제외하고는 이 맥락에서, 우리는 프롬프트에서 전달된 지식이 뒤집힐 수 있다는 것을 보여준다 모델에 암호화된 지식과 이것은 우리의 실험에서 답의 정확성을 해치는 것. 이 작업은 다음과 같은 중요한 의미를 갖습니다 에 기반한 보다 강력하고 투명한 질의응답 시스템의 개발 생성 사전 훈련된 언어 모델. 

 

 

ChatGPT: A Meta-Analysis after 2.5 Months

 

ChatGPT, a chatbot developed by OpenAI, has gained widespread popularity and media attention since its release in November 2022. However, little hard evidence is available regarding its perception in various sources. In this paper, we analyze over 300,000 tweets and more than 150 scientific papers to investigate how ChatGPT is perceived and discussed. Our findings show that ChatGPT is generally viewed as of high quality, with positive sentiment and emotions of joy dominating in social media. Its perception has slightly decreased since its debut, however, with joy decreasing and (negative) surprise on the rise, and it is perceived more negatively in languages other than English. In recent scientific papers, ChatGPT is characterized as a great opportunity across various fields including the medical domain, but also as a threat concerning ethics and receives mixed assessments for education. Our comprehensive meta-analysis of ChatGPT's current perception after 2.5 months since its release can contribute to shaping the public debate and informing its future development. We make our data available.

 

OpenAI가 개발한 챗봇 ChatGPT는 광범위한 인기를 얻고 있다 2022년 11월 출시 이후 언론의 주목을 받고 있다. 하지만 조금 어렵다 다양한 출처에서 그것의 인식과 관련하여 증거를 이용할 수 있다. 이 점에서. 논문, 우리는 300,000개 이상의 트윗과 150개 이상의 과학 논문을 분석한다 ChatGPT가 어떻게 인식되고 논의되는지 조사한다. 우리의 연구 결과는 다음과 같다 ChatGPT는 일반적으로 높은 품질, 긍정적인 정서를 가진 것으로 간주된다 소셜 미디어에서 지배적인 기쁨의 감정들. 그 인식은 약간 다르다 그러나 데뷔 이후 기쁨이 줄어들고 (부정적인) 놀라움과 함께 감소했다 증가하고 있으며, 그것은 다음과 같은 언어들에서 더 부정적으로 인식된다 영어. 최근 과학 논문에서 ChatGPT는 위대한 것으로 특징지어진다 의료 영역을 포함한 다양한 분야에 걸친 기회, 그러나 또한 윤리에 대한 위협과 교육에 대한 혼합 평가를 받습니다. 우리들의 2.5개월 후 ChatGPT의 현재 인식에 대한 포괄적인 메타 분석 그것의 발표가 공개 토론을 형성하고 그것을 알리는 데 기여할 수 있기 때문에 장래의 발전. 우리는 우리의 데이터를 이용할 수 있다. 

 

 

Quantifying Valence and Arousal in Text with Multilingual Pre-trained Transformers

 

The analysis of emotions expressed in text has numerous applications. In contrast to categorical analysis, focused on classifying emotions according to a pre-defined set of common classes, dimensional approaches can offer a more nuanced way to distinguish between different emotions. Still, dimensional methods have been less studied in the literature. Considering a valence-arousal dimensional space, this work assesses the use of pre-trained Transformers to predict these two dimensions on a continuous scale, with input texts from multiple languages and domains. We specifically combined multiple annotated datasets from previous studies, corresponding to either emotional lexica or short text documents, and evaluated models of multiple sizes and trained under different settings. Our results show that model size can have a significant impact on the quality of predictions, and that by fine-tuning a large model we can confidently predict valence and arousal in multiple languages. We make available the code, models, and supporting data.

 

텍스트로 표현된 감정의 분석은 수많은 응용 분야를 가지고 있다. 인 범주형 분석과 대조적으로, 감정을 다음에 따라 분류하는 데 초점을 맞춥니다 사전 정의된 공통 클래스 집합, 차원 접근법은 더 많은 것을 제공할 수 있다 서로 다른 감정을 구별하는 미묘한 방법. 그래도 치수 방법들은 문헌에서 덜 연구되어 왔다. 원자가 자극을 고려하고 있다 차원 공간, 이 작업은 사전 훈련된 변압기의 사용을 평가한다 입력 텍스트를 사용하여 이 두 차원을 연속적인 척도로 예측한다 여러 언어와 도메인을 사용할 수 있습니다. 우리는 구체적으로 여러 주석을 결합했다 감정 어휘에 해당하는 이전 연구의 데이터 세트 짧은 텍스트 문서, 다양한 크기의 평가된 모델 및 아래에서 훈련됨 다른 설정. 우리의 결과는 모델 크기가 상당할 수 있다는 것을 보여준다 예측 품질에 미치는 영향, 그리고 큰 모델을 미세 조정함으로써 우리는 다국어로 자신 있게 원자가와 각성을 예측할 수 있다. 우리는 만든다 코드, 모델 및 지원 데이터를 사용할 수 있습니다. 

 

 

반응형

댓글