본문 바로가기
오늘의 자연어 처리

[2023-06-18] 오늘의 자연어처리

by 지환이아빠 2023. 6. 18.
반응형

Matching Pairs: Attributing Fine-Tuned Models to their Pre-Trained Large Language Models

 

The wide applicability and adaptability of generative large language models (LLMs) has enabled their rapid adoption. While the pre-trained models can perform many tasks, such models are often fine-tuned to improve their performance on various downstream applications. However, this leads to issues over violation of model licenses, model theft, and copyright infringement. Moreover, recent advances show that generative technology is capable of producing harmful content which exacerbates the problems of accountability within model supply chains. Thus, we need a method to investigate how a model was trained or a piece of text was generated and what their pre-trained base model was. In this paper we take the first step to address this open problem by tracing back the origin of a given fine-tuned LLM to its corresponding pre-trained base model. We consider different knowledge levels and attribution strategies, and find that we can correctly trace back 8 out of the 10 fine tuned models with our best method.

 

생성적 대규모 언어 모델의 광범위한 적용성 및 적응성 (LLM)은 신속한 채택을 가능하게 했다. 사전 교육을 받은 모델은 다음과 같은 작업을 수행할 수 있습니다 많은 작업을 수행하며, 그러한 모델은 종종 그들의 개선을 위해 미세 조정된다 다양한 다운스트림 애플리케이션의 성능. 그러나 이는 문제로 이어진다 모델 라이선스 위반, 모델 도난 및 저작권 침해에 대해. 게다가, 최근의 발전은 생성 기술이 할 수 있다는 것을 보여준다 책임 문제를 악화시키는 유해한 콘텐츠 제작 모델 공급망 내에서. 따라서, 우리는 모델이 어떻게 훈련을 받았거나 텍스트가 생성되었고 사전 훈련된 기반이 무엇인지 모델은. 이 논문에서 우리는 이 미해결 문제를 해결하기 위한 첫 단계를 수행한다 주어진 미세 조정된 LLM의 원점을 해당 LLM으로 추적합니다 사전 훈련된 기본 모델. 우리는 다양한 지식 수준과 속성을 고려한다 전략, 그리고 우리가 10개의 벌금 중 8개를 정확하게 추적할 수 있다는 것을 발견한다 최적의 방법으로 모델을 조정했습니다. 

 

 

Can ChatGPT pass the Vietnamese National High School Graduation Examination?

 

This research article highlights the potential of AI-powered chatbots in education and presents the results of using ChatGPT, a large language model, to complete the Vietnamese National High School Graduation Examination (VNHSGE). The study dataset included 30 essays in the literature test case and 1,700 multiple-choice questions designed for other subjects. The results showed that ChatGPT was able to pass the examination with an average score of 6-7, demonstrating the technology's potential to revolutionize the educational landscape. The analysis of ChatGPT performance revealed its proficiency in a range of subjects, including mathematics, English, physics, chemistry, biology, history, geography, civic education, and literature, which suggests its potential to provide effective support for learners. However, further research is needed to assess ChatGPT performance on more complex exam questions and its potential to support learners in different contexts. As technology continues to evolve and improve, we can expect to see the use of AI tools like ChatGPT become increasingly common in educational settings, ultimately enhancing the educational experience for both students and educators.

 

이 연구 기사는 인공지능 기반 챗봇의 잠재력을 강조한다 교육 및 대형 언어 모델인 ChatGPT 사용의 결과를 제시한다 베트남 국립 고등학교 졸업 시험(VNHSGE)을 수료하다. 연구 데이터 세트에는 문헌 테스트 사례에 30편의 에세이와 1,700편의 에세이가 포함되었다 다른 과목을 위해 고안된 객관식 문제. 결과는 다음과 같았다 ChatGPT는 평균 6-7의 점수로 시험에 통과할 수 있었다, 교육에 혁명을 일으킬 수 있는 기술의 잠재력을 보여주는 것 풍경. ChatGPT 성과의 분석은 그것의 숙련도를 보여주었다 수학, 영어, 물리학, 화학, 생물학을 포함한 다양한 과목들, 그것을 시사하는 역사, 지리, 시민 교육, 그리고 문학 학습자에게 효과적인 지원을 제공할 수 있는 잠재력. 그러나, 추가적인 더 복잡한 시험 문제와 그것의 ChatGPT 수행을 평가하는 데 필요하다 다양한 맥락에서 학습자를 지원할 수 있는 잠재력. 기술이 계속됨에 따라 진화하고 개선하면, 우리는 ChatGPT와 같은 인공지능 도구의 사용을 볼 수 있을 것이다 교육 환경에서 점점 더 보편화되고, 궁극적으로 향상된다 학생과 교육자 모두를 위한 교육 경험. 

 

 

Quality and Efficiency of Manual Annotation: Pre-annotation Bias

 

This paper presents an analysis of annotation using an automatic pre-annotation for a mid-level annotation complexity task -- dependency syntax annotation. It compares the annotation efforts made by annotators using a pre-annotated version (with a high-accuracy parser) and those made by fully manual annotation. The aim of the experiment is to judge the final annotation quality when pre-annotation is used. In addition, it evaluates the effect of automatic linguistically-based (rule-formulated) checks and another annotation on the same data available to the annotators, and their influence on annotation quality and efficiency. The experiment confirmed that the pre-annotation is an efficient tool for faster manual syntactic annotation which increases the consistency of the resulting annotation without reducing its quality.

 

이 논문은 자동을 이용한 주석 분석을 제시한다 중간 수준 주석 복잡성 작업에 대한 사전 주석 - 종속성 구문 주석. 주석자가 다음을 사용하여 수행한 주석 작업을 비교합니다 사전 예약 버전(고용량 파서 포함) 및 완전하게 만든 버전 수동 주석. 실험의 목적은 최종 주석을 판단하는 것이다 사전 검증을 사용할 때 품질. 게다가, 그것은 다음의 효과를 평가한다 자동 언어 기반(규칙으로 공식화된) 검사 및 다른 주석 주석자가 사용할 수 있는 동일한 데이터 및 주석에 대한 영향 품질과 효율. 실험 결과 사전 주석이 다음과 같은 것으로 확인되었습니다 더 빠른 수동 구문 주석을 위한 효율적인 도구로 사용할 수 있습니다 품질을 저하시키지 않고 결과 주석의 일관성을 유지할 수 있습니다. 

 

 

반응형

댓글