본문 바로가기
오늘의 자연어 처리

[2023-06-17] 오늘의 자연어처리

by 지환이아빠 2023. 6. 17.
반응형

Can ChatGPT pass the Vietnamese National High School Graduation Examination?

 

This research article highlights the potential of AI-powered chatbots in education and presents the results of using ChatGPT, a large language model, to complete the Vietnamese National High School Graduation Examination (VNHSGE). The study dataset included 30 essays in the literature test case and 1,700 multiple-choice questions designed for other subjects. The results showed that ChatGPT was able to pass the examination with an average score of 6-7, demonstrating the technology's potential to revolutionize the educational landscape. The analysis of ChatGPT performance revealed its proficiency in a range of subjects, including mathematics, English, physics, chemistry, biology, history, geography, civic education, and literature, which suggests its potential to provide effective support for learners. However, further research is needed to assess ChatGPT performance on more complex exam questions and its potential to support learners in different contexts. As technology continues to evolve and improve, we can expect to see the use of AI tools like ChatGPT become increasingly common in educational settings, ultimately enhancing the educational experience for both students and educators.

 

이 연구 기사는 인공지능 기반 챗봇의 잠재력을 강조한다 교육 및 대형 언어 모델인 ChatGPT 사용의 결과를 제시한다 베트남 국립 고등학교 졸업 시험(VNHSGE)을 수료하다. 연구 데이터 세트에는 문헌 테스트 사례에 30편의 에세이와 1,700편의 에세이가 포함되었다 다른 과목을 위해 고안된 객관식 문제. 결과는 다음과 같았다 ChatGPT는 평균 6-7의 점수로 시험에 통과할 수 있었다, 교육에 혁명을 일으킬 수 있는 기술의 잠재력을 보여주는 것 풍경. ChatGPT 성과의 분석은 그것의 숙련도를 보여주었다 수학, 영어, 물리학, 화학, 생물학을 포함한 다양한 과목들, 그것을 시사하는 역사, 지리, 시민 교육, 그리고 문학 학습자에게 효과적인 지원을 제공할 수 있는 잠재력. 그러나, 추가적인 더 복잡한 시험 문제와 그것의 ChatGPT 수행을 평가하는 데 필요하다 다양한 맥락에서 학습자를 지원할 수 있는 잠재력. 기술이 계속됨에 따라 진화하고 개선하면, 우리는 ChatGPT와 같은 인공지능 도구의 사용을 볼 수 있을 것이다 교육 환경에서 점점 더 보편화되고, 궁극적으로 향상된다 학생과 교육자 모두를 위한 교육 경험. 

 

 

Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and Text Integration

 

Although instruction-tuned large language models (LLMs) have exhibited remarkable capabilities across various NLP tasks, their effectiveness on other data modalities beyond text has not been fully studied. In this work, we propose Macaw-LLM, a novel multi-modal LLM that seamlessly integrates visual, audio, and textual information. Macaw-LLM consists of three main components: a modality module for encoding multi-modal data, a cognitive module for harnessing pretrained LLMs, and an alignment module for harmonizing diverse representations. Our novel alignment module seamlessly bridges multi-modal features to textual features, simplifying the adaptation process from the modality modules to the cognitive module. In addition, we construct a large-scale multi-modal instruction dataset in terms of multi-turn dialogue, including 69K image instances and 50K video instances. We have made our data, code and model publicly available, which we hope can pave the way for future research in multi-modal LLMs and expand the capabilities of LLMs to handle diverse data modalities and address complex real-world scenarios.

 

비록 명령어 조정된 큰 언어 모델(LLM)이 나타났지만 다양한 NLP 작업에 걸쳐 주목할 만한 기능, 다른 작업에 대한 효과 텍스트 이외의 데이터 양식은 완전히 연구되지 않았다. 이 작품에서 우리는 시각적으로 완벽하게 통합된 새로운 멀티모달 LLM인 Macaw-LLM을 제안합니다, 오디오 및 텍스트 정보. Macaw-LLM은 세 가지 주요 구성 요소로 구성됩니다 다중 프로토콜 데이터 인코딩을 위한 모달리티 모듈, 인지 모듈 사전 훈련된 LLM 및 다양한 조화를 위한 정렬 모듈 활용 표상. 우리의 새로운 정렬 모듈은 다중 모드를 매끄럽게 연결한다 텍스트 기능에 대한 기능으로, 적응 프로세스를 단순화합니다 인식 모듈에 모달리티 모듈을 연결합니다. 추가로, 우리는 다음을 구성한다 다중 턴 대화의 관점에서 대규모 다중 스레드 명령 데이터 세트, 69K 이미지 인스턴스와 50K 비디오 인스턴스를 포함합니다. 우리는 우리의 데이터를 만들었다, 공개적으로 이용 가능한 코드와 모델, 우리는 미래를 위한 길을 닦을 수 있기를 바란다 다중 모드 LLM 연구 및 처리할 LLM의 기능 확장 다양한 데이터 양식을 제공하고 복잡한 실제 시나리오를 해결합니다. 

 

 

Document Entity Retrieval with Massive and Noisy Pre-training

 

Visually-Rich Document Entity Retrieval (VDER) is a type of machine learning task that aims at recovering text spans in the documents for each of the entities in question. VDER has gained significant attention in recent years thanks to its broad applications in enterprise AI. Unfortunately, as document images often contain personally identifiable information (PII), publicly available data have been scarce, not only because of privacy constraints but also the costs of acquiring annotations. To make things worse, each dataset would often define its own sets of entities, and the non-overlapping entity spaces between datasets make it difficult to transfer knowledge between documents. In this paper, we propose a method to collect massive-scale, noisy, and weakly labeled data from the web to benefit the training of VDER models. Such a method will generate a huge amount of document image data to compensate for the lack of training data in many VDER settings. Moreover, the collected dataset named DocuNet would not need to be dependent on specific document types or entity sets, making it universally applicable to all VDER tasks. Empowered by DocuNet, we present a lightweight multimodal architecture named UniFormer, which can learn a unified representation from text, layout, and image crops without needing extra visual pertaining. We experiment with our methods on popular VDER models in various settings and show the improvements when this massive dataset is incorporated with UniFormer on both classic entity retrieval and few-shot learning settings.

 

시각적으로 풍부한 문서 개체 검색(VDER)은 기계 학습의 한 유형이다 각각의 문서에서 텍스트 범위를 복구하는 것을 목표로 하는 작업 문제의 주체. VDER는 최근 몇 년 동안 상당한 주목을 받고 있습니다 엔터프라이즈 AI에 광범위하게 적용된 덕분입니다. 유감스럽게도, 문서로서 이미지는 종종 공개적으로 개인 식별 가능 정보(PII)를 포함한다 이용 가능한 데이터는 사생활 제약 때문에 부족했을 뿐만 아니라 주석 획득 비용도 포함됩니다. 엎친 데 덮친 격으로, 각 데이터 세트는 종종 자체 엔터티 집합과 중복되지 않는 엔터티를 정의한다 데이터 세트 사이의 공간은 데이터 세트 사이의 지식을 전달하는 것을 어렵게 한다 문서. 이 논문에서, 우리는 거대한 규모, 소음, 소음을 수집하는 방법을 제안한다, 그리고 VDER 모델의 교육에 도움이 되도록 웹에서 약하게 레이블링된 데이터. 이러한 방법은 보상하기 위해 엄청난 양의 문서 이미지 데이터를 생성할 것이다 많은 VDER 설정에서 교육 데이터가 부족하기 때문입니다. 게다가, 수집된 사람들은 DocumentNet이라는 이름의 데이터 집합은 특정 문서 유형에 종속될 필요가 없습니다 또는 엔티티 세트를 사용하여 모든 VDER 작업에 보편적으로 적용할 수 있습니다. 파워드 DocumentNet에 의해, 우리는 UniFormer라는 이름의 경량 멀티모달 아키텍처를 제시한다, 텍스트, 레이아웃 및 이미지 크롭에서 통일된 표현을 배울 수 있습니다 추가적인 시각적 관계 없이. 우리는 우리의 방법을 실험한다 다양한 설정에서 인기 있는 VDER 모델 및 이 경우의 개선 사항을 보여줍니다 대규모 데이터 세트는 고전적인 엔티티 검색 모두에서 UniForm과 통합됩니다 및 퓨샷 학습 설정. 

 

 

반응형

댓글