본문 바로가기
오늘의 자연어 처리

[2023-04-07] 오늘의 자연어처리

by 지환이아빠 2023. 4. 7.
반응형

Human-like Summarization Evaluation with ChatGPT

 

Evaluating text summarization is a challenging problem, and existing evaluation metrics are far from satisfactory. In this study, we explored ChatGPT's ability to perform human-like summarization evaluation using four human evaluation methods on five datasets. We found that ChatGPT was able to complete annotations relatively smoothly using Likert scale scoring, pairwise comparison, Pyramid, and binary factuality evaluation. Additionally, it outperformed commonly used automatic evaluation metrics on some datasets. Furthermore, we discussed the impact of different prompts, compared its performance with that of human evaluation, and analyzed the generated explanations and invalid responses.

 

텍스트 요약을 평가하는 것은 어려운 문제이며, 기존의 평가 지표가 만족스럽지 못하다. 이 연구에서, 우리는 탐구했다 4가지를 사용하여 인간과 유사한 요약 평가를 수행하는 ChatGPT의 능력 5개의 데이터 세트에 대한 인간 평가 방법. 우리는 ChatGPT가 할 수 있다는 것을 발견했다 쌍으로 라이커트 척도 점수를 사용하여 비교적 부드럽게 주석을 완료합니다 비교, 피라미드 및 이항 사실성 평가. 추가적으로, 그것이다 일부 데이터 세트에서 일반적으로 사용되는 자동 평가 메트릭보다 성능이 우수합니다. 게다가, 우리는 다른 프롬프트의 영향에 대해 논의했고, 그것을 비교했다 인간 평가의 성과, 그리고 생성된 것을 분석했다 설명 및 잘못된 응답입니다. 

 

 

Scalable and Accurate Self-supervised Multimodal Representation Learning without Aligned Video and Text Data

 

Scaling up weakly-supervised datasets has shown to be highly effective in the image-text domain and has contributed to most of the recent state-of-the-art computer vision and multimodal neural networks. However, existing large-scale video-text datasets and mining techniques suffer from several limitations, such as the scarcity of aligned data, the lack of diversity in the data, and the difficulty of collecting aligned data. Currently popular video-text data mining approach via automatic speech recognition (ASR) used in HowTo100M provides low-quality captions that often do not refer to the video content. Other mining approaches do not provide proper language descriptions (video tags) and are biased toward short clips (alt text). In this work, we show how recent advances in image captioning allow us to pre-train high-quality video models without any parallel video-text data. We pre-train several video captioning models that are based on an OPT language model and a TimeSformer visual backbone. We fine-tune these networks on several video captioning datasets. First, we demonstrate that image captioning pseudolabels work better for pre-training than the existing HowTo100M ASR captions. Second, we show that pre-training on both images and videos produces a significantly better network (+4 CIDER on MSR-VTT) than pre-training on a single modality. Our methods are complementary to the existing pre-training or data mining approaches and can be used in a variety of settings. Given the efficacy of the pseudolabeling method, we are planning to publicly release the generated captions.

 

약하게 감독되는 데이터 세트를 확장하는 것은 다음과 같은 환경에서 매우 효과적인 것으로 나타났다 이미지 텍스트 도메인이며 최근의 대부분의 최신 기술에 기여했다 컴퓨터 비전과 멀티모달 신경망. 그러나 기존의 대규모 비디오 텍스트 데이터 세트와 마이닝 기술은 다음과 같은 몇 가지 한계로 어려움을 겪는다 정렬된 데이터의 부족, 데이터의 다양성의 부족, 그리고 정렬된 데이터 수집의 어려움. 현재 인기 있는 비디오 텍스트 데이터 마이닝 HowTo100M에서 사용되는 자동 음성 인식(ASR)을 통한 접근 방식은 다음과 같다 종종 비디오 콘텐츠를 참조하지 않는 저품질 캡션. 기타 광업 접근법은 적절한 언어 설명(비디오 태그)을 제공하지 않으며 짧은 클립(알트 텍스트)에 치우쳐 있습니다. 이 작업에서, 우리는 최근의 발전을 보여준다 이미지 캡션을 사용하면 고품질 비디오 모델을 사전 교육할 수 있습니다 병렬 비디오 텍스트 데이터. 우리는 몇 가지 비디오 캡션 모델을 사전 교육한다 OPT 언어 모델과 TimeSformer 시각적 백본을 기반으로 합니다. 미세 조정합니다 여러 비디오 캡션 데이터 세트의 이러한 네트워크. 먼저, 우리는 그것을 증명한다 이미지 캡션 유사 레이블은 기존보다 사전 교육에 더 잘 작동합니다 100MASR 캡션을 사용하는 방법. 둘째, 우리는 두 이미지 모두에 대한 사전 훈련과 비디오는 훨씬 더 나은 네트워크를 생성한다 단일 모달리티에 대한 사전 교육. 우리의 방법은 다음을 보완한다 기존의 사전 교육 또는 데이터 마이닝 접근 방식과 다양한 용도로 사용할 수 있다 설정을 지정합니다. 의사 표시 방법의 효과를 고려하여, 우리는 다음을 계획하고 있다 생성된 캡션을 공개합니다. 

 

 

Ericson: An Interactive Open-Domain Conversational Search Agent

 

Open-domain conversational search (ODCS) aims to provide valuable, up-to-date information, while maintaining natural conversations to help users refine and ultimately answer information needs. However, creating an effective and robust ODCS agent is challenging. In this paper, we present a fully functional ODCS system, Ericson, which includes state-of-the-art question answering and information retrieval components, as well as intent inference and dialogue management models for proactive question refinement and recommendations. Our system was stress-tested in the Amazon Alexa Prize, by engaging in live conversations with thousands of Alexa users, thus providing empirical basis for the analysis of the ODCS system in real settings. Our interaction data analysis revealed that accurate intent classification, encouraging user engagement, and careful proactive recommendations contribute most to the users satisfaction. Our study further identifies limitations of the existing search techniques, and can serve as a building block for the next generation of ODCS agents.

 

개방형 도메인 대화 검색(ODCS)은 가치 있는 최신 정보를 제공하는 것을 목표로 한다 사용자가 정보를 다듬는 데 도움이 되도록 자연스러운 대화를 유지하는 동시에 궁극적으로 정보 요구사항을 충족합니다. 그러나 효과적이고 강력한 솔루션 구축 ODCS 에이전트는 어렵습니다. 이 논문에서, 우리는 완전히 기능하는 ODCS를 제시한다 시스템, 에릭슨, 여기에는 최첨단 질문 답변을 포함합니다 의도 추론 및 대화뿐만 아니라 정보 검색 구성요소 사전 예방적인 질문 개선 및 권장 사항을 위한 관리 모델. 우리들의 시스템은 아마존 알렉사 상에서 라이브에 참여함으로써 스트레스 테스트를 받았다 수천 명의 알렉사 사용자와 대화하여 경험적 기반을 제공합니다 실제 환경에서 ODCS 시스템의 분석. 상호작용 데이터 분석 정확한 의도 분류, 사용자 참여 장려 및 신중한 사전 권장 사항은 사용자 만족도에 가장 크게 기여합니다. 우리의 연구는 기존 검색 기술의 한계를 추가로 확인한다 차세대 ODCS 에이전트를 위한 빌딩 블록 역할을 할 수 있습니다. 

 

 

반응형

댓글