본문 바로가기
오늘의 자연어 처리

[2023-03-23] 오늘의 자연어처리

by 지환이아빠 2023. 3. 23.
반응형

Language Model Behavior: A Comprehensive Survey

 

Transformer language models have received widespread public attention, yet their generated text is often surprising even to NLP researchers. In this survey, we discuss over 250 recent studies of English language model behavior before task-specific fine-tuning. Language models possess basic capabilities in syntax, semantics, pragmatics, world knowledge, and reasoning, but these capabilities are sensitive to specific inputs and surface features. Despite dramatic increases in generated text quality as models scale to hundreds of billions of parameters, the models are still prone to unfactual responses, commonsense errors, memorized text, and social biases. Many of these weaknesses can be framed as over-generalizations or under-generalizations of learned patterns in text. We synthesize recent results to highlight what is currently known about what large language models can and cannot do.

 

트랜스포머 언어 모델은 대중의 광범위한 관심을 받아왔다 그들의 생성된 텍스트는 종종 NLP 연구원들에게도 놀라운 것이다. 이 점에서. 설문조사, 우리는 영어 모델 행동에 대한 250개 이상의 최근 연구에 대해 논의한다 작업별 미세 조정 전. 언어 모델은 기본적인 능력을 가지고 있다 구문, 의미론, 실용주의, 세계 지식, 그리고 추론, 그러나 이것들 기능은 특정 입력 및 표면 기능에 민감합니다. 불구하고 모델이 수백 개로 확장됨에 따라 생성된 텍스트 품질의 극적인 증가 수십억 개의 매개 변수가 있지만 모델은 여전히 사실과 다른 반응을 보입니다, 상식적인 오류, 암기된 텍스트, 그리고 사회적 편견. 이러한 많은 약점들 학습의 과잉 일반화 또는 과소 일반화로 구성될 수 있다 텍스트 패턴. 우리는 최근의 결과를 종합하여 현재의 것을 강조한다 큰 언어 모델이 할 수 있는 것과 할 수 없는 것에 대해 알려져 있다. 

 

 

VideoXum: Cross-modal Visual and Textural Summarization of Videos

 

Video summarization aims to distill the most important information from a source video to produce either an abridged clip or a textual narrative. Traditionally, different methods have been proposed depending on whether the output is a video or text, thus ignoring the correlation between the two semantically related tasks of visual summarization and textual summarization. We propose a new joint video and text summarization task. The goal is to generate both a shortened video clip along with the corresponding textual summary from a long video, collectively referred to as a cross-modal summary. The generated shortened video clip and text narratives should be semantically well aligned. To this end, we first build a large-scale human-annotated dataset -- VideoXum (X refers to different modalities). The dataset is reannotated based on ActivityNet. After we filter out the videos that do not meet the length requirements, 14,001 long videos remain in our new dataset. Each video in our reannotated dataset has human-annotated video summaries and the corresponding narrative summaries. We then design a novel end-to-end model -- VTSUM-BILP to address the challenges of our proposed task. Moreover, we propose a new metric called VT-CLIPScore to help evaluate the semantic consistency of cross-modality summary. The proposed model achieves promising performance on this new task and establishes a benchmark for future research.

 

비디오 요약은 가장 중요한 정보를 추출하는 것을 목표로 한다 원본 비디오를 사용하여 요약 클립이나 텍스트 내러티브를 생성할 수 있습니다. 전통적으로, 그것의 여부에 따라 다른 방법들이 제안되어 왔다 출력은 비디오 또는 텍스트이므로 둘 사이의 상관 관계를 무시합니다 시각적 요약과 텍스트 요약의 의미론적으로 관련된 작업. 우리는 새로운 공동 비디오 및 텍스트 요약 작업을 제안한다. 목표는 하는 것이다 해당 텍스트와 함께 단축된 비디오 클립을 생성합니다 긴 비디오의 요약을 총칭하여 교차 요약이라고 합니다. 생성된 단축 비디오 클립 및 텍스트 내러티브는 의미론적이어야 한다 정렬이 잘 된. 이를 위해 먼저 대규모 인간 주석 데이터 세트를 구축한다 -- VideoXum(X는 서로 다른 양식을 나타냅니다. 데이터 집합이 다시 주석 처리됩니다 ActivityNet을 기반으로 합니다. 우리가 충족하지 못하는 비디오를 걸러낸 후에 길이 요구 사항, 14,001개의 긴 비디오가 새 데이터 세트에 남아 있습니다. 각 비디오 우리의 주석이 달린 데이터 세트에는 인간이 만든 비디오 요약과 상응하는 서술 요약. 그런 다음 새로운 엔드 투 엔드 모델을 설계합니다 제안된 작업의 과제를 해결하기 위한 VTSUM-BILP. 게다가, 우리는 제안한다 VT-CLIPScore라는 새로운 측정 기준은 의미 일관성을 평가하는 데 도움이 됩니다 교차 요약. 제안된 모델은 다음에서 유망한 성능을 달성한다 이 새로운 과제와 미래 연구를 위한 벤치마크를 확립한다. 

 

 

Reflexion: an autonomous agent with dynamic memory and self-reflection

 

Recent advancements in decision-making large language model (LLM) agents have demonstrated impressive performance across various benchmarks. However, these state-of-the-art approaches typically necessitate internal model fine-tuning, external model fine-tuning, or policy optimization over a defined state space. Implementing these methods can prove challenging due to the scarcity of high-quality training data or the lack of well-defined state space. Moreover, these agents do not possess certain qualities inherent to human decision-making processes, specifically the ability to learn from mistakes. Self-reflection allows humans to efficiently solve novel problems through a process of trial and error. Building on recent research, we propose Reflexion, an approach that endows an agent with dynamic memory and self-reflection capabilities to enhance its existing reasoning trace and task-specific action choice abilities. To achieve full automation, we introduce a straightforward yet effective heuristic that enables the agent to pinpoint hallucination instances, avoid repetition in action sequences, and, in some environments, construct an internal memory map of the given environment. To assess our approach, we evaluate the agent's ability to complete decision-making tasks in AlfWorld environments and knowledge-intensive, search-based question-and-answer tasks in HotPotQA environments. We observe success rates of 97% and 51%, respectively, and provide a discussion on the emergent property of self-reflection.

 

의사결정 큰 언어 모델(LLM) 에이전트의 최근 발전은 다양한 벤치마크에서 인상적인 성능을 보여주었습니다. 그러나, 이것들은 최첨단 접근법은 일반적으로 내부 모델 미세 조정을 필요로 한다, 정의된 상태 공간에 대한 외부 모델 미세 조정 또는 정책 최적화. 이러한 방법을 구현하는 것은 다음과 같은 희소성 때문에 어려운 것으로 판명될 수 있다 양질의 교육 데이터 또는 잘 정의된 상태 공간이 부족합니다. 게다가. 이 대리인들은 인간의 의사결정에 내재된 특정한 특성을 가지고 있지 않다 프로세스, 특히 실수로부터 배울 수 있는 능력. 자기반성 인간이 실험 과정을 통해 새로운 문제를 효율적으로 해결할 수 있도록 한다 오류입니다. 최근의 연구를 바탕으로, 우리는 Reflexion을 제안한다 에이전트에게 동적 메모리 및 자체 반성 기능을 제공하여 향상시킵니다 기존의 추론 추적 및 작업별 행동 선택 능력. 로. 완전한 자동화를 달성하고, 우리는 간단하지만 효과적인 휴리스틱을 소개한다 에이전트가 환각 사례를 정확히 파악하고 반복되는 것을 피할 수 있게 해줍니다 작업 시퀀스, 그리고 일부 환경에서는 내부 메모리 맵을 구성합니다 특정 환경의. 우리의 접근 방식을 평가하기 위해, 우리는 에이전트의 접근 방식을 평가한다 AlfWorld 환경에서 의사 결정 작업을 완료할 수 있는 능력과 HotPotQ의 지식 집약적인 검색 기반 질의응답 작업a 환경. 우리는 각각 97%와 51%의 성공률을 관찰한다 자기 반성의 새로운 속성에 대해 토론하다. 

 

 

반응형

댓글