Can We Edit Multimodal Large Language Models?
Abstract:In this paper, we focus on editing Multimodal Large Language Models (MLLMs). Compared to editing single-modal LLMs, multimodal model editing is more challenging, which demands a higher level of scrutiny and careful consideration in the editing process. To facilitate research in this area, we construct a new benchmark, dubbed MMEdit, for editing multimodal LLMs and establishing a suite of innovative metrics for evaluation. We conduct comprehensive experiments involving various model editing baselines and analyze the impact of editing different components for multimodal LLMs. Empirically, we notice that previous baselines can implement editing multimodal LLMs to some extent, but the effect is still barely satisfactory, indicating the potential difficulty of this task. We hope that our work can provide the NLP community with insights\footnote{Code and dataset are available in this https URL.
초록:본 논문에서는 Multimodal Large Language Models(MLLM) 편집에 초점을 맞춘다. 멀티모달 모델 편집은 단일 모드 LLM을 편집하는 것에 비해 더 어려운 작업으로, 편집 과정에서 보다 높은 수준의 정밀한 검토와 신중한 고려가 요구된다. 이 분야의 연구를 용이하게 하기 위해, 우리는 멀티모달 LLM을 편집하고 평가를 위한 일련의 혁신적인 지표를 구축하기 위한 새로운 벤치마크인 MMEdit을 구축한다. 우리는 다양한 모델 편집 기준선을 포함하는 포괄적인 실험을 수행하고 멀티모달 LLM에 대한 다양한 구성 요소 편집의 영향을 분석한다. 경험적으로, 우리는 이전의 기준선이 멀티모달 LLM 편집을 어느 정도 구현할 수 있지만, 그 효과는 여전히 거의 만족스럽지 못하다는 것을 알아차린다, 이 작업의 잠재적인 난이도를 나타냅니다. 우리는 우리의 연구가 NLP 커뮤니티에 통찰력을 제공할 수 있기를 바란다.{코드 및 데이터 세트는 이 https URL에서 사용할 수 있다.
MProto: Multi-Prototype Network with Denoised Optimal Transport for Distantly Supervised Named Entity Recognition
Abstract:Distantly supervised named entity recognition (DS-NER) aims to locate entity mentions and classify their types with only knowledge bases or gazetteers and unlabeled corpus. However, distant annotations are noisy and degrade the performance of NER models. In this paper, we propose a noise-robust prototype network named MProto for the DS-NER task. Different from previous prototype-based NER methods, MProto represents each entity type with multiple prototypes to characterize the intra-class variance among entity representations. To optimize the classifier, each token should be assigned an appropriate ground-truth prototype and we consider such token-prototype assignment as an optimal transport (OT) problem. Furthermore, to mitigate the noise from incomplete labeling, we propose a novel denoised optimal transport (DOT) algorithm. Specifically, we utilize the assignment result between Other class tokens and all prototypes to distinguish unlabeled entity tokens from true negatives. Experiments on several DS-NER benchmarks demonstrate that our MProto achieves state-of-the-art performance. The source code is now available on Github.
초록:원거리 감독 명명 개체 인식(DS-NER)은 지식 기반 또는 가제트와 라벨이 부착되지 않은 말뭉치만으로 개체 언급을 찾고 유형을 분류하는 것을 목표로 한다. 그러나 원격 주석은 잡음이 많고 NER 모델의 성능을 저하시킨다. 본 논문에서는 DS-NER 작업을 위해 MProto라는 이름의 노이즈가 강한 프로토타입 네트워크를 제안한다. MProto는 이전의 프로토타입 기반 NER 방법과 달리 각 엔티티 유형을 여러 프로토타입으로 표현하여 엔티티 표현 간의 클래스 내 분산을 특성화한다. 분류기를 최적화하려면 각 토큰에 적절한 지상 실측 프로토타입을 할당해야 하며 이러한 토큰 프로토타입 할당을 최적의 운송(OT) 문제로 간주한다. 또한 불완전한 라벨링으로 인한 잡음을 완화하기 위해 새로운 노이즈 제거 최적 전송(DOT) 알고리듬을 제안한다. 구체적으로, 우리는 라벨이 부착되지 않은 엔티티 토큰과 진정한 네거티브를 구별하기 위해 다른 클래스 토큰과 모든 프로토타입 사이의 할당 결과를 활용한다. 여러 DS-NER 벤치마크에 대한 실험을 통해 MProto가 최첨단 성능을 달성함을 입증했다. 소스 코드는 이제 Github에서 사용할 수 있다.
A Confederacy of Models: a Comprehensive Evaluation of LLMs on Creative Writing
Abstract:We evaluate a range of recent LLMs on English creative writing, a challenging and complex task that requires imagination, coherence, and style. We use a difficult, open-ended scenario chosen to avoid training data reuse: an epic narration of a single combat between Ignatius J. Reilly, the protagonist of the Pulitzer Prize-winning novel A Confederacy of Dunces (1980), and a pterodactyl, a prehistoric flying reptile. We ask several LLMs and humans to write such a story and conduct a human evalution involving various criteria such as fluency, coherence, originality, humor, and style. Our results show that some state-of-the-art commercial LLMs match or slightly outperform our writers in most dimensions; whereas open-source LLMs lag behind. Humans retain an edge in creativity, while humor shows a binary divide between LLMs that can handle it comparably to humans and those that fail at it. We discuss the implications and limitations of our study and suggest directions for future research.
초록:우리는 상상력, 일관성 및 스타일이 필요한 도전적이고 복잡한 작업인 영어 창의적 글쓰기에 대한 최근의 다양한 LLM을 평가한다. 우리는 훈련 데이터 재사용을 피하기 위해 선택된 어렵고 개방적인 시나리오를 사용한다: 퓰리처상을 수상한 소설 던스의 연맹(A Confederacy of Dunces, 1980)의 주인공 이그나티우스 J. 라일리와 선사시대 비행 파충류인 익룡 사이의 단일 전투의 서사적인 내레이션. 우리는 여러 LLM들과 인간들에게 그러한 이야기를 쓰고 유창성, 일관성, 독창성, 유머, 스타일 등 다양한 기준을 포함한 인간 평가를 실시할 것을 요청한다. 우리의 결과는 일부 최신 상업 LLM이 대부분의 차원에서 작가와 일치하거나 약간 능가하는 반면 오픈 소스 LLM은 뒤쳐진다는 것을 보여준다. 인간은 창의력에서 우위를 유지하는 반면, 유머는 인간과 유사하게 그것을 다룰 수 있는 LLM과 그것에 실패하는 사람들 사이의 이분법적인 차이를 보여준다. 우리 연구의 시사점과 제한점을 논의하고 향후 연구 방향을 제시한다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-10-15] 오늘의 자연어처리 (0) | 2023.10.15 |
---|---|
[2023-10-14] 오늘의 자연어처리 (1) | 2023.10.14 |
[2023-10-13] 오늘의 자연어처리 (4) | 2023.10.13 |
[2023-10-12] 오늘의 자연어처리 (0) | 2023.10.12 |
[2023-10-11] 오늘의 자연어처리 (0) | 2023.10.11 |
댓글