본문 바로가기
오늘의 자연어 처리

[2023-12-01] 오늘의 자연어처리

by 지환이아빠 2023. 12. 1.
반응형

Reinforcement Replaces Supervision: Query focused Summarization using Deep Reinforcement Learning

 

Abstract:Query-focused Summarization (QfS) deals with systems that generate summaries from document(s) based on a query. Motivated by the insight that Reinforcement Learning (RL) provides a generalization to Supervised Learning (SL) for Natural Language Generation, and thereby performs better (empirically) than SL, we use an RL-based approach for this task of QfS. Additionally, we also resolve the conflict of employing RL in Transformers with Teacher Forcing. We develop multiple Policy Gradient networks, trained on various reward signals: ROUGE, BLEU, and Semantic Similarity, which lead to a 10-point improvement over the State-of-the-Art approach on the ROUGE-L metric for a benchmark dataset (ELI5). We also show performance of our approach in zero-shot setting for another benchmark dataset (DebatePedia) -- our approach leads to results comparable to baselines, which were specifically trained on DebatePedia. To aid the RL training, we propose a better semantic similarity reward, enabled by a novel Passage Embedding scheme developed using Cluster Hypothesis. Lastly, we contribute a gold-standard test dataset to further research in QfS and Long-form Question Answering (LfQA).

 

추상화:질의 중심 요약(QfS)은 질의에 기초하여 문서로부터 요약을 생성하는 시스템을 다룬다. 강화 학습(RL)이 자연어 생성을 위한 지도 학습(SL)에 대한 일반화를 제공하여 SL보다 더 나은(경험적으로) 성능을 발휘한다는 통찰에 동기를 부여하여 QfS의 이 작업에 대해 RL 기반 접근 방식을 사용한다. 또한 Tacher Forceing과 함께 트랜스포머에서 RL을 사용하는 문제도 해결한다. 우리는 벤치마크 데이터 세트(ELI5)에 대한 ROUGE-L 메트릭에 대한 최첨단 접근 방식보다 10점 향상된 다양한 보상 신호(ROUGE, BLEU 및 시맨틱 유사성)에 대해 훈련된 여러 Policy Gradient 네트워크를 개발한다. 또한 또 다른 벤치마크 데이터 세트(DebatePedia)에 대한 제로샷 설정에서 접근 방식의 성능을 보여줍니다. 우리의 접근 방식은 특히 DebatePedia에서 훈련된 기준선과 유사한 결과로 이어집니다. RL 훈련을 돕기 위해 군집 가설을 사용하여 개발된 새로운 Passage Embedding 체계에 의해 가능한 더 나은 의미론적 유사성 보상을 제안한다. 마지막으로, 우리는 QfS와 LfQA(Long-form Question Answering)의 추가 연구를 위해 금본위 테스트 데이터 세트를 제공한다. 

 

 

Enhancing Answer Selection in Community Question Answering with Pre-trained and Large Language Models

 

Abstract:Community Question Answering (CQA) becomes increasingly prevalent in recent years. However, there are a large number of answers, which is difficult for users to select the relevant answers. Therefore, answer selection is a very significant subtask of CQA. In this paper, we first propose the Question-Answer cross attention networks (QAN) with pre-trained models for answer selection and utilize large language model (LLM) to perform answer selection with knowledge augmentation. Specifically, we apply the BERT model as the encoder layer to do pre-training for question subjects, question bodies and answers, respectively, then the cross attention mechanism selects the most relevant answer for different questions. Experiments show that the QAN model achieves state-of-the-art performance on two datasets, SemEval2015 and SemEval2017. Moreover, we use the LLM to generate external knowledge from questions and correct answers to achieve knowledge augmentation for the answer selection task by LLM, while optimizing the prompt of LLM in different aspects. The results show that the introduction of external knowledge can improve the correct answer selection rate of LLM on datasets SemEval2015 and SemEval2017. Meanwhile, LLM can also select the correct answer on more questions by optimized prompt.

 

추상화:커뮤니티 질문 답변(CQA)은 최근 몇 년 동안 점점 더 널리 퍼지고 있다. 그러나 답변의 수가 많아 사용자가 해당 답변을 선택하기 어려운 문제점이 있다. 따라서 답변 선택은 CQA의 매우 중요한 하위 작업이다. 본 논문에서는 먼저 답변 선택을 위해 사전 훈련된 모델로 질의응답 교차 주의 네트워크(QAN)를 제안하고 지식 증강으로 답변 선택을 수행하기 위해 LLM(대언어 모델)을 활용한다. 구체적으로, 우리는 BERT 모델을 인코더 계층으로 적용하여 질문 주제, 질문 기관 및 답변에 대한 사전 훈련을 각각 수행한 다음, 교차 주의 메커니즘은 서로 다른 질문에 대해 가장 관련성이 높은 답변을 선택한다. 실험 결과 QAN 모델은 SemEval2015와 SemEval2017 두 데이터 세트에서 최첨단 성능을 달성하는 것으로 나타났다. 또한 LLM을 사용하여 질문과 정답에서 외부 지식을 생성하여 LLM에 의한 답변 선택 작업에 대한 지식 증강을 달성하는 동시에 다양한 측면에서 LLM의 프롬프트를 최적화한다. 결과는 외부 지식의 도입이 데이터셋 SemEval2015 및 SemEval2017에 대한 LLM의 정답 선택률을 향상시킬 수 있음을 보여준다. 한편, LLM은 또한 최적화된 프롬프트에 의해 더 많은 질문에 대한 정답을 선택할 수 있다. 

 

 

CESAR: Automatic Induction of Compositional Instructions for Multi-turn Dialogs

 

Abstract:Instruction-based multitasking has played a critical role in the success of large language models (LLMs) in multi-turn dialog applications. While publicly available LLMs have shown promising performance, when exposed to complex instructions with multiple constraints, they lag against state-of-the-art models like ChatGPT. In this work, we hypothesize that the availability of large-scale complex demonstrations is crucial in bridging this gap. Focusing on dialog applications, we propose a novel framework, CESAR, that unifies a large number of dialog tasks in the same format and allows programmatic induction of complex instructions without any manual effort. We apply CESAR on InstructDial, a benchmark for instruction-based dialog tasks. We further enhance InstructDial with new datasets and tasks and utilize CESAR to induce complex tasks with compositional instructions. This results in a new benchmark called InstructDial++, which includes 63 datasets with 86 basic tasks and 68 composite tasks. Through rigorous experiments, we demonstrate the scalability of CESAR in providing rich instructions. Models trained on InstructDial++ can follow compositional prompts, such as prompts that ask for multiple stylistic constraints.

 

추상화:명령 기반 멀티태스킹은 멀티 턴 대화 응용 프로그램에서 대형 언어 모델(LLM)의 성공에 중요한 역할을 했다. 공개적으로 사용 가능한 LLM은 유망한 성능을 보여주었지만 여러 제약 조건이 있는 복잡한 명령에 노출되면 ChatGPT와 같은 최첨단 모델에 비해 뒤처진다. 본 논문에서는 이러한 격차를 해소하기 위해 대규모 복합 시연의 가용성이 중요하다고 가정한다. 대화 응용 프로그램에 초점을 맞추어 많은 대화 작업을 동일한 형식으로 통합하고 수동 노력 없이 복잡한 명령을 프로그래밍적으로 유도할 수 있는 새로운 프레임워크인 CESAR를 제안한다. 명령어 기반 대화 작업의 벤치마크인 InstructDial에 CESAR을 적용합니다. 우리는 새로운 데이터 세트와 작업으로 InstructDial을 더욱 강화하고 CESAR을 활용하여 구성 지침으로 복잡한 작업을 유도한다. 이로 인해 86개의 기본 작업과 68개의 복합 작업으로 구성된 63개의 데이터 세트가 포함된 InstructDial++라는 새로운 벤치마크가 생성된다. 엄격한 실험을 통해 풍부한 지침을 제공하는 CESAR의 확장성을 입증한다. InstructDial++에서 훈련된 모델은 여러 가지 스타일 제약을 요구하는 프롬프트와 같은 구성 프롬프트를 따를 수 있습니다. 

 

 

반응형

댓글