본문 바로가기
오늘의 자연어 처리

[2022-09-22] 오늘의 자연어처리

by 지환이아빠 2022. 9. 22.
반응형

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

 

When answering a question, humans utilize the information available across different modalities to synthesize a consistent and complete chain of thought (CoT). This process is normally a black box in the case of deep learning models like large-scale language models. Recently, science question benchmarks have been used to diagnose the multi-hop reasoning ability and interpretability of an AI system. However, existing datasets fail to provide annotations for the answers, or are restricted to the textual-only modality, small scales, and limited domain diversity. To this end, we present Science Question Answering (SQA), a new benchmark that consists of ~21k multimodal multiple choice questions with a diverse set of science topics and annotations of their answers with corresponding lectures and explanations. We further design language models to learn to generate lectures and explanations as the chain of thought (CoT) to mimic the multi-hop reasoning process when answering SQA questions. SQA demonstrates the utility of CoT in language models, as CoT improves the question answering performance by 1.20% in few-shot GPT-3 and 3.99% in fine-tuned UnifiedQA. We also explore the upper bound for models to leverage explanations by feeding those in the input; we observe that it improves the few-shot performance of GPT-3 by 18.96%. Our analysis further shows that language models, similar to humans, benefit from explanations to learn from fewer data and achieve the same performance with just 40% of the data.

 

질문에 대답할 때, 인간은 전 세계에서 이용 가능한 정보를 활용한다. 일관되고 완전한 사고의 사슬을 종합하기 위한 다른 양식들 (CoT). 이 과정은 일반적으로 딥 러닝 모델의 경우 블랙박스입니다. 대규모 언어 모델처럼요 최근에, 과학 질문 벤치마크는 멀티홉 추론 능력과 해석 가능성을 진단하는 데 사용되었다. 인공 지능 시스템 그러나 기존 데이터 집합은 다음 항목에 대한 주석을 제공하지 못합니다. 답변 또는 텍스트 전용 양식, 작은 규모 및 제한된 도메인 다양성 이를 위해, 우리는 과학 질문 답변을 제시한다. (SQA), 최대 21k개의 멀티모달 다중 선택으로 구성된 새로운 벤치마크 다양한 과학 주제와 그들의 대답에 대한 주석을 가진 질문들 그에 상응하는 강의와 설명으로 우리는 언어 모델을 추가로 설계한다. 에 대한 생각의 연쇄(CoT)로서 강의와 설명을 생성하는 법을 배우다 SQA 질문에 답할 때 멀티홉 추론 과정을 모방한다. SQA CoT가 언어 모델에서 CoT의 유용성을 보여줍니다. 질문 응답 성능: 퓨샷 GPT-3에서 1.20% 및 3.99% 미세 조정된 통합QA. 또한 활용할 모델의 상한을 살펴봅니다. 입력에 있는 것을 제공함으로써 설명; 우리는 그것이 그것을 향상시킨다는 것을 관찰한다. GPT-3의 18.96%의 퓨샷 성능. 우리의 분석은 더 나아가 다음을 보여준다. 인간과 유사한 언어 모델은 배울 수 있는 설명으로부터 이익을 얻는다. 데이터 수를 줄이고 40%의 데이터만으로 동일한 성능을 달성할 수 있습니다. 

 

 

Automatic Label Sequence Generation for Prompting Sequence-to-sequence Models

 

Prompting, which casts downstream applications as language modeling tasks, has shown to be sample efficient compared to standard fine-tuning with pre-trained models. However, one pitfall of prompting is the need of manually-designed patterns, whose outcome can be unintuitive and requires large validation sets to tune. To tackle the challenge, we propose AutoSeq, a fully automatic prompting method: (1) We adopt natural language prompts on sequence-to-sequence models, enabling free-form generation and larger label search space; (2) We propose label sequences -- phrases with indefinite lengths to verbalize the labels -- which eliminate the need of manual templates and are more expressive than single label words; (3) We use beam search to automatically generate a large amount of label sequence candidates and propose contrastive re-ranking to get the best combinations. AutoSeq significantly outperforms other no-manual-design methods, such as soft prompt tuning, adapter tuning, and automatic search on single label words; the generated label sequences are even better than curated manual ones on a variety of tasks. Our method reveals the potential of sequence-to-sequence models in few-shot learning and sheds light on a path to generic and automatic prompting. The source code of this paper can be obtained from this https URL.

 

다운스트림 응용 프로그램을 언어 모델링 작업으로 캐스팅하는 프롬프트, 표준 미세 조정에 비해 샘플 효율이 높은 것으로 나타났습니다. 사전 훈련된 모델 그러나, 재촉의 함정 중 하나는 의 필요성이다. 결과가 직관적이지 않을 수 있고 큰 것을 필요로 하는 수동으로 설계된 패턴 유효성 검사가 튜닝으로 설정됩니다. 이 문제를 해결하기 위해, 우리는 AutoSeq를 제안한다. 자동 프롬프트 방법: (1) 우리는 자연어 프롬프트를 채택한다. 시퀀스 대 시퀀스 모델, 자유 형식 생성 및 더 큰 레이블 가능 검색 공간 (2) 우리는 레이블 시퀀스를 제안한다. -- 길이가 불확실한 문구. 라벨을 구두로 표현하다 -- 수동 템플릿의 필요성을 제거하고, 단일 레이블 단어보다 더 표현적이다; (3) 우리는 빔 검색을 사용한다. 대량의 레이블 시퀀스 후보를 자동으로 생성하고 제안합니다. 최상의 조합을 얻기 위한 대조적인 재순위 지정. AutoSeq의 중요성 소프트 프롬프트 튜닝, 어댑터와 같은 수동 설계 방식이 아닌 다른 방법을 능가합니다. 튜닝 및 단일 레이블 단어에 대한 자동 검색; 생성된 레이블 시퀀스는 다양한 작업에서 큐레이션된 수동 시퀀스보다 훨씬 더 좋습니다. 우리들의 방법은 퓨샷에서 시퀀스 대 시퀀스 모델의 잠재력을 보여준다. 학습하고 일반 및 자동 프롬프트로 가는 길을 밝힙니다. 그 이 논문의 소스 코드는 에서 얻을 수 있다. 이 https URL. 

 

 

Target-Guided Open-Domain Conversation Planning

 

Prior studies addressing target-oriented conversational tasks lack a crucial notion that has been intensively studied in the context of goal-oriented artificial intelligence agents, namely, planning. In this study, we propose the task of Target-Guided Open-Domain Conversation Planning (TGCP) task to evaluate whether neural conversational agents have goal-oriented conversation planning abilities. Using the TGCP task, we investigate the conversation planning abilities of existing retrieval models and recent strong generative models. The experimental results reveal the challenges facing current technology.

 

목표 지향 대화 과제를 다루는 이전 연구는 결정적인 것이 부족하다. 목표 지향의 맥락에서 집중적으로 연구된 개념 인공지능 요원들, 즉 계획. 이 연구에서, 우리는 다음을 제안한다. TGCP(Target-Guided Open-Domain Conversation Planning) 과제 평가 신경 대화 에이전트가 목표 지향 대화 계획을 가지고 있는지 여부 능력 TGCP 과제를 사용하여 대화 계획을 조사합니다. 기존의 검색 모델과 최근의 강력한 생성 모델의 능력. 그 실험 결과는 현재 기술이 직면한 도전들을 보여준다. 

 

 

반응형

댓글