SEMQA: Semi-Extractive Multi-Source Question Answering
Abstract:Recently proposed long-form question answering (QA) systems, supported by large language models (LLMs), have shown promising capabilities. Yet, attributing and verifying their generated abstractive answers can be difficult, and automatically evaluating their accuracy remains an ongoing challenge. In this work, we introduce a new QA task for answering multi-answer questions by summarizing multiple diverse sources in a semi-extractive fashion. Specifically, Semi-extractive Multi-source QA (SEMQA) requires models to output a comprehensive answer, while mixing factual quoted spans -- copied verbatim from given input sources -- and non-factual free-text connectors that glue these spans together into a single cohesive passage. This setting bridges the gap between the outputs of well-grounded but constrained extractive QA systems and more fluent but harder to attribute fully abstractive answers. Particularly, it enables a new mode for language models that leverages their advanced language generation capabilities, while also producing fine in-line attributions by-design that are easy to verify, interpret, and evaluate. To study this task, we create the first dataset of this kind, QuoteSum, with human-written semi-extractive answers to natural and generated questions, and define text-based evaluation metrics. Experimenting with several LLMs in various settings, we find this task to be surprisingly challenging, demonstrating the importance of QuoteSum for developing and studying such consolidation capabilities.
초록:대형 언어 모델(LLM)이 지원하는 최근 제안된 롱 폼 질문 응답(QA) 시스템은 유망한 기능을 보여주었다. 그러나 생성된 추상적 답변을 귀속하고 검증하는 것은 어려울 수 있으며, 그 정확성을 자동으로 평가하는 것은 여전히 지속적인 과제로 남아 있다. 본 연구에서는 다양한 여러 출처를 반추출 방식으로 요약하여 다중 답변 질문에 답하는 새로운 QA 과제를 소개한다. 구체적으로, SEMQA(Semi-extractive Multi-source QA)는 모델이 포괄적인 답변을 출력하는 동시에, 주어진 입력 소스에서 복사된 말 그대로의 사실적 인용 스팬과 이러한 스팬을 하나의 응집 통로로 접착하는 사실이 아닌 자유 텍스트 커넥터를 혼합해야 한다. 이 설정은 잘 근거가 있지만 제한적인 추출 QA 시스템의 출력 사이의 격차를 해소하고 완전히 추상적인 답변을 제공하기가 더 어렵다. 특히 고급 언어 생성 기능을 활용한 언어 모델의 새로운 모드를 구현하는 동시에 검증, 해석 및 평가가 용이한 세부 인라인 속성을 설계별로 생성한다. 이 작업을 연구하기 위해 자연스러운 질문과 생성된 질문에 대한 인간이 작성한 반 추출 답변을 사용하여 이러한 종류의 첫 번째 데이터 세트인 QuoteSum을 생성하고 텍스트 기반 평가 메트릭을 정의한다. 다양한 설정에서 여러 LLM으로 실험한 결과, 우리는 이러한 통합 기능을 개발하고 연구하는 데 QuoteSum의 중요성을 보여주는 이 작업이 놀랍도록 어렵다는 것을 알게 되었다.
Multi-label and Multi-target Sampling of Machine Annotation for Computational Stance Detection
Abstract:Data collection from manual labeling provides domain-specific and task-aligned supervision for data-driven approaches, and a critical mass of well-annotated resources is required to achieve reasonable performance in natural language processing tasks. However, manual annotations are often challenging to scale up in terms of time and budget, especially when domain knowledge, capturing subtle semantic features, and reasoning steps are needed. In this paper, we investigate the efficacy of leveraging large language models on automated labeling for computational stance detection. We empirically observe that while large language models show strong potential as an alternative to human annotators, their sensitivity to task-specific instructions and their intrinsic biases pose intriguing yet unique challenges in machine annotation. We introduce a multi-label and multi-target sampling strategy to optimize the annotation quality. Experimental results on the benchmark stance detection corpora show that our method can significantly improve performance and learning efficacy.
초록:수동 레이블링에서 데이터 수집은 데이터 중심 접근 방식에 대한 도메인별 및 작업 정렬 감독을 제공하며, 자연어 처리 작업에서 합리적인 성능을 달성하기 위해서는 주석이 잘 달린 리소스의 중요한 덩어리가 필요하다. 그러나 수동 주석은 특히 도메인 지식, 미묘한 의미 특징 캡처 및 추론 단계가 필요할 때 시간 및 예산 측면에서 확장하기 어려운 경우가 많다. 본 논문에서는 계산 자세 감지를 위한 자동화된 레이블링에 대해 큰 언어 모델을 활용하는 효과를 조사한다. 우리는 큰 언어 모델이 인간 주석자에 대한 대안으로서 강력한 잠재력을 보여주는 반면, 작업별 명령에 대한 민감도와 내재적 편향은 기계 주석에서 흥미롭지만 독특한 도전을 제기한다는 것을 경험적으로 관찰한다. 주석 품질을 최적화하기 위해 다중 레이블 및 다중 대상 샘플링 전략을 도입한다. 벤치마크 스탠스 탐지 말뭉치에 대한 실험 결과는 우리의 방법이 성능과 학습 효능을 크게 향상시킬 수 있음을 보여준다.
Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs
Abstract:Recent works have showcased the ability of large-scale language models (LLMs) to embody diverse personas in their responses, exemplified by prompts like 'You are Yoda. Explain the Theory of Relativity.' While this ability allows personalization of LLMs and enables human behavior simulation, its effect on LLMs' capabilities remain unclear. To fill this gap, we present the first extensive study of the unintended side-effects of persona assignment on the ability of LLMs, specifically ChatGPT, to perform basic reasoning tasks. Our study covers 24 reasoning datasets and 16 diverse personas spanning 5 socio-demographic groups: race, gender, religion, disability, and political affiliation. Our experiments unveil that ChatGPT carries deep rooted bias against various socio-demographics underneath a veneer of fairness. While it overtly rejects stereotypes when explicitly asked ('Are Black people less skilled at mathematics?'), it manifests stereotypical and often erroneous presumptions when prompted to answer questions while taking on a persona. These can be observed as abstentions in the model responses, e.g., 'As a Black person, I am unable to answer this question as it requires math knowledge', and generally result in a substantial drop in performance on reasoning tasks. We find that this inherent deep bias is ubiquitous - 80% of our personas demonstrated bias; it is significant - certain datasets had relative drops in performance of 70%+; and can be especially harmful for certain groups - certain personas had stat. sign. drops on more than 80% of the datasets. Further analysis shows that these persona-induced errors can be hard-to-discern and hard-to-avoid. Our findings serve as a cautionary tale that the practice of assigning personas to LLMs - a trend on the rise - can surface their deep-rooted biases and have unforeseeable and detrimental side-effects.
초록:최근의 작품들은 '당신은 요다입니다'와 같은 프롬프트로 예시적으로 다양한 인물을 반응에 구현하는 대규모 언어 모델(LLM)의 능력을 보여주었다. 상대성 이론을 설명하라.' 이 능력은 LLM의 개인화를 허용하고 인간 행동 시뮬레이션을 가능하게 하지만, LLM의 능력에 미치는 영향은 불분명하다. 이 공백을 메우기 위해, 우리는 LLM, 특히 ChatGPT의 기본 추론 작업 수행 능력에 대한 의도하지 않은 페르소나 할당의 effects에 대한 최초의 광범위한 연구를 제시한다. 우리의 연구는 인종, 성별, 종교, 장애, 정치적 소속 등 5개의 사회 인구학적 그룹에 속하는 24개의 추론 데이터 세트와 16개의 다양한 인물을 다룬다. 우리의 실험은 ChatGPT가 공정성이라는 겉치레 아래 다양한 사회 인구 통계학에 대해 깊은 뿌리를 내린 편견을 가지고 있음을 밝힌다. '흑인은 수학에 덜 능숙한가?'라는 질문을 받으면 고정관념을 노골적으로 거부하는 반면, 페르소나를 맡으면서 질문에 답하도록 요구받으면 고정관념적이고 종종 잘못된 가정을 드러낸다. 이는 모델 응답에서 기권으로 관찰될 수 있는데, 예를 들어 '나는 흑인으로서 수학 지식이 필요하기 때문에 이 질문에 대답할 수 없다'는 것이며, 일반적으로 추론 과제에 대한 성능이 크게 떨어지는 결과를 초래한다. 우리는 이 내재적인 심층 편향이 어디에나 있다는 것을 발견했다 - 입증된 편향으로서 우리 사람의 80%가 존재한다; 그것은 중요하다 - 특정 데이터 세트는 70% 이상의 성능이 상대적으로 하락했다; 그리고 특정 그룹에 특히 해로울 수 있다 - 데이터 세트의 80% 이상에서 통계 부호가 떨어졌을 때 특정 인물. 추가적인 분석은 이러한 페르소나로 인한 오류가 구별하기 어렵고 피하기 어려울 수 있음을 보여준다. 우리의 연구 결과는 LLM에 인격을 부여하는 관행이 그들의 뿌리 깊은 편견을 드러낼 수 있고 예측할 수 없고 해로운 부작용을 초래할 수 있다는 경고적인 이야기로 작용한다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-11-12] 오늘의 자연어처리 (1) | 2023.11.12 |
---|---|
[2023-11-11] 오늘의 자연어처리 (0) | 2023.11.11 |
[2023-11-09] 오늘의 자연어처리 (0) | 2023.11.09 |
[2023-11-08] 오늘의 자연어처리 (0) | 2023.11.08 |
[2023-11-07] 오늘의 자연어처리 (1) | 2023.11.07 |
댓글