본문 바로가기
오늘의 자연어 처리

[2023-05-15] 오늘의 자연어처리

by 지환이아빠 2023. 5. 15.
반응형

Towards a Computational Analysis of Suspense: Detecting Dangerous Situations

 

Suspense is an important tool in storytelling to keep readers engaged and wanting to read more. However, it has so far not been studied extensively in Computational Literary Studies. In this paper, we focus on one of the elements authors can use to build up suspense: dangerous situations. We introduce a corpus of texts annotated with dangerous situations, distinguishing between 7 types of danger. Additionally, we annotate parts of the text that describe fear experienced by a character, regardless of the actual presence of danger. We present experiments towards the automatic detection of these situations, finding that unsupervised baseline methods can provide valuable signals for the detection, but more complex methods are necessary for further analysis. Not unexpectedly, the description of danger and fear often relies heavily on the context, both local (e.g., situations where danger is only mentioned, but not actually present) and global (e.g., "storm" being used in a literal sense in an adventure novel, but metaphorically in a romance novel).

 

서스펜스는 독자들을 계속 참여시키기 위해 스토리텔링에 중요한 도구이다 책을 더 읽고 싶어요. 그러나, 그것은 지금까지 광범위하게 연구되지 않았다 컴퓨터 문학 연구. 이 논문에서, 우리는 하나의 요소에 초점을 맞춘다 작가들은 긴장감을 조성하는데 사용할 수 있다: 위험한 상황. 소개합니다 7개의 위험한 상황을 구분하는 주석이 달린 텍스트 말뭉치 위험의 종류. 추가적으로, 우리는 두려움을 설명하는 텍스트의 부분에 주석을 달았다 실제 위험의 존재와 상관없이 캐릭터가 경험하는 것입니다. 우리가 이러한 상황의 자동 감지를 위한 실험을 제시한다, 감독되지 않은 기준 방법이 가치 있는 신호를 제공할 수 있다는 것을 발견했다 탐지, 그러나 추가 분석을 위해서는 더 복잡한 방법이 필요하다. 것은 아니다. 예상치 못하게, 위험과 공포의 묘사는 종종 크게 의존한다 상황, 둘 다 로컬(예: 위험이 언급될 뿐이지 언급되지 않는 상황) 실제로 존재함) 및 글로벌(예: "폭풍"은 문자 그대로의 의미로 사용됩니다 모험 소설이지만, 로맨스 소설에서는 은유적이다.). 

 

 

Evaluating Open-Domain Question Answering in the Era of Large Language Models

 

Lexical matching remains the de facto evaluation method for open-domain question answering (QA). Unfortunately, lexical matching fails completely when a plausible candidate answer does not appear in the list of gold answers, which is increasingly the case as we shift from extractive to generative models. The recent success of large language models (LLMs) for QA aggravates lexical matching failures since candidate answers become longer, thereby making matching with the gold answers even more challenging. Without accurate evaluation, the true progress in open-domain QA remains unknown. In this paper, we conduct a thorough analysis of various open-domain QA models, including LLMs, by manually evaluating their answers on a subset of NQ-open, a popular benchmark. Our assessments reveal that while the true performance of all models is significantly underestimated, the performance of the InstructGPT (zero-shot) LLM increases by nearly +60%, making it on par with existing top models, and the InstructGPT (few-shot) model actually achieves a new state-of-the-art on NQ-open. We also find that more than 50% of lexical matching failures are attributed to semantically equivalent answers. We further demonstrate that regex matching ranks QA models consistent with human judgments, although still suffering from unnecessary strictness. Finally, we demonstrate that automated evaluation models are a reasonable surrogate for lexical matching in some circumstances, but not for long-form answers generated by LLMs. The automated models struggle in detecting hallucinations in LLM answers and are thus unable to evaluate LLMs. At this time, there appears to be no substitute for human evaluation.

 

어휘 일치는 개방형 도메인에 대한 사실상의 평가 방법으로 남아 있다 질문 답변(QA). 불행히도, 어휘 일치는 다음과 같은 경우에 완전히 실패한다 그럴듯한 후보 답변은 금 답변 목록에 나타나지 않는다 추출 모델에서 생성 모델로 전환함에 따라 점점 더 해당됩니다. 그 QA를 위한 대규모 언어 모델(LLM)의 최근 성공은 어휘를 악화시킨다 후보 답변이 길어지기 때문에 일치하는 실패를 만들어냅니다 골드 답변과 일치하는 것은 훨씬 더 어렵습니다. 정확하지 않음 평가, 개방형 도메인 QA의 진정한 진행 상황은 알려지지 않았다. 이 논문에서, 우리는 다양한 오픈 도메인 QA 모델에 대한 철저한 분석을 수행한다 LLM은 인기 있는 NQ-open의 하위 집합에서 수동으로 답변을 평가함으로써 기준으로 삼다. 우리의 평가에 따르면 모든 모델의 진정한 성능은 상당히 과소평가된 경우, Instruct GPT(제로샷)의 성능 LLM은 거의 +60% 증가하여 기존의 상위 모델과 동등합니다 Instruct GPT(few-shot) 모델은 실제로 새로운 최첨단 기술을 달성한다 NQ 열림. 우리는 또한 어휘 일치 실패의 50% 이상이 의미론적으로 동등한 답변에 기인합니다. 우리는 또한 그것을 증명한다 정규식 매칭은 QA 모델을 인간의 판단과 일치시키는 순위를 매긴다 불필요한 엄격함에 시달리다. 마지막으로, 우리는 그것이 자동화되었음을 입증한다 평가 모델은 일부에서 어휘 일치를 위한 합리적인 대용품이다 LLM에 의해 생성된 긴 형식의 답변은 제외됩니다. 자동화된 모델은 LLM 응답에서 환각을 감지하는 데 어려움을 겪기 때문에 불가능합니다 LLM을 평가하기 위해. 현 시점에서, 인간을 대체할 수 있는 것은 없는 것으로 보인다 평가하기. 

 

 

WebCPM: Interactive Web Search for Chinese Long-form Question Answering

 

Long-form question answering (LFQA) aims at answering complex, open-ended questions with detailed, paragraph-length responses. The de facto paradigm of LFQA necessitates two procedures: information retrieval, which searches for relevant supporting facts, and information synthesis, which integrates these facts into a coherent answer. In this paper, we introduce WebCPM, the first Chinese LFQA dataset. One unique feature of WebCPM is that its information retrieval is based on interactive web search, which engages with a search engine in real time. Following WebGPT, we develop a web search interface. We recruit annotators to search for relevant information using our interface and then answer questions. Meanwhile, the web search behaviors of our annotators would be recorded. In total, we collect 5,500 high-quality question-answer pairs, together with 14,315 supporting facts and 121,330 web search actions. We fine-tune pre-trained language models to imitate human behaviors for web search and to generate answers based on the collected facts. Our LFQA pipeline, built on these fine-tuned models, generates answers that are no worse than human-written ones in 32.5% and 47.5% of the cases on our dataset and DuReader, respectively.

 

긴 형식의 질문 답변(LFQA)은 복잡하고 개방적인 답변을 목표로 합니다 단락 길이의 상세한 답변이 있는 질문. 의 사실상의 패러다임 LFQA는 두 가지 절차를 필요로 한다: 정보 검색 관련된 뒷받침 사실, 그리고 이것들을 통합하는 정보 합성 사실을 조리 있게 대답하다. 이 논문에서, 우리는 WebCPM을 소개한다, 첫번째 중국어 LFQA 데이터 세트입니다. WebCPM의 한 가지 독특한 특징은 정보가 검색은 검색과 관련된 대화형 웹 검색을 기반으로 합니다 실시간 엔진. 웹GPT에 이어 웹 검색 인터페이스를 개발한다. 우리가 당사의 인터페이스를 사용하여 관련 정보를 검색할 주석자를 모집합니다 그럼 질문에 답하세요. 한편, 주석자들의 웹 검색 행동은 기록될 것이다. 총 5,500개의 고품질 질문 답변을 수집합니다 14,315개의 사실과 121,330개의 웹 검색 동작과 함께 쌍을 이룬다. 우리가 웹 검색을 위해 인간의 행동을 모방하도록 사전 훈련된 언어 모델을 미세 조정하다 수집된 사실을 기반으로 답변을 생성합니다. LFQA 파이프라인, 구축된 이러한 미세 조정 모델에서 다음과 같은 수준의 답변을 생성합니다 우리 데이터 세트와 DuReader의 사례 중 32.5%와 47.5%에서 인간이 작성한 것, 각각 다음과 같다. 

 

 

반응형

댓글