PCoQA: Persian Conversational Question Answering Dataset
Abstract:Humans seek information regarding a specific topic through performing a conversation containing a series of questions and answers. In the pursuit of conversational question answering research, we introduce the PCoQA, the first \textbf{P}ersian \textbf{Co}nversational \textbf{Q}uestion \textbf{A}nswering dataset, a resource comprising information-seeking dialogs encompassing a total of 9,026 contextually-driven questions. Each dialog involves a questioner, a responder, and a document from the Wikipedia; The questioner asks several inter-connected questions from the text and the responder provides a span of the document as the answer for each question. PCoQA is designed to present novel challenges compared to previous question answering datasets including having more open-ended non-factual answers, longer answers, and fewer lexical overlaps. This paper not only presents the comprehensive PCoQA dataset but also reports the performance of various benchmark models. Our models include baseline models and pre-trained models, which are leveraged to boost the performance of the model. The dataset and benchmarks are available at our Github page.
추상화:인간은 일련의 질문과 답변을 담은 대화를 수행함으로써 특정 주제에 대한 정보를 추구한다. 대화식 질문 답변 연구를 추구하기 위해, 우리는 최초의 \textbf{인 PCoQA를 소개한다P}ersian \textbf{Co}nversational \textbf{질문 \textbf{A}nwering 데이터 세트, 총 9,026개의 상황별 질문을 포함하는 정보 찾기 대화상자로 구성된 리소스. 각 대화에는 질문자, 응답자 및 위키백과의 문서가 포함됩니다; 질문자는 텍스트로부터 여러 개의 상호 연결된 질문을 하고 응답자는 각 질문에 대한 답변으로서 문서의 범위를 제공한다. PCoQA는 더 많은 개방형 비사실 답변, 더 긴 답변 및 더 적은 어휘 중복을 포함하여 이전 질문 답변 데이터 세트와 비교하여 새로운 과제를 제시하도록 설계되었다. 본 논문에서는 종합적인 PCoQA 데이터셋을 제시할 뿐만 아니라 다양한 벤치마크 모델의 성능을 보고한다. 우리의 모델에는 모델의 성능을 향상시키기 위해 활용되는 기준 모델과 사전 훈련된 모델이 포함된다. 데이터 세트와 벤치마크는 Github 페이지에서 사용할 수 있습니다.
CLadder: A Benchmark to Assess Causal Reasoning Capabilities of Language Models
Abstract:The ability to perform causal reasoning is widely considered a core feature of intelligence. In this work, we investigate whether large language models (LLMs) can coherently reason about causality. Much of the existing work in natural language processing (NLP) focuses on evaluating commonsense causal reasoning in LLMs, thus failing to assess whether a model can perform causal inference in accordance with a set of well-defined formal rules. To address this, we propose a new NLP task, causal inference in natural language, inspired by the "causal inference engine" postulated by Judea Pearl et al. We compose a large dataset, CLadder, with 10K samples: based on a collection of causal graphs and queries (associational, interventional, and counterfactual), we obtain symbolic questions and ground-truth answers, through an oracle causal inference engine. These are then translated into natural language. We evaluate multiple LLMs on our dataset, and we introduce and evaluate a bespoke chain-of-thought prompting strategy, CausalCoT. We show that our task is highly challenging for LLMs, and we conduct an in-depth analysis to gain deeper insight into the causal reasoning abilities of LLMs. Our data is open-sourced at this https URL, and our code can be found at this https URL.
추상화:인과적 추론을 수행할 수 있는 능력은 지능의 핵심적 특징으로 널리 여겨지고 있다. 본 연구에서는 큰 언어 모델(LLM)이 인과성에 대해 일관성 있게 추론할 수 있는지 조사한다. 자연어 처리(NLP)의 기존 작업의 대부분은 LLM에서 상식적인 인과 추론을 평가하는 데 초점을 맞추고 있으므로 모델이 잘 정의된 공식 규칙에 따라 인과 추론을 수행할 수 있는지 여부를 평가하지 못한다. 이를 해결하기 위해, 우리는 Judea Pearl 등이 가정한 "인과 추론 엔진"에서 영감을 받아 자연어로 인과 추론이라는 새로운 NLP 과제를 제안한다. 우리는 10K 샘플로 대규모 데이터 세트인 CLadder를 구성한다: 인과 그래프 및 쿼리 모음(연관적, 중재적, 반사실적)을 기반으로 오라클 인과 추론 엔진을 통해 상징적 질문과 근거-진실 답변을 얻는다. 그리고 나서 이것들은 자연어로 번역됩니다. 데이터 세트에서 여러 LLM을 평가하고 맞춤형 사고 유도 전략인 인과 관계(AcausiveCoT)를 소개하고 평가한다. 우리는 LLM들에게 우리의 작업이 매우 어렵다는 것을 보여주며, LLM들의 인과적 추론 능력에 대한 더 깊은 통찰력을 얻기 위해 심층 분석을 수행한다. 우리의 데이터는 이 https URL에서 오픈 소스로 제공되며, 우리의 코드는 이 https URL에서 찾을 수 있다.
nerblackbox: A High-level Library for Named Entity Recognition in Python
Abstract:We present nerblackbox, a python library to facilitate the use of state-of-the-art transformer-based models for named entity recognition. It provides simple-to-use yet powerful methods to access data and models from a wide range of sources, for fully automated model training and evaluation as well as versatile model inference. While many technical challenges are solved and hidden from the user by default, nerblackbox also offers fine-grained control and a rich set of customizable features. It is thus targeted both at application-oriented developers as well as machine learning experts and researchers.
추상화:명명된 엔티티 인식을 위한 최첨단 트랜스포머 기반 모델의 사용을 용이하게 하기 위해 파이썬 라이브러리인 nerblackbox를 제시한다. 사용하기 간편하면서도 강력한 방법을 제공하여 다양한 소스에서 데이터와 모델에 액세스하여 완전히 자동화된 모델 훈련 및 평가는 물론 다재다능한 모델 추론을 가능하게 한다. 많은 기술적인 문제들이 기본적으로 해결되고 사용자로부터 숨겨지지만, nerblackbox는 세부적인 제어와 사용자 정의가 가능한 풍부한 기능들을 제공한다. 따라서 응용 지향 개발자뿐만 아니라 기계 학습 전문가와 연구자 모두를 대상으로 한다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-12-12] 오늘의 자연어처리 (0) | 2023.12.12 |
---|---|
[2023-12-11] 오늘의 자연어처리 (0) | 2023.12.11 |
[2023-12-09] 오늘의 자연어처리 (0) | 2023.12.09 |
[2023-12-08] 오늘의 자연어처리 (1) | 2023.12.08 |
[2023-12-07] 오늘의 자연어처리 (1) | 2023.12.07 |
댓글