Counterfactual reasoning: Do language models need world knowledge for causal understanding?
Current pre-trained language models have enabled remarkable improvements in downstream tasks, but it remains difficult to distinguish effects of statistical correlation from more systematic logical reasoning grounded on understanding of the real world. In this paper we tease these factors apart by leveraging counterfactual conditionals, which force language models to predict unusual consequences based on hypothetical propositions. We introduce a set of tests drawn from psycholinguistic experiments, as well as larger-scale controlled datasets, to probe counterfactual predictions from a variety of popular pre-trained language models. We find that models are consistently able to override real-world knowledge in counterfactual scenarios, and that this effect is more robust in case of stronger baseline world knowledge -- however, we also find that for most models this effect appears largely to be driven by simple lexical cues. When we mitigate effects of both world knowledge and lexical cues to test knowledge of linguistic nuances of counterfactuals, we find that only GPT-3 shows sensitivity to these nuances, though this sensitivity is also non-trivially impacted by lexical associative factors.
현재 사전 훈련된 언어 모델은 다음과 같은 점에서 괄목할 만한 개선을 가능하게 했다. 다운스트림 작업, 그러나 영향을 구별하는 것은 여전히 어렵다. 보다 체계적인 논리적 추론에 근거한 통계적 상관관계 현실 세계에 대한 이해 이 논문에서 우리는 이러한 요소들을 다음과 같이 구분한다. 반사실 조건을 활용하여 언어 모델이 예측하도록 합니다. 가설에 근거한 비정상적인 결과 우리는 의 세트를 소개한다. 대규모 심리학 실험뿐만 아니라 심리학적 실험에서 도출된 테스트 통제된 데이터 세트, 다양한 사실에 반하는 예측을 조사하기 위해. 인기 있는 사전 훈련된 언어 모델 우리는 모델들이 지속적으로 가능하다는 것을 발견했다. 반사실 시나리오에서 실제 지식을 무시하고, 이것이 효과는 더 강한 기준 세계 지식의 경우에 더 강력하다 -- 하지만, 우리는 또한 대부분의 모델에서 이 효과가 주로 주도되는 것으로 보인다는 것을 발견했다. 단순한 어휘적 단서 우리가 세계 지식의 영향을 완화할 때 그리고 반사실의 언어적 뉘앙스에 대한 지식을 테스트하기 위한 어휘적 단서, 우리는 GPT-3만이 이러한 뉘앙스에 대한 민감성을 보여준다는 것을 발견한다. 민감도는 어휘 연상 요인에 의해 사소한 영향을 받는다.
KATSum: Knowledge-aware Abstractive Text Summarization
Text Summarization is recognised as one of the NLP downstream tasks and it has been extensively investigated in recent years. It can assist people with perceiving the information rapidly from the Internet, including news articles, social posts, videos, etc. Most existing research works attempt to develop summarization models to produce a better output. However, advent limitations of most existing models emerge, including unfaithfulness and factual errors. In this paper, we propose a novel model, named as Knowledge-aware Abstractive Text Summarization, which leverages the advantages offered by Knowledge Graph to enhance the standard Seq2Seq model. On top of that, the Knowledge Graph triplets are extracted from the source text and utilised to provide keywords with relational information, producing coherent and factually errorless summaries. We conduct extensive experiments by using real-world data sets. The results reveal that the proposed framework can effectively utilise the information from Knowledge Graph and significantly reduce the factual errors in the summary.
텍스트 요약은 NLP 다운스트림 작업 중 하나로 인식되며, 최근 몇 년 동안 광범위하게 조사되었습니다. 그것은 사람들을 도울 수 있다. 뉴스 기사를 포함하여 인터넷에서 정보를 빠르게 인식하는 것, 소셜 게시물, 동영상 등 대부분의 기존 연구 작업은 개발을 시도한다. 요약 모델을 사용하여 더 나은 출력을 얻을 수 있습니다. 그러나 출현의 한계는 불성실과 사실 오류를 포함하여 대부분의 기존 모델이 나타난다. 인 본 논문에서는 지식 인식 추상 텍스트라는 새로운 모델을 제안한다. 요약: 지식 그래프가 제공하는 이점을 활용하여 표준 Seq2Seq 모델을 향상시킵니다. 게다가 지식 그래프는 세 쌍둥이는 원본 텍스트에서 추출되고 키워드를 제공하는 데 사용됩니다. 관계형 정보를 사용하여 일관성 있고 사실적으로 오류가 없는 제품을 생산합니다. 요약. 우리는 실제 데이터 세트를 사용하여 광범위한 실험을 수행한다. 그 결과는 제안된 프레임워크가 효과적으로 활용될 수 있다는 것을 보여준다. 지식 그래프의 정보를 사용하여 사실 오류를 크게 줄인다. 간추린
A Generative Approach for Script Event Prediction via Contrastive Fine-tuning
Script event prediction aims to predict the subsequent event given the context. This requires the capability to infer the correlations between events. Recent works have attempted to improve event correlation reasoning by using pretrained language models and incorporating external knowledge~(e.g., discourse relations). Though promising results have been achieved, some challenges still remain. First, the pretrained language models adopted by current works ignore event-level knowledge, resulting in an inability to capture the correlations between events well. Second, modeling correlations between events with discourse relations is limited because it can only capture explicit correlations between events with discourse markers, and cannot capture many implicit correlations. To this end, we propose a novel generative approach for this task, in which a pretrained language model is fine-tuned with an event-centric pretraining objective and predicts the next event within a generative paradigm. Specifically, we first introduce a novel event-level blank infilling strategy as the learning objective to inject event-level knowledge into the pretrained language model, and then design a likelihood-based contrastive loss for fine-tuning the generative model. Instead of using an additional prediction layer, we perform prediction by using sequence likelihoods generated by the generative model. Our approach models correlations between events in a soft way without any external knowledge. The likelihood-based prediction eliminates the need to use additional networks to make predictions and is somewhat interpretable since it scores each word in the event. Experimental results on the multi-choice narrative cloze~(MCNC) task demonstrate that our approach achieves better results than other state-of-the-art baselines. Our code will be available at \url{this https URL}.
스크립트 이벤트 예측은 주어진 후속 이벤트를 예측하는 것을 목표로 한다. 맥락. 이를 위해서는 사건들 사이의 상관관계를 추론할 수 있는 능력이 필요하다. 최근의 연구는 다음을 사용하여 사건 상관 추론을 개선하려고 시도했다. 사전 훈련된 언어 모델 및 외부 지식 통합~(예: 관계를 논하다. 비록 유망한 결과를 얻었지만, 몇몇은 과제는 여전히 남아 있다. 첫째, 에 의해 채택된 사전 훈련된 언어 모델. 현재 작업은 이벤트 수준의 지식을 무시하고, 결과적으로 다음을 수행할 수 없습니다. 사건들 사이의 상관관계를 잘 포착한다. 둘째, 상관관계 모델링 담화 관계가 있는 사건들 사이에는 그것이 오직 포착할 수 있기 때문에 제한적이다. 담화 마커가 있는 이벤트 간의 명시적 상관 관계, 그리고 캡처할 수 없다. 많은 암시적 상관 관계 이를 위해, 우리는 새로운 생성 접근법을 제안한다. 사전 훈련된 언어 모델이 다음과 같이 미세 조정되는 이 작업에 대해 이벤트 중심 사전 훈련 목표 및 다음 이벤트를 예측한다. 생성 패러다임 구체적으로, 우리는 먼저 새로운 이벤트 수준 빈칸을 소개한다. 이벤트 수준의 지식을 주입하기 위한 학습 목표로서의 주입 전략 사전 훈련된 언어 모델로, 그리고 나서 가능성 기반을 설계한다. 생성 모델을 미세 조정하기 위한 대조적 손실. 를 사용하는 대신 추가 예측 계층, 우리는 시퀀스를 사용하여 예측을 수행한다. 생성 모형에 의해 생성된 가능성. 우리의 접근 방식은 상관 관계를 모델링합니다. 외부 지식 없이 부드러운 방식으로 사건들 사이에. 그 가능성 기반 예측은 추가 네트워크를 사용할 필요가 없습니다. 예측을 하고 그것이 각각의 단어를 점수화하기 때문에 어느 정도 해석할 수 있다. 이벤트. 객관식 서술 폐쇄(MCNC) 과제에 대한 실험 결과 우리의 접근 방식이 다른 접근 방식보다 더 나은 결과를 달성한다는 것을 보여준다. 최첨단 기준선 코드는 다음에서 사용할 수 있습니다. \url{이 https URL}입니다.
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-12-11] 오늘의 자연어처리 (0) | 2022.12.11 |
---|---|
[2022-12-10] 오늘의 자연어처리 (0) | 2022.12.10 |
[2022-12-08] 오늘의 자연어처리 (0) | 2022.12.08 |
[2022-12-07] 오늘의 자연어처리 (0) | 2022.12.07 |
[2022-12-06] 오늘의 자연어처리 (0) | 2022.12.06 |
댓글