본문 바로가기
오늘의 자연어 처리

[2023-01-29] 오늘의 자연어처리

by 지환이아빠 2023. 1. 29.
반응형

LoRaLay: A Multilingual and Multimodal Dataset for Long Range and Layout-Aware Summarization

 

Text Summarization is a popular task and an active area of research for the Natural Language Processing community. By definition, it requires to account for long input texts, a characteristic which poses computational challenges for neural models. Moreover, real-world documents come in a variety of complex, visually-rich, layouts. This information is of great relevance, whether to highlight salient content or to encode long-range interactions between textual passages. Yet, all publicly available summarization datasets only provide plain text content. To facilitate research on how to exploit visual/layout information to better capture long-range dependencies in summarization models, we present LoRaLay, a collection of datasets for long-range summarization with accompanying visual/layout information. We extend existing and popular English datasets (arXiv and PubMed) with layout information and propose four novel datasets -- consistently built from scholar resources -- covering French, Spanish, Portuguese, and Korean languages. Further, we propose new baselines merging layout-aware and long-range models -- two orthogonal approaches -- and obtain state-of-the-art results, showing the importance of combining both lines of research.

 

텍스트 요약은 인기 있는 작업이며 다음을 위한 활발한 연구 영역입니다 자연어 처리 커뮤니티입니다. 정의에 따르면, 그것은 다음을 요구한다 긴 입력 텍스트의 경우, 계산 문제를 제기하는 특성 신경 모형. 게다가, 실제 문서들은 다양한 복잡한 형태로 나옵니다, 시각적으로 풍부한 레이아웃. 이 정보는 다음과 같이 매우 관련이 있습니다 두드러진 내용을 강조하거나 텍스트 간의 장거리 상호 작용을 인코딩합니다 구절. 그러나 공개적으로 사용 가능한 모든 요약 데이터 세트는 일반적인 것만 제공합니다 텍스트 내용. 시각적/레이아웃을 활용하는 방법에 대한 연구를 촉진합니다 요약 모델에서 장거리 종속성을 더 잘 포착하기 위한 정보, 우리는 다음과 같은 장거리 요약을 위한 데이터 세트 모음인 LoRaLay를 제시한다 첨부된 시각적/시각적 정보. 기존 영어와 인기 영어를 확장합니다 레이아웃 정보가 포함된 데이터 세트(arXiv 및 PubMed) 및 4개의 소설을 제안합니다 지속적으로 학자 자원으로 구축된 데이터 세트는 프랑스어를 포함한다, 스페인어, 포르투갈어, 한국어. 또한, 우리는 새로운 기준선을 제안한다 레이아웃 인식 및 장거리 모델 병합 -- 두 가지 직교 접근법 -- 그리고 두 라인을 결합하는 것의 중요성을 보여주는 최첨단 결과를 얻다 연구의. 

 

 

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature

 

The fluency and factual knowledge of large language models (LLMs) heightens the need for corresponding systems to detect whether a piece of text is machine-written. For example, students may use LLMs to complete written assignments, leaving instructors unable to accurately assess student learning. In this paper, we first demonstrate that text sampled from an LLM tends to occupy negative curvature regions of the model's log probability function. Leveraging this observation, we then define a new curvature-based criterion for judging if a passage is generated from a given LLM. This approach, which we call DetectGPT, does not require training a separate classifier, collecting a dataset of real or generated passages, or explicitly watermarking generated text. It uses only log probabilities computed by the model of interest and random perturbations of the passage from another generic pre-trained language model (e.g, T5). We find DetectGPT is more discriminative than existing zero-shot methods for model sample detection, notably improving detection of fake news articles generated by 20B parameter GPT-NeoX from 0.81 AUROC for the strongest zero-shot baseline to 0.95 AUROC for DetectGPT. See this https URL for code, data, and other project information.

 

대형 언어 모델(LLM)의 유창성과 사실적 지식이 증가합니다 텍스트 조각이 다음과 같은지 여부를 감지하는 해당 시스템의 필요성 기계로 쓴. 예를 들어, 학생들은 LLM을 사용하여 필기를 완료할 수 있습니다 과제로 인해 강사가 학생 학습을 정확하게 평가할 수 없게 됩니다. 이 논문에서, 우리는 먼저 LLM에서 샘플링된 텍스트가 다음과 같은 경향이 있음을 보여준다 모형 로그 확률 함수의 음의 곡률 영역을 차지합니다. 이 관찰을 활용하여, 우리는 다음과 같은 새로운 곡률 기반 기준을 정의한다 지정된 LLM에서 통로가 생성되는지 여부를 판단합니다. 이 접근법은, 우리가 DetectGPT를 호출합니다. 별도의 분류기 교육이 필요하지 않습니다. 수집 실제 또는 생성된 구절의 데이터 세트 또는 명시적으로 생성된 워터마킹 텍스트. 관심 모델에 의해 계산된 로그 확률만을 사용한다 다른 일반적인 사전 훈련된 언어로부터의 구절의 무작위 동요 모델(예: T5). 우리는 DetectGPT가 기존보다 더 차별적이라는 것을 발견했다 모델 샘플 탐지를 위한 제로샷 방법, 특히 탐지를 개선한다 0.81 AUROC에서 20B 매개 변수 GPT-NeoX에 의해 생성된 가짜 뉴스 기사 0.95 AUROC for Detect GPT에 대한 가장 강력한 제로샷 기준선. 봐 코드, 데이터 및 기타 프로젝트에 대한 이 https URL 정보. 

 

 

Causal Reasoning of Entities and Events in Procedural Texts

 

Entities and events have long been regarded as the crux of machine reasoning. Specifically, procedural texts have received increasing attention due to the dynamic nature of involved entities and events. Existing work has exclusively focused on entity state tracking (e.g., the temperature of a pan) or counterfactual event reasoning (e.g., how likely am I to burn myself by touching the pan), while these two tasks are tightly intertwined. In this work, we propose CREPE, the first benchmark on causal reasoning about event plausibility based on entity states. We experiment with strong large language models and show that most models including GPT3 perform close to chance of .30 F1, lagging far behind the human performance of .87 F1. Inspired by the finding that structured representations such as programming languages benefits event reasoning as a prompt to code language models such as Codex, we creatively inject the causal relations between entities and events through intermediate variables and boost the performance to .67 to .72 F1. Our proposed event representation not only allows for knowledge injection, but also marks the first successful attempt of chain-of-thought reasoning with code language models.

 

실체와 사건은 오랫동안 기계 추론의 핵심으로 여겨져 왔다. 특히, 절차적 텍스트는 다음과 같은 이유로 점점 더 많은 관심을 받고 있다 관련 엔티티 및 이벤트의 동적 특성. 기존 작업이 독점적으로 수행되었습니다 엔티티 상태 추적(예: 팬의 온도)에 초점을 맞추거나 반사실적 사건 추론(예: 내가 얼마나 스스로를 불태울 가능성이 있는가) 이 두 가지 작업이 밀접하게 얽혀 있는 동안에 말입니다. 이 작품에서, 우리는 사건에 대한 인과 추론에 대한 첫 번째 벤치마크인 CREPE를 제안한다 엔티티 상태에 기반한 신뢰성. 우리는 강력한 큰 언어로 실험한다 GPT3를 포함한 대부분의 모델이 .30에 가까운 성능을 발휘한다는 것을 보여준다 F1은 인간의 성능인 .87 F1보다 훨씬 뒤떨어져 있다. 그 발견에 영감을 받았다 프로그래밍 언어와 같은 구조화된 표현이 이벤트에 도움이 된다는 것 Codex와 같은 언어 모델을 코딩하기 위한 프롬프트로서 추론, 우리는 창의적이다 중간체를 통해 실체와 사건 사이의 인과관계를 주입한다 변수를 사용하여 성능을 .67에서 .72 F1로 높입니다. 우리가 제안한 이벤트 표현은 지식 주입을 허용할 뿐만 아니라, 또한 표시한다 코드 언어를 사용한 사상 연쇄 추론의 첫 번째 성공적인 시도 모형. 

 

 

반응형

댓글