본문 바로가기
오늘의 자연어 처리

[2022-09-03] 오늘의 자연어처리

by 지환이아빠 2022. 9. 3.
반응형

Searching for Structure in Unfalsifiable Claims

 

Social media platforms give rise to an abundance of posts and comments on every topic imaginable. Many of these posts express opinions on various aspects of society, but their unfalsifiable nature makes them ill-suited to fact-checking pipelines. In this work, we aim to distill such posts into a small set of narratives that capture the essential claims related to a given topic. Understanding and visualizing these narratives can facilitate more informed debates on social media. As a first step towards systematically identifying the underlying narratives on social media, we introduce PAPYER, a fine-grained dataset of online comments related to hygiene in public restrooms, which contains a multitude of unfalsifiable claims. We present a human-in-the-loop pipeline that uses a combination of machine and human kernels to discover the prevailing narratives and show that this pipeline outperforms recent large transformer models and state-of-the-art unsupervised topic models.

 

소셜 미디어 플랫폼은 다음과 같은 많은 게시물과 댓글을 생성합니다. 생각할 수 있는 모든 주제 이러한 게시물 중 많은 부분이 다양한 측면에 대한 의견을 표현하고 있습니다. 사회의, 그러나 그들의 위조할 수 없는 본성은 그들을 불친절하게 만든다. 사실 확인 파이프라인 이 작업에서, 우리는 그러한 포스트를 증류하여 하나의 포스트로 만드는 것을 목표로 한다. 주어진 것과 관련된 본질적인 주장을 포착하는 작은 이야기의 집합. 주제. 이러한 내러티브를 이해하고 시각화하는 것은 더 쉽게 할 수 있다. 소셜 미디어에 대한 정보에 입각한 토론 체계적으로 나아가는 첫 단계로 소셜 미디어의 기본 내러티브를 식별하여, 우리는 PAPYER를 소개한다. 공중화장실의 위생과 관련된 온라인 코멘트의 세밀한 데이터 세트, 여기에는 다수의 거짓 주장들이 포함되어 있습니다. 우리는 a를 제시한다. 기계와 인간 커널의 조합을 사용하는 휴먼 인 더 루프 파이프라인 널리 퍼진 내러티브를 발견하고 이 파이프라인이 더 뛰어난 성능을 발휘한다는 것을 보여주기 위해 최근의 대형 변압기 모델과 최첨단 비지도 주제 모델. 

 

 

Less is More: Rethinking State-of-the-art Continual Relation Extraction Models with a Frustratingly Easy but Effective Approach

 

Continual relation extraction (CRE) requires the model to continually learn new relations from class-incremental data streams. In this paper, we propose a Frustratingly easy but Effective Approach (FEA) method with two learning stages for CRE: 1) Fast Adaption (FA) warms up the model with only new data. 2) Balanced Tuning (BT) finetunes the model on the balanced memory data. Despite its simplicity, FEA achieves comparable (on TACRED or superior (on FewRel) performance compared with the state-of-the-art baselines. With careful examinations, we find that the data imbalance between new and old relations leads to a skewed decision boundary in the head classifiers over the pretrained encoders, thus hurting the overall performance. In FEA, the FA stage unleashes the potential of memory data for the subsequent finetuning, while the BT stage helps establish a more balanced decision boundary. With a unified view, we find that two strong CRE baselines can be subsumed into the proposed training pipeline. The success of FEA also provides actionable insights and suggestions for future model designing in CRE.

 

연속 관계 추출(CRE)을 위해서는 모델이 지속적으로 학습해야 합니다. 클래스 증분 데이터 스트림의 새로운 관계. 이 논문에서, 우리는 다음을 제안한다. 두 가지 학습 단계가 있는 실망스러울 정도로 쉽지만 효과적인 접근(FEA) 방법 CRE: 1) 빠른 적응(FA)은 새 데이터만 사용하여 모델을 예열합니다. 2) 균형 조정(BT)은 균형 잡힌 메모리 데이터에서 모델을 미세 조정한다. 불구하고 단순성, FEA는 동등(TACRED 이상(FewRel)에서) 달성 최신 기준선과 비교한 성능입니다. 조심해서 검사, 우리는 새로운 관계와 오래된 관계 사이의 데이터 불균형을 발견한다. 사전 훈련된 머리 분류기에서 왜곡된 결정 경계로 이어집니다. 인코더로 인해 전체 성능이 저하됩니다. FEA에서는 FA 단계가 해제됩니다. BT 단계에서 후속 미세 조정을 위한 메모리 데이터의 잠재력 보다 균형 잡힌 의사 결정 경계를 설정하는 데 도움이 됩니다. 통합된 뷰를 통해 제안된 교육에 두 개의 강력한 CRE 기준선이 포함될 수 있다. 파이프라인 FEA의 성공은 또한 실행 가능한 통찰력과 제안을 제공한다. CRE에서 미래 모델 설계를 위해. 

 

 

Unsupervised Simplification of Legal Texts

 

The processing of legal texts has been developing as an emerging field in natural language processing (NLP). Legal texts contain unique jargon and complex linguistic attributes in vocabulary, semantics, syntax, and morphology. Therefore, the development of text simplification (TS) methods specific to the legal domain is of paramount importance for facilitating comprehension of legal text by ordinary people and providing inputs to high-level models for mainstream legal NLP applications. While a recent study proposed a rule-based TS method for legal text, learning-based TS in the legal domain has not been considered previously. Here we introduce an unsupervised simplification method for legal texts (USLT). USLT performs domain-specific TS by replacing complex words and splitting long sentences. To this end, USLT detects complex words in a sentence, generates candidates via a masked-transformer model, and selects a candidate for substitution based on a rank score. Afterward, USLT recursively decomposes long sentences into a hierarchy of shorter core and context sentences while preserving semantic meaning. We demonstrate that USLT outperforms state-of-the-art domain-general TS methods in text simplicity while keeping the semantics intact.

 

법률 텍스트의 처리는 새로운 분야로 발전하고 있다. 자연어 처리(NLP) 법률문헌은 독특한 전문용어를 포함하고 있다. 어휘, 의미론, 구문 및 형태학의 복잡한 언어 속성 따라서, 텍스트 단순화(TS) 방법의 개발은 다음과 같다. 법률 영역은 법률의 이해를 촉진하는 데 가장 중요하다. 일반인에 의한 텍스트 및 고급 모델에 대한 입력 제공 주류 법률 NLP 애플리케이션. 최근의 한 연구는 규칙 기반에 대해 제안했다. 법률 텍스트에 대한 TS 방법, 법률 영역의 학습 기반 TS는 아직 수행되지 않았습니다. 이전에 고려된. 여기서 우리는 감독되지 않은 단순화 방법을 소개한다. 법적 텍스트(USLT)의 경우. USLT는 복합체를 대체하여 도메인별 TS 수행 단어와 긴 문장을 나누는 것 이를 위해, USLT는 복잡한 단어들을 감지한다. 문장, 마스킹된 모델(masked-reader model)을 통해 후보들을 생성하고, a를 선택한다. 순위 점수에 따라 대체 후보 그 후 USLT는 재귀적으로 긴 문장을 짧은 핵심과 문맥의 계층 구조로 분해한다. 의미적 의미를 보존하면서 문장들. 우리는 USLT를 입증한다. 텍스트 단순성에서 최첨단 도메인 일반 TS 방법을 능가하는 반면 의미론을 그대로 유지하는 것. 

 

 

반응형

댓글