Unsupervised Simplification of Legal Texts
The processing of legal texts has been developing as an emerging field in natural language processing (NLP). Legal texts contain unique jargon and complex linguistic attributes in vocabulary, semantics, syntax, and morphology. Therefore, the development of text simplification (TS) methods specific to the legal domain is of paramount importance for facilitating comprehension of legal text by ordinary people and providing inputs to high-level models for mainstream legal NLP applications. While a recent study proposed a rule-based TS method for legal text, learning-based TS in the legal domain has not been considered previously. Here we introduce an unsupervised simplification method for legal texts (USLT). USLT performs domain-specific TS by replacing complex words and splitting long sentences. To this end, USLT detects complex words in a sentence, generates candidates via a masked-transformer model, and selects a candidate for substitution based on a rank score. Afterward, USLT recursively decomposes long sentences into a hierarchy of shorter core and context sentences while preserving semantic meaning. We demonstrate that USLT outperforms state-of-the-art domain-general TS methods in text simplicity while keeping the semantics intact.
법률 텍스트의 처리는 새로운 분야로 발전하고 있다. 자연어 처리(NLP) 법률문헌은 독특한 전문용어를 포함하고 있다. 어휘, 의미론, 구문 및 형태학의 복잡한 언어 속성 따라서, 텍스트 단순화(TS) 방법의 개발은 다음과 같다. 법률 영역은 법률의 이해를 촉진하는 데 가장 중요하다. 일반인에 의한 텍스트 및 고급 모델에 대한 입력 제공 주류 법률 NLP 애플리케이션. 최근의 한 연구는 규칙 기반에 대해 제안했다. 법률 텍스트에 대한 TS 방법, 법률 영역의 학습 기반 TS는 아직 수행되지 않았습니다. 이전에 고려된. 여기서 우리는 감독되지 않은 단순화 방법을 소개한다. 법적 텍스트(USLT)의 경우. USLT는 복합체를 대체하여 도메인별 TS 수행 단어와 긴 문장을 나누는 것 이를 위해, USLT는 복잡한 단어들을 감지한다. 문장, 마스킹된 모델(masked-reader model)을 통해 후보들을 생성하고, a를 선택한다. 순위 점수에 따라 대체 후보 그 후 USLT는 재귀적으로 긴 문장을 짧은 핵심과 문맥의 계층 구조로 분해한다. 의미적 의미를 보존하면서 문장들. 우리는 USLT를 입증한다. 텍스트 단순성에서 최첨단 도메인 일반 TS 방법을 능가하는 반면 의미론을 그대로 유지하는 것.
Exploiting Hybrid Semantics of Relation Paths for Multi-hop Question Answering Over Knowledge Graphs
Answering natural language questions on knowledge graphs (KGQA) remains a great challenge in terms of understanding complex questions via multi-hop reasoning. Previous efforts usually exploit large-scale entity-related text corpora or knowledge graph (KG) embeddings as auxiliary information to facilitate answer selection. However, the rich semantics implied in off-the-shelf relation paths between entities is far from well explored. This paper proposes improving multi-hop KGQA by exploiting relation paths' hybrid semantics. Specifically, we integrate explicit textual information and implicit KG structural features of relation paths based on a novel rotate-and-scale entity link prediction framework. Extensive experiments on three existing KGQA datasets demonstrate the superiority of our method, especially in multi-hop scenarios. Further investigation confirms our method's systematical coordination between questions and relation paths to identify answer entities.
지식 그래프(KGQA)에 대한 자연어 질문에 답하는 것은 여전히 중요하다. 멀티홉을 통한 복잡한 질문을 이해하는 측면에서 큰 도전 추리 이전의 노력은 일반적으로 대규모 엔티티 관련 텍스트를 활용한다. 보조 정보로서 말뭉치 또는 지식 그래프(KG) 임베딩 답안 선택을 용이하게 한다. 그러나, 풍부한 의미론은 다음과 같다. 실체 간의 기성 관계 경로는 잘 탐구되지 않았다. 이것. 본 논문에서는 관계 경로의 하이브리드를 활용하여 멀티홉 KGQA 개선을 제안한다. 의미론 구체적으로, 우리는 명시적인 텍스트 정보와 암묵적인 정보를 통합한다. 새로운 회전 및 축척을 기반으로 한 관계 경로의 KG 구조 특성 엔티티 링크 예측 프레임워크. 3개의 기존 KGQA에 대한 광범위한 실험 데이터 세트는 특히 멀티 홉에서 우리 방법의 우수성을 보여준다. 시나리오 추가 조사를 통해 우리의 방법이 체계적이라는 것이 확인되었습니다. 질문 및 관계 경로 간의 조정으로 답변 엔티티를 식별합니다.
A New Aligned Simple German Corpus
"Leichte Sprache", the German counterpart to Simple English, is a regulated language aiming to facilitate complex written language that would otherwise stay inaccessible to different groups of people. We present a new sentence-aligned monolingual corpus for Simple German -- German. It contains multiple document-aligned sources which we have aligned using automatic sentence-alignment methods. We evaluate our alignments based on a manually labelled subset of aligned documents. The quality of our sentence alignments, as measured by F1-score, surpasses previous work. We publish the dataset under CC BY-SA and the accompanying code under MIT license.
"Leichte Sprache"는 간단한 영어의 독일어 대응어이며, 규제 대상입니다. 그렇지 않다면 복잡한 문어를 용이하게 하는 것을 목표로 하는 언어 서로 다른 집단의 사람들이 접근하지 못하게 한다. 우리는 새로운 것을 선물한다. 간단한 독일어 -- 독일어를 위한 문장 정렬된 단일 언어 말뭉치. 들어있다 자동을 사용하여 정렬된 여러 문서 검색 소스 문장 이해법 수동으로 정렬을 평가합니다. 정렬된 문서의 레이블이 지정된 하위 집합입니다. 우리의 문장 정렬의 질은 F1 점수로 측정했을 때, 이전 작업을 능가한다. 아래 데이터 세트를 게시합니다. CC BY-SA 및 MIT 라이센스에 따른 코드.
'오늘의 자연어 처리' 카테고리의 다른 글
[2022-09-08] 오늘의 자연어처리 (0) | 2022.09.08 |
---|---|
[2022-09-07] 오늘의 자연어처리 (0) | 2022.09.07 |
[2022-09-06] 오늘의 자연어처리 (0) | 2022.09.06 |
[2022-09-05] 오늘의 자연어처리 (0) | 2022.09.05 |
[2022-09-05] 오늘의 자연어처리 (0) | 2022.09.05 |
댓글