본문 바로가기
오늘의 자연어 처리

[2023-01-17] 오늘의 자연어처리

by 지환이아빠 2023. 1. 17.
반응형

Blind Judgement: Agent-Based Supreme Court Modelling With GPT

 

We present a novel Transformer-based multi-agent system for simulating the judicial rulings of the 2010-2016 Supreme Court of the United States. We train nine separate models with the respective authored opinions of each supreme justice active ca. 2015 and test the resulting system on 96 real-world cases. We find our system predicts the decisions of the real-world Supreme Court with better-than-random accuracy. We further find a correlation between model accuracy with respect to individual justices and their alignment between legal conservatism & liberalism. Our methods and results hold significance for researchers interested in using language models to simulate politically-charged discourse between multiple agents.

 

우리는 시뮬레이션을 위한 새로운 트랜스포머 기반 다중 에이전트 시스템을 제시한다 2010-2016년 미국 대법원의 사법 판결. 우리는 훈련한다 각 최고위자의 각각의 저작된 의견을 가진 9개의 개별 모델 2015년 정의 활동 ca. 96건의 실제 사례에 대해 결과 시스템을 테스트합니다. 우리는 우리의 시스템이 실제 세계 대법원의 결정을 예측한다는 것을 발견했다 정확도가 월등히 높습니다. 우리는 또한 모델 간의 상관관계를 찾는다 개별 판사와 법률 간의 정렬에 관한 정확성 보수주의와 자유주의. 우리의 방법과 결과는 다음을 위해 중요하다 언어 모델을 사용하여 정치적으로 부담을 받는 시뮬레이션에 관심이 있는 연구자들 여러 에이전트 간의 대화. 

 

 

A Dataset of Kurdish (Sorani) Named Entities -- An Amendment to Kurdish-BLARK Named Entities

 

Named Entity Recognition (NER) is one of the essential applications of Natural Language Processing (NLP). It is also an instrument that plays a significant role in many other NLP applications, such as Machine Translation (MT), Information Retrieval (IR), and Part of Speech Tagging (POST). Kurdish is an under-resourced language from the NLP perspective. Particularly, in all the categories, the lack of NER resources hinders other aspects of Kurdish processing. In this work, we present a data set that covers several categories of NEs in Kurdish (Sorani). The dataset is a significant amendment to a previously developed dataset in the Kurdish BLARK (Basic Language Resource Kit). It covers 11 categories and 33261 entries in total. The dataset is publicly available for non-commercial use under CC BY-NC-SA 4.0 license at this https URL.

 

명명된 엔티티 인식(NER)은 다음과 같은 필수 애플리케이션 중 하나입니다 자연어 처리(NLP). 그것은 또한 연주하는 악기이다 기계 번역과 같은 다른 많은 NLP 애플리케이션에서 중요한 역할을 수행합니다 (MT), 정보 검색(IR) 및 음성 태그(POST)의 일부입니다. 쿠르드어는 NLP 관점에서 자원이 부족한 언어. 특히, 모든 면에서 범주, NER 자원의 부족은 쿠르드족의 다른 측면을 방해한다 처리. 이 작업에서, 우리는 몇 가지 범주를 다루는 데이터 세트를 제시한다 쿠르드어(소라니어)의 NE. 데이터 세트는 a에 대한 중요한 수정 사항이다 쿠르드 BLARK(기본 언어 자원)에서 이전에 개발된 데이터 세트 총 11개 부문과 33261개 출품작을 망라하고 있다. 데이터 집합은 다음 사이트에서 CC BY-NC-SA 4.0 라이센스에 따라 비상업적 사용을 위해 공개적으로 사용할 수 있습니다 이 https URL. 

 

 

KAER: A Knowledge Augmented Pre-Trained Language Model for Entity Resolution

 

Entity resolution has been an essential and well-studied task in data cleaning research for decades. Existing work has discussed the feasibility of utilizing pre-trained language models to perform entity resolution and achieved promising results. However, few works have discussed injecting domain knowledge to improve the performance of pre-trained language models on entity resolution tasks. In this study, we propose Knowledge Augmented Entity Resolution (KAER), a novel framework named for augmenting pre-trained language models with external knowledge for entity resolution. We discuss the results of utilizing different knowledge augmentation and prompting methods to improve entity resolution performance. Our model improves on Ditto, the existing state-of-the-art entity resolution method. In particular, 1) KAER performs more robustly and achieves better results on "dirty data", and 2) with more general knowledge injection, KAER outperforms the existing baseline models on the textual dataset and dataset from the online product domain. 3) KAER achieves competitive results on highly domain-specific datasets, such as citation datasets, requiring the injection of expert knowledge in future work.

 

엔티티 해결은 데이터에서 필수적이고 잘 연구된 작업이었습니다 수십 년 동안의 청소 연구. 기존 연구는 의 실현 가능성에 대해 논의했다 엔티티 해결을 수행하고 달성하기 위해 사전 훈련된 언어 모델을 활용합니다 유망한 결과. 그러나 도메인 지식을 주입하는 것에 대해 논의한 연구는 거의 없다 엔티티 해결에 대한 사전 훈련된 언어 모델의 성능을 개선한다 본 연구에서는 KAER(Knowledge Augmented Entity Resolution), 사전 훈련된 언어 모델을 강화하기 위해 명명된 새로운 프레임워크 엔티티 확인을 위한 외부 지식. 활용 결과에 대해 논의합니다 다양한 지식 증대 및 실체 개선을 위한 촉진 방법 해상도 성능. 우리의 모델은 기존의 디토를 개선한다 최첨단 실체 해결 방법. 특히, 1) KAER는 더 많은 성과를 낸다 "데이터 수집"에서 더 나은 결과를 얻고, 2) 더 일반적인 방법으로 지식 주입, KAER는 기존의 기준 모델을 능가한다 온라인 제품 도메인의 텍스트 데이터 세트 및 데이터 세트. 3) KAER가 성취하다 인용과 같은 고도의 도메인별 데이터 세트에 대한 경쟁력 있는 결과 향후 작업에 전문 지식을 주입해야 하는 데이터 세트. 

 

 

반응형

댓글