본문 바로가기
오늘의 자연어 처리

[2023-01-18] 오늘의 자연어처리

by 지환이아빠 2023. 1. 18.
반응형

Blind Judgement: Agent-Based Supreme Court Modelling With GPT

 

We present a novel Transformer-based multi-agent system for simulating the judicial rulings of the 2010-2016 Supreme Court of the United States. We train nine separate models with the respective authored opinions of each supreme justice active ca. 2015 and test the resulting system on 96 real-world cases. We find our system predicts the decisions of the real-world Supreme Court with better-than-random accuracy. We further find a correlation between model accuracy with respect to individual justices and their alignment between legal conservatism & liberalism. Our methods and results hold significance for researchers interested in using language models to simulate politically-charged discourse between multiple agents.

 

우리는 시뮬레이션을 위한 새로운 트랜스포머 기반 다중 에이전트 시스템을 제시한다 2010-2016년 미국 대법원의 사법 판결. 우리는 훈련한다 각 최고위자의 각각의 저작된 의견을 가진 9개의 개별 모델 2015년 정의 활동 ca. 96건의 실제 사례에 대해 결과 시스템을 테스트합니다. 우리는 우리의 시스템이 실제 세계 대법원의 결정을 예측한다는 것을 발견했다 정확도가 월등히 높습니다. 우리는 또한 모델 간의 상관관계를 찾는다 개별 판사와 법률 간의 정렬에 관한 정확성 보수주의와 자유주의. 우리의 방법과 결과는 다음을 위해 중요하다 언어 모델을 사용하여 정치적으로 부담을 받는 시뮬레이션에 관심이 있는 연구자들 여러 에이전트 간의 대화. 

 

 

The 2022 n2c2/UW Shared Task on Extracting Social Determinants of Health

 

Objective: The n2c2/UW SDOH Challenge explores the extraction of social determinant of health (SDOH) information from clinical notes. The objectives include the advancement of natural language processing (NLP) information extraction techniques for SDOH and clinical information more broadly. This paper presents the shared task, data, participating teams, performance results, and considerations for future work. Materials and Methods: The task used the Social History Annotated Corpus (SHAC), which consists of clinical text with detailed event-based annotations for SDOH events such as alcohol, drug, tobacco, employment, and living situation. Each SDOH event is characterized through attributes related to status, extent, and temporality. The task includes three subtasks related to information extraction (Subtask A), generalizability (Subtask B), and learning transfer (Subtask C). In addressing this task, participants utilized a range of techniques, including rules, knowledge bases, n-grams, word embeddings, and pretrained language models (LM). Results: A total of 15 teams participated, and the top teams utilized pretrained deep learning LM. The top team across all subtasks used a sequence-to-sequence approach achieving 0.901 F1 for Subtask A, 0.774 F1 Subtask B, and 0.889 F1 for Subtask C. Conclusions: Similar to many NLP tasks and domains, pretrained LM yielded the best performance, including generalizability and learning transfer. An error analysis indicates extraction performance varies by SDOH, with lower performance achieved for conditions, like substance use and homelessness, that increase health risks (risk factors) and higher performance achieved for conditions, like substance abstinence and living with family, that reduce health risks (protective factors).

 

목표: n2c2/UWSDOH 챌린지는 사회적 추출을 탐구한다 임상 기록의 건강 결정자(SDOH) 정보. 목적 자연어 처리(NLP) 정보의 발전을 포함한다 SDOH 및 임상 정보를 보다 광범위하게 추출하는 기술. 이것. 논문은 공유된 과제, 데이터, 참여 팀, 성과 결과를 제시한다, 그리고 향후 작업에 대한 고려 사항. 재료 및 방법: 과제는 사회사 주석이 달린 말뭉치를 사용했다 (SHAC), 자세한 이벤트 기반 주석이 있는 임상 텍스트로 구성된다 알코올, 약물, 담배, 고용 및 생활과 같은 SDOH 이벤트의 경우 상황. 각 SDOH 이벤트는 다음과 관련된 속성을 통해 특징지어진다 상태, 범위 및 시간. 태스크에는 다음과 관련된 세 가지 하위 태스크가 포함됩니다 정보 추출(하위 과제 A), 일반화 가능성(하위 과제 B), 학습 전송(하위 작업 C). 이 과제를 다루는데 있어서, 참가자들은 다음과 같은 범위를 이용했다 규칙, 지식 기반, n-그램, 단어 임베딩 및 사전 훈련된 언어 모델(LM). 결과: 총 15개 팀이 참가하였으며, 상위 팀이 활용하였다 사전 훈련된 딥 러닝 LM. 모든 하위 작업에서 상위 팀은 a를 사용했다 하위 작업 A에 대해 0.901 F1, 0.774 F1을 달성하는 시퀀스 대 시퀀스 접근법 하위 작업 B, 하위 작업 C의 경우 0.889 F1입니다. 결론: 많은 NLP 작업 및 도메인과 유사하게, 사전 훈련된 LM은 다음을 산출했다 일반화 및 학습 전이를 포함한 최고의 성능. 오류 분석에 따르면 추출 성능은 SDOH에 따라 다르며 더 낮습니다 물질 사용 및 노숙과 같은 조건에 대해 달성된 성과 건강 위험(위험 요인) 및 달성된 높은 성과를 증가시킨다 물질적 금욕과 가족과 함께 사는 것과 같은 조건들이 감소한다 건강 위험(보호 요인). 

 

 

Everyone's Voice Matters: Quantifying Annotation Disagreement Using Demographic Information

 

In NLP annotation, it is common to have multiple annotators label the text and then obtain the ground truth labels based on the agreement of major annotators. However, annotators are individuals with different backgrounds, and minors' opinions should not be simply ignored. As annotation tasks become subjective and topics are controversial in modern NLP tasks, we need NLP systems that can represent people's diverse voices on subjective matters and predict the level of diversity. This paper examines whether the text of the task and annotators' demographic background information can be used to estimate the level of disagreement among annotators. Particularly, we extract disagreement labels from the annotators' voting histories in the five subjective datasets, and then fine-tune language models to predict annotators' disagreement. Our results show that knowing annotators' demographic information, like gender, ethnicity, and education level, helps predict disagreements. In order to distinguish the disagreement from the inherent controversy from text content and the disagreement in the annotators' different perspectives, we simulate everyone's voices with different combinations of annotators' artificial demographics and examine its variance of the finetuned disagreement predictor. Our paper aims to improve the annotation process for more efficient and inclusive NLP systems through a novel disagreement prediction mechanism. Our code and dataset are publicly available.

 

NLP 주석에서 여러 주석자가 텍스트에 레이블을 지정하는 것이 일반적입니다 그리고 나서 메이저의 합의에 기초한 진실 라벨을 얻습니다 주석자. 그러나 주석자는 다른 배경을 가진 개인이다 미성년자의 의견을 단순히 무시해서는 안 된다. 주석 작업이 진행됨에 따라 현대의 NLP 작업에서 주관적이고 주제는 논란의 여지가 있으며, 우리는 NLP가 필요하다 주관적인 문제에 대한 사람들의 다양한 목소리를 대표할 수 있는 시스템과 다양성의 정도를 예측하다. 이 논문은 텍스트가 다음과 같은지 여부를 조사한다 작업 및 주석자의 인구 통계학적 배경 정보를 사용하여 추정할 수 있다 주석자들 사이의 의견 불일치의 정도. 특히, 우리는 추출한다 다섯 명의 주석자들의 투표 이력에서 나온 불일치 라벨 주관적인 데이터 세트, 그리고 나서 주석자의 예측을 위해 언어 모델을 미세 조정한다 의견의 불일치. 우리의 결과는 주석자의 인구통계학을 알고 있다는 것을 보여준다 성별, 민족성, 그리고 교육 수준과 같은 정보는 예측하는 것을 돕는다 의견 차이. 불일치를 본질적인 것과 구별하기 위해 텍스트 내용에 대한 논란과 주석자들의 의견 차이 관점, 우리는 다양한 조합으로 모든 사람의 목소리를 시뮬레이션한다 주석자의 인위적인 인구 통계와 미세 조정의 분산을 조사한다 불일치 예측 변수. 우리의 논문은 다음에 대한 주석 프로세스를 개선하는 것을 목표로 한다 새로운 의견 불일치를 통해 보다 효율적이고 포괄적인 NLP 시스템 예측 메커니즘. 우리의 코드와 데이터 세트는 공개적으로 이용 가능하다. 

 

 

반응형

댓글