Anonymity at Risk? Assessing Re-Identification Capabilities of Large Language Models
Anonymity of both natural and legal persons in court rulings is a critical aspect of privacy protection in the European Union and Switzerland. With the advent of LLMs, concerns about large-scale re-identification of anonymized persons are growing. In accordance with the Federal Supreme Court of Switzerland, we explore the potential of LLMs to re-identify individuals in court rulings by constructing a proof-of-concept using actual legal data from the Swiss federal supreme court. Following the initial experiment, we constructed an anonymized Wikipedia dataset as a more rigorous testing ground to further investigate the findings. With the introduction and application of the new task of re-identifying people in texts, we also introduce new metrics to measure performance. We systematically analyze the factors that influence successful re-identifications, identifying model size, input length, and instruction tuning among the most critical determinants. Despite high re-identification rates on Wikipedia, even the best LLMs struggled with court decisions. The complexity is attributed to the lack of test datasets, the necessity for substantial training resources, and data sparsity in the information used for re-identification. In conclusion, this study demonstrates that re-identification using LLMs may not be feasible for now, but as the proof-of-concept on Wikipedia showed, it might become possible in the future. We hope that our system can help enhance the confidence in the security of anonymized decisions, thus leading to the courts being more confident to publish decisions.
법원 판결에서 자연인과 법인의 익명성은 매우 중요하다 유럽 연합과 스위스의 사생활 보호 측면. 와 함께 LLM의 출현, 익명화의 대규모 재식별에 대한 우려 사람들이 성장하고 있다. 연방 대법원에 따라 스위스, 우리는 개인을 재식별할 수 있는 LLM의 잠재력을 탐구한다 실제 법적 데이터를 사용하여 개념 증명을 구성하는 법원 판결 스위스 연방 대법원. 초기 실험에 이어, 우리는 익명화된 위키피디아 데이터 세트를 보다 엄격한 테스트장으로 구축했다 조사 결과를 더 조사하기 위해. 의 도입과 적용으로 텍스트에서 사람들을 재식별하는 새로운 작업, 우리는 또한 새로운 측정 기준을 소개한다 성능을 측정하기 위해. 우리는 영향을 미치는 요인을 체계적으로 분석한다 성공적인 재식별, 모델 크기, 입력 길이 및 가장 중요한 결정 요소 중 명령 조정. 높음에도 불구하고 위키피디아의 재식별률, 심지어 최고의 LLM들도 법정에서 고군분투했다 결정. 이러한 복잡성은 테스트 데이터셋의 부족으로 인해 발생합니다 실질적인 교육 자원에 대한 필요성 및 데이터 희소성 재식별에 사용되는 정보입니다. 결론적으로, 이 연구는 다음을 증명한다 LLM을 사용하여 재식별하는 것은 현재로서는 실현 가능하지 않을 수 있지만 위키피디아에 대한 개념 증명은 미래에 그것이 가능해질 수 있다는 것을 보여주었다. 우리는 우리의 시스템이 보안에 대한 신뢰를 강화하는 데 도움이 되기를 바란다 익명화된 결정으로 인해 법원은 더 자신감을 갖게 된다 판결을 발표하다.
Using ChatGPT as a CAT tool in Easy Language translation
This study sets out to investigate the feasibility of using ChatGPT to translate citizen-oriented administrative texts into German Easy Language, a simplified, controlled language variety that is adapted to the needs of people with reading impairments. We use ChatGPT to translate selected texts from websites of German public authorities using two strategies, i.e. linguistic and holistic. We analyse the quality of the generated texts based on different criteria, such as correctness, readability, and syntactic complexity. The results indicated that the generated texts are easier than the standard texts, but that they still do not fully meet the established Easy Language standards. Additionally, the content is not always rendered correctly.
이 연구는 ChatGPT를 사용하는 것의 타당성을 조사하기 위해 시작한다 시민 중심의 행정 문서를 독일어 쉬운 언어로 번역한다 사람들의 요구에 맞춘 단순화되고 통제된 언어 다양성 읽기 장애가 있는. 우리는 선택된 텍스트를 번역하기 위해 ChatGPT를 사용한다 두 가지 전략을 사용하는 독일 공공 당국의 웹사이트, 즉 언어적 그리고 전인적인. 우리는 생성된 텍스트의 품질을 다른 것에 기초하여 분석한다 정확성, 가독성 및 구문의 복잡성과 같은 기준을 제공합니다. 그 결과는 생성된 텍스트가 표준 텍스트보다 쉽다는 것을 나타냅니다, 그러나 그들은 여전히 확립된 쉬운 언어 기준을 완전히 충족하지 못한다. 또한 콘텐츠가 항상 올바르게 렌더링되는 것은 아닙니다.
Automated Refugee Case Analysis: An NLP Pipeline for Supporting Legal Practitioners
In this paper, we introduce an end-to-end pipeline for retrieving, processing, and extracting targeted information from legal cases. We investigate an under-studied legal domain with a case study on refugee law in Canada. Searching case law for past similar cases is a key part of legal work for both lawyers and judges, the potential end-users of our prototype. While traditional named-entity recognition labels such as dates provide meaningful information in legal work, we propose to extend existing models and retrieve a total of 19 useful categories of items from refugee cases. After creating a novel data set of cases, we perform information extraction based on state-of-the-art neural named-entity recognition (NER). We test different architectures including two transformer models, using contextual and non-contextual embeddings, and compare general purpose versus domain-specific pre-training. The results demonstrate that models pre-trained on legal data perform best despite their smaller size, suggesting that domain matching had a larger effect than network architecture. We achieve a F1 score above 90% on five of the targeted categories and over 80% on four further categories.
본 논문에서는 검색을 위한 엔드 투 엔드 파이프라인을 소개한다, 법률 사건에서 대상 정보를 처리하고 추출합니다. 우리가 난민법에 대한 사례 연구를 통해 난민법 영역을 조사하다 캐나다. 과거의 유사한 사건들에 대한 판례 검색은 법률 업무의 핵심적인 부분이다 당사 프로토타입의 잠재적 최종 사용자인 변호사와 판사 모두를 위해. 하는 동안에 날짜와 같은 전통적인 이름 지정 인식 레이블은 의미 있는 정보를 제공합니다 법적 작업의 정보, 우리는 기존 모델을 확장하고 검색할 것을 제안한다 난민 사건에서 나온 유용한 19개 항목. 생성 후 새로운 사례의 데이터 세트, 우리는 다음을 기반으로 정보 추출을 기반으로 최신 신경 명명 개체 인식(NER). 우리는 다른 테스트를 한다 두 개의 트랜스포머 모델을 포함한 아키텍처, 상황에 맞는 그리고 지식 기반이 아닌 임베딩을 통해 일반 용도와 도메인별 용도를 비교할 수 있습니다 사전 훈련. 결과는 모델이 법적 데이터에 대해 사전 교육을 받았음을 보여준다 도메인 매칭이 다음을 가지고 있다는 것을 암시하면서, 그들의 작은 크기에도 불구하고 가장 잘 수행한다 네트워크 아키텍처보다 더 큰 효과가 있습니다. 우리는 90% 이상의 F1 점수를 달성한다 5개의 대상 범주와 4개의 추가 범주의 80% 이상.
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-08-26] 오늘의 자연어처리 (0) | 2023.08.26 |
---|---|
[2023-08-25] 오늘의 자연어처리 (0) | 2023.08.25 |
[2023-08-23] 오늘의 자연어처리 (0) | 2023.08.23 |
[2023-08-22] 오늘의 자연어처리 (0) | 2023.08.22 |
[2023-08-21] 오늘의 자연어처리 (0) | 2023.08.21 |
댓글