본문 바로가기
오늘의 자연어 처리

[2023-05-18] 오늘의 자연어처리

by 지환이아빠 2023. 5. 18.
반응형

Life of PII -- A PII Obfuscation Transformer

 

Protecting sensitive information is crucial in today's world of Large Language Models (LLMs) and data-driven services. One common method used to preserve privacy is by using data perturbation techniques to reduce overreaching utility of (sensitive) Personal Identifiable Information (PII) data while maintaining its statistical and semantic properties. Data perturbation methods often result in significant information loss, making them impractical for use. In this paper, we propose 'Life of PII', a novel Obfuscation Transformer framework for transforming PII into faux-PII while preserving the original information, intent, and context as much as possible. Our approach includes an API to interface with the given document, a configuration-based obfuscator, and a model based on the Transformer architecture, which has shown high context preservation and performance in natural language processing tasks and LLMs. Our Transformer-based approach learns mapping between the original PII and its transformed faux-PII representation, which we call "obfuscated" data. Our experiments demonstrate that our method, called Life of PII, outperforms traditional data perturbation techniques in terms of both utility preservation and privacy protection. We show that our approach can effectively reduce utility loss while preserving the original information, offering greater flexibility in the trade-off between privacy protection and data utility. Our work provides a solution for protecting PII in various real-world applications.

 

오늘날의 대규모 환경에서는 중요한 정보를 보호하는 것이 매우 중요합니다 언어 모델(LLM) 및 데이터 기반 서비스. 한 가지 일반적인 방법은 다음과 같다 개인 정보 보호는 데이터 섭동 기술을 사용하여 감소시키는 것이다 (민감한) 개인 식별 가능 정보(PII)의 과도한 유용성 통계적 및 의미론적 특성을 유지하면서 데이터를 관리합니다. 데이터. 섭동 방법은 종종 상당한 정보 손실을 초래하고, 그것들을 만든다 실용성이 없는. 이 논문에서, 우리는 소설 'PII의 삶'을 제안한다 PII를 Faux-PII로 변환하기 위한 난독화 트랜스포머 프레임워크 원본 정보, 의도 및 맥락을 최대한 보존합니다. 우리의 접근 방식은 주어진 문서와 인터페이스하기 위한 API를 포함한다 구성 기반 난독화기 및 트랜스포머 기반 모델 높은 컨텍스트 보존 및 성능을 보여준 아키텍처 자연어 처리 작업 및 LLM. 우리의 Transformer 기반 접근 방식은 원래 PII와 우리가 "난독화된" 데이터라고 부르는 변환된 가짜 PII 표현. 우리들의 실험은 Life of PII라고 불리는 우리의 방법이 성능을 능가한다는 것을 보여준다 두 가지 효용 보존 측면에서 전통적인 데이터 섭동 기술 개인 정보 보호를 제공합니다. 우리는 우리의 접근 방식이 효과적으로 감소할 수 있다는 것을 보여준다 원래 정보를 보존하는 동안 유틸리티 손실, 더 큰 제공 개인 정보 보호와 데이터 유틸리티 간의 균형을 유연하게 유지할 수 있습니다. 우리들의 work는 다양한 실제 애플리케이션에서 PII를 보호하기 위한 솔루션을 제공합니다. 

 

 

Measuring Stereotypes using Entity-Centric Data

 

Stereotypes inform how we present ourselves and others, and in turn how we behave. They are thus important to measure. Recent work has used projections of embeddings from Distributional Semantic Models (DSMs), such as BERT, to perform these measurements. However, DSMs capture cognitive associations that are not necessarily relevant to the interpersonal nature of stereotyping. Here, we propose and evaluate three novel, entity-centric methods for learning stereotypes from Twitter and Wikipedia biographies. Models are trained by leveraging the fact that multiple phrases are applied to the same person, magnifying the person-centric nature of the learned associations. We show that these models outperform existing approaches to stereotype measurement with respect to 1) predicting which identities people apply to themselves and others, and 2) quantifying stereotypes on salient social dimensions (e.g. gender). Via a case study, we also show the utility of these models for future questions in computational social science.

 

고정관념은 우리가 우리 자신과 다른 사람들을 어떻게 표현하고, 그 다음에 우리가 어떻게 표현하는지를 알려준다 행동하라. 따라서 측정하는 것이 중요하다. 최근 작업에는 다음과 같은 예측이 사용되었습니다 BERT와 같은 DSM(분포 의미 모델)의 임베딩을 수행한다 이 치수들. 그러나, DSM은 인지적 연관성을 포착한다 반드시 고정관념의 대인관계적 성격과 관련이 있다. 자, 저희가 학습을 위한 세 가지 새로운 주체 중심적 방법을 제안하고 평가하다 트위터와 위키피디아 전기에 나오는 고정관념들. 모델은 다음을 통해 교육을 받습니다 여러 문구가 동일한 사람에게 적용된다는 사실을 활용하여, 학습된 협회의 사람 중심적인 성격을 확대합니다. 우리는 그것을 보여준다 이 모델들은 고정관념 측정에 대한 기존 접근법을 능가한다 1) 사람들이 자신에게 어떤 정체성을 적용하는지 예측하고 기타, 그리고 2) 두드러진 사회적 차원에 대한 고정관념을 정량화한다(예. 성별). 사례 연구를 통해, 우리는 또한 미래에 대한 이러한 모델의 유용성을 보여준다 컴퓨터 사회 과학의 질문들. 

 

 

Towards Expert-Level Medical Question Answering with Large Language Models

 

Recent artificial intelligence (AI) systems have reached milestones in "grand challenges" ranging from Go to protein-folding. The capability to retrieve medical knowledge, reason over it, and answer medical questions comparably to physicians has long been viewed as one such grand challenge. Large language models (LLMs) have catalyzed significant progress in medical question answering; Med-PaLM was the first model to exceed a "passing" score in US Medical Licensing Examination (USMLE) style questions with a score of 67.2% on the MedQA dataset. However, this and other prior work suggested significant room for improvement, especially when models' answers were compared to clinicians' answers. Here we present Med-PaLM 2, which bridges these gaps by leveraging a combination of base LLM improvements (PaLM 2), medical domain finetuning, and prompting strategies including a novel ensemble refinement approach. Med-PaLM 2 scored up to 86.5% on the MedQA dataset, improving upon Med-PaLM by over 19% and setting a new state-of-the-art. We also observed performance approaching or exceeding state-of-the-art across MedMCQA, PubMedQA, and MMLU clinical topics datasets. We performed detailed human evaluations on long-form questions along multiple axes relevant to clinical applications. In pairwise comparative ranking of 1066 consumer medical questions, physicians preferred Med-PaLM 2 answers to those produced by physicians on eight of nine axes pertaining to clinical utility (p < 0.001). We also observed significant improvements compared to Med-PaLM on every evaluation axis (p < 0.001) on newly introduced datasets of 240 long-form "adversarial" questions to probe LLM limitations. While further studies are necessary to validate the efficacy of these models in real-world settings, these results highlight rapid progress towards physician-level performance in medical question answering.

 

최근 인공지능(AI) 시스템은 "대단한" 이정표에 도달했다 "도전"은 바둑에서부터 단백질 접기에 이르기까지 다양합니다. 검색 기능 의학적 지식, 그것에 대한 이유, 그리고 의학적 질문들에 비교해서 대답한다 의사들은 오랫동안 그러한 거대한 도전 중 하나로 여겨져 왔다. 대규모 언어 모델(LLM)은 의학의 상당한 발전을 촉진했다 질문 답변; Med-PaLM은 에서 "합격" 점수를 초과한 첫 번째 모델입니다 67.2점의 미국 의료 면허 시험(USMLE) 스타일 문제% MedQA 데이터 세트에 있습니다. 그러나, 이것과 다른 이전의 연구들은 중요한 것을 시사했다 특히 모델의 답변을 비교했을 때 개선의 여지가 있습니다 임상의의 답변. 여기서 우리는 이러한 격차를 메우는 Med-PaLM 2를 제시한다 기본 LLM 개선 사항(PaLM 2)의 조합 활용, 의료 영역 새로운 앙상블 개선을 포함한 미세 조정 및 촉진 전략 접근. Med-PaLM 2는 MedQA 데이터 세트에서 최대 86.5%의 점수를 기록하여 Med-Pa보다 향상되었습니다LM 19% 이상 증가하고 새로운 최첨단 기술을 수립했습니다. 우리는 또한 성능을 관찰했다 MedMCQA, PubMedQA 및 MMLU 전반에 걸쳐 최첨단 기술에 접근하거나 그 이상의 성능을 제공합니다 임상 주제 데이터 세트. 우리는 여러 개의 긴 형식 질문에 대해 상세한 인간 평가를 수행했다 임상 애플리케이션과 관련된 축. 1066의 쌍별 비교 순위 소비자 의료 질문, 의사들은 Med-PaLM 2 답변을 선호했다 임상 효용과 관련된 9개 축 중 8개에서 의사에 의해 생산된다(p < 0.001). 또한 Med-PaLMon과 비교하여 상당한 개선을 관찰했다 240개의 긴 형식 데이터 세트에 대한 모든 평가 축(p < 0.001) LLM 제한을 조사하기 위한 "적대적" 질문. 이러한 모델의 유효성을 검증하기 위해 추가 연구가 필요하지만 실제 환경에서, 이러한 결과는 다음을 향한 빠른 진전을 강조한다 의학적 질문 답변에서 의사 수준의 성과. 

 

 

반응형

댓글