본문 바로가기
오늘의 자연어 처리

[2023-04-10] 오늘의 자연어처리

by 지환이아빠 2023. 4. 10.
반응형

The Saudi Privacy Policy Dataset

 

This paper introduces the Saudi Privacy Policy Dataset, a diverse compilation of Arabic privacy policies from various sectors in Saudi Arabia, annotated according to the 10 principles of the Personal Data Protection Law (PDPL); the PDPL was established to be compatible with General Data Protection Regulation (GDPR); one of the most comprehensive data regulations worldwide. Data were collected from multiple sources, including the Saudi Central Bank, the Saudi Arabia National United Platform, the Council of Health Insurance, and general websites using Google and Wikipedia. The final dataset includes 1,000 websites belonging to 7 sectors, 4,638 lines of text, 775,370 tokens, and a corpus size of 8,353 KB. The annotated dataset offers significant reuse potential for assessing privacy policy compliance, benchmarking privacy practices across industries, and developing automated tools for monitoring adherence to data protection regulations. By providing a comprehensive and annotated dataset of privacy policies, this paper aims to facilitate further research and development in the areas of privacy policy analysis, natural language processing, and machine learning applications related to privacy and data protection, while also serving as an essential resource for researchers, policymakers, and industry professionals interested in understanding and promoting compliance with privacy regulations in Saudi Arabia.

 

이 논문은 다양한 모음집인 사우디 개인 정보 보호 정책 데이터 세트를 소개한다 사우디아라비아의 다양한 부문의 아랍어 개인 정보 보호 정책, 주석 달기 개인 정보 보호법(PDPL)의 10가지 원칙에 따라 PDPL은 일반 데이터 보호 규정과 호환되도록 설정되었습니다 (GDPR): 전 세계에서 가장 포괄적인 데이터 규정 중 하나입니다. 데이터는 사우디 중앙은행, 사우디아라비아를 포함한 여러 출처에서 수집된 아랍 국가 연합 플랫폼, 건강 보험 이사회 및 일반 구글과 위키피디아를 사용하는 웹사이트. 최종 데이터 세트에는 1,000개의 웹 사이트가 포함됩니다 7개 섹터, 4,638줄의 텍스트, 775,165개 토큰 및 코퍼스 크기에 속합니다 8,353KB입니다. 주석이 달린 데이터 세트는 상당한 재사용 가능성을 제공한다 개인 정보 보호 정책 준수 평가, 개인 정보 보호 관행 벤치마킹 업계 및 데이터 준수 모니터링을 위한 자동화된 툴 개발 보호 규정. 다음의 포괄적이고 주석이 달린 데이터 세트를 제공함으로써 개인 정보 보호 정책, 이 논문은 추가 연구를 촉진하는 것을 목표로 한다 개인 정보 보호 정책 분석, 자연어 분야의 개발 개인 정보 보호 및 데이터와 관련된 처리 및 기계 학습 응용 프로그램 보호, 또한 연구자들에게 필수적인 자원으로서 역할을 하는 동안, 정책 입안자들, 그리고 이해에 관심이 있는 산업 전문가들 사우디아라비아의 개인 정보 보호 규정 준수를 촉진합니다. 

 

 

Pragmatically Appropriate Diversity for Dialogue Evaluation

 

Linguistic pragmatics state that a conversation's underlying speech acts can constrain the type of response which is appropriate at each turn in the conversation. When generating dialogue responses, neural dialogue agents struggle to produce diverse responses. Currently, dialogue diversity is assessed using automatic metrics, but the underlying speech acts do not inform these metrics. To remedy this, we propose the notion of Pragmatically Appropriate Diversity, defined as the extent to which a conversation creates and constrains the creation of multiple diverse responses. Using a human-created multi-response dataset, we find significant support for the hypothesis that speech acts provide a signal for the diversity of the set of next responses. Building on this result, we propose a new human evaluation task where creative writers predict the extent to which conversations inspire the creation of multiple diverse responses. Our studies find that writers' judgments align with the Pragmatically Appropriate Diversity of conversations. Our work suggests that expectations for diversity metric scores should vary depending on the speech act.

 

언어적 실용주의는 대화의 기본적인 언어 행위가 할 수 있다고 말한다 각 턴에서 적절한 응답 유형을 제한한다 대화. 대화 응답을 생성할 때, 신경 대화 에이전트 다양한 반응을 내기 위해 애쓰다. 현재 대화의 다양성은 자동 측정 기준을 사용하여 평가되지만, 기본 음성 동작은 정보를 제공하지 않습니다 이러한 측정 기준. 이를 해결하기 위해, 우리는 실용적으로 적절한 다양성의 개념을 제안한다, 대화가 생성하고 제약하는 정도로 정의된다 다양한 응답을 생성합니다. 사용자가 만든 다중 응답 사용 데이터 세트, 우리는 음성이 작용한다는 가설에 대한 상당한 지지를 발견한다 다음 반응 집합의 다양성에 대한 신호를 제공합니다. 기반 구축 이 결과, 우리는 창의적인 작가들이 하는 새로운 인간 평가 과제를 제안한다 대화가 다중의 창조를 촉진하는 정도를 예측하다 다양한 반응. 우리의 연구는 작가들의 판단이 다음과 일치한다는 것을 발견한다 실용적으로 적절한 대화의 다양성. 우리의 연구는 다음을 시사한다 다양성 메트릭 점수에 대한 기대는 연설에 따라 달라져야 한다 행동하다. 

 

 

Leveraging Social Interactions to Detect Misinformation on Social Media

 

Detecting misinformation threads is crucial to guarantee a healthy environment on social media. We address the problem using the data set created during the COVID-19 pandemic. It contains cascades of tweets discussing information weakly labeled as reliable or unreliable, based on a previous evaluation of the information source. The models identifying unreliable threads usually rely on textual features. But reliability is not just what is said, but by whom and to whom. We additionally leverage on network information. Following the homophily principle, we hypothesize that users who interact are generally interested in similar topics and spreading similar kind of news, which in turn is generally reliable or not. We test several methods to learn representations of the social interactions within the cascades, combining them with deep neural language models in a Multi-Input (MI) framework. Keeping track of the sequence of the interactions during the time, we improve over previous state-of-the-art models.

 

잘못된 정보 스레드를 감지하는 것은 건강을 보장하는 데 중요합니다 소셜 미디어의 환경. 생성된 데이터 세트를 사용하여 문제를 해결합니다 코로나19 범유행 기간 동안. 그것은 토론하는 일련의 트윗을 포함한다 이전에 근거하여 신뢰할 수 있거나 신뢰할 수 없는 것으로 약하게 표시된 정보 정보 출처의 평가. 신뢰할 수 없는 스레드를 식별하는 모델 일반적으로 텍스트 기능에 의존합니다. 하지만 신뢰성은 단순히 말하는 것이 아니라 누구에 의해 누구에게. 또한 네트워크 정보를 활용합니다. 다음에 나오는 동음이의 원리, 우리는 상호작용하는 사용자들이 일반적으로 유사한 주제에 관심이 있고 유사한 종류의 뉴스를 퍼뜨리고, 그것은 결국 일반적으로 신뢰할 수 있는지 여부. 우리는 표현을 배우기 위해 몇 가지 방법을 테스트한다 깊은 신경과 결합하여 캐스케이드 내의 사회적 상호작용의 다중 입력(MI) 프레임워크의 언어 모델. 시퀀스 추적 그 시간 동안의 상호 작용 중, 우리는 이전의 최첨단보다 향상된다 모델들. 

 

 

반응형

댓글