본문 바로가기
오늘의 자연어 처리

[2023-03-08] 오늘의 자연어처리

by 지환이아빠 2023. 3. 8.
반응형

Mining both Commonality and Specificity from Multiple Documents for Multi-Document Summarization

 

The multi-document summarization task requires the designed summarizer to generate a short text that covers the important information of original documents and satisfies content diversity. This paper proposes a multi-document summarization approach based on hierarchical clustering of documents. It utilizes the constructed class tree of documents to extract both the sentences reflecting the commonality of all documents and the sentences reflecting the specificity of some subclasses of these documents for generating a summary, so as to satisfy the coverage and diversity requirements of multi-document summarization. Comparative experiments with different variant approaches on DUC'2002-2004 datasets prove the effectiveness of mining both the commonality and specificity of documents for multi-document summarization. Experiments on DUC'2004 and Multi-News datasets show that our approach achieves competitive performance compared to the state-of-the-art unsupervised and supervised approaches.

 

다중 문서 요약 작업을 수행하려면 다음과 같이 설계된 요약자가 필요합니다 원문의 중요한 정보를 다루는 짧은 텍스트를 생성하다 문서화하고 콘텐츠 다양성을 충족합니다. 이 논문은 다중 문서를 제안한다 문서의 계층적 클러스터링을 기반으로 하는 요약 접근법. 잇 두 문장을 추출하기 위해 문서의 생성된 클래스 트리를 사용한다 모든 문서의 공통성과 문장을 반영한다 요약을 생성하기 위한 이러한 문서의 일부 하위 분류의 특수성, 따라서 멀티미디어의 적용범위 및 다양성 요구사항을 충족하기 위해 간추론. 다양한 변형 접근법을 사용한 비교 실험 DUC의 2002-2004 데이터 세트는 공통성을 모두 마이닝의 효과를 입증한다 다중 문서 요약을 위한 문서의 특수성. 에 대한 실험 DUC'2004 및 Multi-News 데이터 세트는 우리의 접근 방식이 경쟁력을 달성한다는 것을 보여줍니다 감독되지 않고 감독되지 않은 최신 기술과 비교 접근. 

 

 

Towards Zero-Shot Functional Compositionality of Language Models

 

Large Pre-trained Language Models (PLM) have become the most desirable starting point in the field of NLP, as they have become remarkably good at solving many individual tasks. Despite such success, in this paper, we argue that current paradigms of working with PLMs are neglecting a critical aspect of modeling human intelligence: functional compositionality. Functional compositionality - the ability to compose learned tasks - has been a long-standing challenge in the field of AI (and many other fields) as it is considered one of the hallmarks of human intelligence. An illustrative example of such is cross-lingual summarization, where a bilingual person (English-French) could directly summarize an English document into French sentences without having to translate the English document or summary into French explicitly. We discuss why this matter is an important open problem that requires further attention from the field. Then, we show that current PLMs (e.g., GPT-2 and T5) don't have functional compositionality yet and it is far from human-level generalizability. Finally, we suggest several research directions that could push the field towards zero-shot functional compositionality of language models.

 

대규모 사전 훈련된 언어 모델(PLM)이 가장 바람직한 모델이 되었다 NLP 분야의 출발점, 그들이 놀라울 정도로 능숙해졌기 때문이다 많은 개별 과제를 해결하는 것. 그러한 성공에도 불구하고, 우리는 이 논문에서 주장한다 PLM으로 작업하는 현재의 패러다임은 다음과 같은 중요한 측면을 무시하고 있다 인간 지능 모델링: 기능 구성. 기능적 구성성 - 학습된 작업을 구성할 수 있는 능력 - 은 다음과 같다 인공지능 분야(그리고 많은 다른 분야)의 오랜 도전 인간 지능의 특징 중 하나로 여겨집니다. 예증례 이중언어 사용자가 있는 교차 언어 요약입니다 (영어-프랑스어)는 영어 문서를 프랑스어로 직접 요약할 수 있습니다 영어 문서나 요약을 번역할 필요가 없는 문장들 노골적으로 프랑스어. 우리는 왜 이 문제가 중요한 미해결 문제인지 논의한다 현장의 추가적인 주의가 필요합니다. 그런 다음 현재 PLM을 보여줍니다 (예: GPT-2 및 T5) 아직 기능적 구성성이 없고 멀다 인간 수준의 일반화 가능성에서. 마지막으로, 우리는 몇 가지 연구를 제안한다 필드를 제로샷 기능으로 밀어낼 수 있는 방향 언어 모델의 구성성. 

 

 

Crowdsourcing on Sensitive Data with Privacy-Preserving Text Rewriting

 

Most tasks in NLP require labeled data. Data labeling is often done on crowdsourcing platforms due to scalability reasons. However, publishing data on public platforms can only be done if no privacy-relevant information is included. Textual data often contains sensitive information like person names or locations. In this work, we investigate how removing personally identifiable information (PII) as well as applying differential privacy (DP) rewriting can enable text with privacy-relevant information to be used for crowdsourcing. We find that DP-rewriting before crowdsourcing can preserve privacy while still leading to good label quality for certain tasks and data. PII-removal led to good label quality in all examined tasks, however, there are no privacy guarantees given.

 

NLP의 대부분의 작업에는 레이블이 지정된 데이터가 필요합니다. 데이터 레이블링은 종종 다음에 수행됩니다 클라우드 소싱 플랫폼의 확장성을 고려해야 합니다. 그러나 데이터 게시 공개 플랫폼은 개인 정보 보호 관련 정보가 없는 경우에만 수행될 수 있다 포함된. 텍스트 데이터에는 종종 사용자 이름과 같은 민감한 정보가 포함됩니다 또는 위치. 이 작업에서, 우리는 제거가 어떻게 개인적으로 식별될 수 있는지 조사한다 정보(PII) 및 차등 개인 정보(DP) 재작성 적용 가능 개인 정보 보호 정보가 포함된 텍스트를 크라우드소싱에 사용할 수 있습니다. 우리가 클라우드 소싱 전에 DP를 다시 작성하면 개인 정보 보호를 유지할 수 있음을 알 수 있습니다 특정 작업 및 데이터에 대한 양호한 레이블 품질로 이어집니다. PII 제거로 인해 조사된 모든 작업에서 양호한 레이블 품질, 그러나 개인 정보 보호는 없습니다 보증. 

 

 

반응형

댓글