본문 바로가기
오늘의 자연어 처리

[2022-12-04] 오늘의 자연어처리

by 지환이아빠 2022. 12. 4.
반응형

Long-Document Cross-Lingual Summarization

 

Cross-Lingual Summarization (CLS) aims at generating summaries in one language for the given documents in another language. CLS has attracted wide research attention due to its practical significance in the multi-lingual world. Though great contributions have been made, existing CLS works typically focus on short documents, such as news articles, short dialogues and guides. Different from these short texts, long documents such as academic articles and business reports usually discuss complicated subjects and consist of thousands of words, making them non-trivial to process and summarize. To promote CLS research on long documents, we construct Perseus, the first long-document CLS dataset which collects about 94K Chinese scientific documents paired with English summaries. The average length of documents in Perseus is more than two thousand tokens. As a preliminary study on long-document CLS, we build and evaluate various CLS baselines, including pipeline and end-to-end methods. Experimental results on Perseus show the superiority of the end-to-end baseline, outperforming the strong pipeline models equipped with sophisticated machine translation systems. Furthermore, to provide a deeper understanding, we manually analyze the model outputs and discuss specific challenges faced by current approaches. We hope that our work could benchmark long-document CLS and benefit future studies.

 

CLS(Cross-Language Summaryization)는 하나의 요약을 생성하는 것을 목표로 합니다. 다른 언어로 지정된 문서에 대한 언어. CLS는 광범위한 관심을 끌었다. 다국어에서의 실용적인 중요성으로 인한 연구적 관심 세계. 큰 기여를 했지만, 기존 CLS는 일반적으로 작동한다. 뉴스 기사, 짧은 대화, 가이드와 같은 짧은 문서에 초점을 맞춥니다. 이 짧은 글들과는 달리, 학술적인 기사와 같은 긴 문서들과 비즈니스 보고서는 보통 복잡한 주제를 논의하고 수천 개로 구성된다. 단어를 처리하고 요약할 수 없도록 만듭니다. CLS를 승격하려면 긴 문서에 대한 연구, 우리는 첫 번째 긴 문서 CLS인 페르세우스를 구성한다. 약 94,000개의 중국 과학 문서를 수집하는 데이터 세트 영어 요약 페르세우스에서 문서의 평균 길이는 2개 이상이다. 천 개의 토큰 긴 문서 CLS에 대한 예비 연구로서, 우리는 그리고 파이프라인 및 종단 간 방법을 포함한 다양한 CLS 기준선을 평가합니다. 페르세우스에 대한 실험 결과는 엔드 투 엔드의 우수성을 보여준다. 기준, 정교한 장비를 갖춘 강력한 파이프라인 모델을 능가하는 성능 기계 번역 시스템 게다가, 더 깊은 이해를 제공하기 위해, 우리는 수동으로 모델 출력을 분석하고 에 의해 직면한 특정 과제를 논의합니다. 현재의 접근법 우리는 우리의 작업이 긴 문서 CLS를 벤치마킹할 수 있기를 바란다. 장래의 연구에 도움이 되다 

 

 

CliMedBERT: A Pre-trained Language Model for Climate and Health-related Text

 

Climate change is threatening human health in unprecedented orders and many ways. These threats are expected to grow unless effective and evidence-based policies are developed and acted upon to minimize or eliminate them. Attaining such a task requires the highest degree of the flow of knowledge from science into policy. The multidisciplinary, location-specific, and vastness of published science makes it challenging to keep track of novel work in this area, as well as making the traditional knowledge synthesis methods inefficient in infusing science into policy. To this end, we consider developing multiple domain-specific language models (LMs) with different variations from Climate- and Health-related information, which can serve as a foundational step toward capturing available knowledge to enable solving different tasks, such as detecting similarities between climate- and health-related concepts, fact-checking, relation extraction, evidence of health effects to policy text generation, and more. To our knowledge, this is the first work that proposes developing multiple domain-specific language models for the considered domains. We will make the developed models, resources, and codebase available for the researchers.

 

기후 변화는 전례 없는 순서로 인간의 건강을 위협하고 있다. 이러한 위협은 효과적이고 증거에 기반하지 않는 한 증가할 것으로 예상됩니다. 정책은 정책을 최소화하거나 제거하기 위해 개발되고 실행됩니다. 달성 그러한 작업은 과학으로부터의 지식의 가장 높은 수준을 요구한다. 정책에 입각하여 다양한 분야, 위치별 및 광범위한 환경에서 출판된 과학은 이것에서 새로운 일을 추적하는 것을 어렵게 만든다. 영역, 그리고 전통적인 지식 합성 방법을 비효율적으로 만드는 것. 정책에 과학을 주입하는 데 있어서 이를 위해, 우리는 다중 개발을 고려한다. 기후와 다른 변형을 가진 도메인별 언어 모델(LM) 그리고 건강과 관련된 정보, 이것은 다음을 향한 기초적인 단계로 작용할 수 있다. 다음과 같은 다양한 작업을 해결할 수 있도록 사용 가능한 지식을 캡처합니다. 기후와 건강과 관련된 개념 사이의 유사성을 감지한다. 사실 확인, 관계 추출, 정책 텍스트에 대한 건강 영향의 증거 세대, 그 이상. 우리가 아는 한, 이것은 제안하는 첫 번째 작업이다. 고려된 도메인에 대한 다중 도메인별 언어 모델을 개발한다. 우리는 개발된 모델, 자원 및 코드베이스를 다음을 위해 사용할 수 있도록 할 것이다. 연구자 

 

 

Modeling Complex Dialogue Mappings via Sentence Semantic Segmentation Guided Conditional Variational Auto-Encoder

 

Complex dialogue mappings (CDM), including one-to-many and many-to-one mappings, tend to make dialogue models generate incoherent or dull responses, and modeling these mappings remains a huge challenge for neural dialogue systems. To alleviate these problems, methods like introducing external information, reconstructing the optimization function, and manipulating data samples are proposed, while they primarily focus on avoiding training with CDM, inevitably weakening the model's ability of understanding CDM in human conversations and limiting further improvements in model performance. This paper proposes a Sentence Semantic \textbf{Seg}mentation guided \textbf{C}onditional \textbf{V}ariational \textbf{A}uto-\textbf{E}ncoder (SegCVAE) method which can model and take advantages of the CDM data. Specifically, to tackle the incoherent problem caused by one-to-many, SegCVAE uses response-related prominent semantics to constrained the latent variable. To mitigate the non-diverse problem brought by many-to-one, SegCVAE segments multiple prominent semantics to enrich the latent variables. Three novel components, Internal Separation, External Guidance, and Semantic Norms, are proposed to achieve SegCVAE. On dialogue generation tasks, both the automatic and human evaluation results show that SegCVAE achieves new state-of-the-art performance.

 

일대일 및 다대일을 포함한 복잡한 대화 매핑(CDM) 매핑, 대화 모델이 일관성이 없거나 둔감한 반응을 생성하도록 만드는 경향이 있습니다. 그리고 이러한 매핑을 모델링하는 것은 신경 대화를 위한 큰 도전으로 남아있다. 시스템들. 이러한 문제들을 완화하기 위해, 외부를 도입하는 것과 같은 방법들. 정보, 최적화 함수 재구성 및 데이터 조작 CDM을 사용한 훈련을 피하는 데 주로 초점을 맞춘 샘플이 제안된다. 불가피하게 인간의 CDM을 이해하는 모델의 능력을 약화시킨다. 대화를 통해 모델 성능의 추가 개선을 제한할 수 있습니다. 이것. 논문은 문장 의미론적 \textbf{Seg} 설명 안내를 제안한다. \textbf{C} 추가 \textbf{V}편향 \textbf{A}자동-\textbf{E} 인코더 (SegCVAE) CDM 데이터를 모델링하고 이점을 활용할 수 있는 방법. 구체적으로, 일대일로 인한 일관성 없는 문제를 해결하기 위해, SegCVAE. 응답 관련 주요 의미론을 사용하여 잠재 변수를 제한합니다. 다대일, SegCVAE 세그먼트가 초래하는 다양하지 않은 문제를 완화하기 위해 잠재 변수를 풍부하게 하는 여러 중요한 의미론. 세 소설 구성요소, 내부 분리, 외부 지침 및 의미론적 규범은 다음과 같다. SegCVAE를 달성하기 위해 제안되었다. 대화 생성 태스크에서 두 가지 모두 자동 그리고 인간 평가 결과는 SegCVAE가 새로운 최첨단 기술을 달성한다는 것을 보여준다. 성능. 

 

 

반응형

댓글