본문 바로가기
오늘의 자연어 처리

[2023-01-21] 오늘의 자연어처리

by 지환이아빠 2023. 1. 21.
반응형

On the State of German (Abstractive) Text Summarization

 

With recent advancements in the area of Natural Language Processing, the focus is slowly shifting from a purely English-centric view towards more language-specific solutions, including German. Especially practical for businesses to analyze their growing amount of textual data are text summarization systems, which transform long input documents into compressed and more digestible summary texts. In this work, we assess the particular landscape of German abstractive text summarization and investigate the reasons why practically useful solutions for abstractive text summarization are still absent in industry. Our focus is two-fold, analyzing a) training resources, and b) publicly available summarization systems. We are able to show that popular existing datasets exhibit crucial flaws in their assumptions about the original sources, which frequently leads to detrimental effects on system generalization and evaluation biases. We confirm that for the most popular training dataset, MLSUM, over 50% of the training set is unsuitable for abstractive summarization purposes. Furthermore, available systems frequently fail to compare to simple baselines, and ignore more effective and efficient extractive summarization approaches. We attribute poor evaluation quality to a variety of different factors, which are investigated in more detail in this work: A lack of qualitative (and diverse) gold data considered for training, understudied (and untreated) positional biases in some of the existing datasets, and the lack of easily accessible and streamlined pre-processing strategies or analysis tools. We provide a comprehensive assessment of available models on the cleaned datasets, and find that this can lead to a reduction of more than 20 ROUGE-1 points during evaluation. The code for dataset filtering and reproducing results can be found online at this https URL

 

최근 자연어 처리 분야의 발전과 함께 초점은 순수하게 영어 중심적인 관점에서 더 많은 관점으로 서서히 이동하고 있다 독일어를 포함한 언어별 솔루션. 특히 실용적입니다 증가하는 텍스트 데이터를 분석하는 기업은 텍스트입니다 요약 시스템, 긴 입력 문서를 압축 및 더 쉽게 이해할 수 있는 요약 텍스트. 이 작업에서, 우리는 특정한 풍경을 평가한다 독일어 추상 텍스트 요약과 그 이유를 조사합니다 추상적인 텍스트 요약을 위한 실질적으로 유용한 해결책은 여전히 존재한다 실업계에 없는. 우리의 초점은 두 가지로 나뉘며, a) 교육 자원을 분석하는 것이다 b) 공개적으로 사용 가능한 요약 시스템. 우리는 그 인기를 보여줄 수 있다 기존 데이터 세트는 원본에 대한 가정에 결정적인 결함을 나타낸다 소스, 시스템 일반화에 해로운 영향을 초래하는 경우가 많다 그리고 평가 편향. 우리는 가장 인기 있는 훈련 데이터 세트의 경우, MLSUM, 교육 세트의 50% 이상이 추상 요약에 적합하지 않습니다 목적들. 또한 사용 가능한 시스템은 단순한 시스템과 비교하지 못하는 경우가 많습니다 기준선, 더 효과적이고 효율적인 추출 요약 무시 접근. 우리는 낮은 평가 품질을 다양한 다른 것들의 탓으로 돌린다 이 작업에서 더 자세히 조사되는 요인: 부족 교육을 위해 고려된 질적(및 다양한) 골드 데이터, 과소 연구(및) 치료되지 않음) 일부 기존 데이터 세트의 위치 편향 및 쉽게 접근할 수 있고 간소화된 사전 처리 전략 또는 분석 도구. 클리닝된 모델에 대한 포괄적인 평가를 제공합니다 데이터 세트, 그리고 이것이 20개 이상의 ROUGE-1을 감소시킬 수 있다는 것을 발견한다 평가 중인 포인트. 데이터 집합 필터링 및 재생산을 위한 코드 결과는 이 https URL에서 온라인으로 확인할 수 있습니다 

 

 

On the State of German (Abstractive) Text Summarization

 

With recent advancements in the area of Natural Language Processing, the focus is slowly shifting from a purely English-centric view towards more language-specific solutions, including German. Especially practical for businesses to analyze their growing amount of textual data are text summarization systems, which transform long input documents into compressed and more digestible summary texts. In this work, we assess the particular landscape of German abstractive text summarization and investigate the reasons why practically useful solutions for abstractive text summarization are still absent in industry. Our focus is two-fold, analyzing a) training resources, and b) publicly available summarization systems. We are able to show that popular existing datasets exhibit crucial flaws in their assumptions about the original sources, which frequently leads to detrimental effects on system generalization and evaluation biases. We confirm that for the most popular training dataset, MLSUM, over 50% of the training set is unsuitable for abstractive summarization purposes. Furthermore, available systems frequently fail to compare to simple baselines, and ignore more effective and efficient extractive summarization approaches. We attribute poor evaluation quality to a variety of different factors, which are investigated in more detail in this work: A lack of qualitative (and diverse) gold data considered for training, understudied (and untreated) positional biases in some of the existing datasets, and the lack of easily accessible and streamlined pre-processing strategies or analysis tools. We provide a comprehensive assessment of available models on the cleaned datasets, and find that this can lead to a reduction of more than 20 ROUGE-1 points during evaluation. The code for dataset filtering and reproducing results can be found online at this https URL

 

최근 자연어 처리 분야의 발전과 함께 초점은 순수하게 영어 중심적인 관점에서 더 많은 관점으로 서서히 이동하고 있다 독일어를 포함한 언어별 솔루션. 특히 실용적입니다 증가하는 텍스트 데이터를 분석하는 기업은 텍스트입니다 요약 시스템, 긴 입력 문서를 압축 및 더 쉽게 이해할 수 있는 요약 텍스트. 이 작업에서, 우리는 특정한 풍경을 평가한다 독일어 추상 텍스트 요약과 그 이유를 조사합니다 추상적인 텍스트 요약을 위한 실질적으로 유용한 해결책은 여전히 존재한다 실업계에 없는. 우리의 초점은 두 가지로 나뉘며, a) 교육 자원을 분석하는 것이다 b) 공개적으로 사용 가능한 요약 시스템. 우리는 그 인기를 보여줄 수 있다 기존 데이터 세트는 원본에 대한 가정에 결정적인 결함을 나타낸다 소스, 시스템 일반화에 해로운 영향을 초래하는 경우가 많다 그리고 평가 편향. 우리는 가장 인기 있는 훈련 데이터 세트의 경우, MLSUM, 교육 세트의 50% 이상이 추상 요약에 적합하지 않습니다 목적들. 또한 사용 가능한 시스템은 단순한 시스템과 비교하지 못하는 경우가 많습니다 기준선, 더 효과적이고 효율적인 추출 요약 무시 접근. 우리는 낮은 평가 품질을 다양한 다른 것들의 탓으로 돌린다 이 작업에서 더 자세히 조사되는 요인: 부족 교육을 위해 고려된 질적(및 다양한) 골드 데이터, 과소 연구(및) 치료되지 않음) 일부 기존 데이터 세트의 위치 편향 및 쉽게 접근할 수 있고 간소화된 사전 처리 전략 또는 분석 도구. 클리닝된 모델에 대한 포괄적인 평가를 제공합니다 데이터 세트, 그리고 이것이 20개 이상의 ROUGE-1을 감소시킬 수 있다는 것을 발견한다 평가 중인 포인트. 데이터 집합 필터링 및 재생산을 위한 코드 결과는 이 https URL에서 온라인으로 확인할 수 있습니다 

 

 

A Quantitative Exploration of Natural Language Processing Applications for Electricity Demand Analysis

 

The relationship between electricity demand and weather has been established for a long time and is one of the cornerstones in load prediction for operation and planning, along with behavioral and social aspects such as calendars or significant events. This paper explores how and why the social information contained in the news can be used better to understand aggregate population behaviour in terms of energy demand. The work is done through experiments analysing the impact of predicting features extracted from national news on day-ahead electric demand prediction. The results are compared to a benchmark model trained exclusively on the calendar and meteorological information. Experimental results showed that the best-performing model reduced the official standard errors around 4%, 11%, and 10% in terms of RMSE, MAE, and SMAPE. The best-performing methods are: word frequency identified COVID-19-related keywords; topic distribution that identified news on the pandemic and internal politics; global word embeddings that identified news about international conflicts. This study brings a new perspective to traditional electricity demand analysis and confirms the feasibility of improving its predictions with unstructured information contained in texts, with potential consequences in sociology and economics.

 

전력 수요와 날씨 사이의 관계가 확립되었습니다 오랜 시간 동안 작동을 위한 부하 예측의 기초 중 하나입니다 그리고 계획은 달력이나 같은 행동적이고 사회적인 측면과 함께 중요한 사건. 이 논문은 소셜 정보의 방법과 이유를 탐구한다 뉴스에 포함된 것은 총 인구를 더 잘 이해하는 데 사용될 수 있다 에너지 수요 측면에서의 행동. 그 일은 실험을 통해 이루어진다 전국 뉴스에서 추출한 특징을 예측하는 것의 영향을 분석한다 하루 전의 전력 수요 예측. 결과는 벤치마크와 비교됩니다 달력과 기상 정보에 대해 독점적으로 훈련된 모델. 실험 결과 가장 성능이 좋은 모델이 공식을 감소시키는 것으로 나타났다 RMSE, MAE 및 SMAPE 측면에서 표준 오차는 약 4%, 11% 및 10%입니다. 그 가장 성능이 좋은 방법은 다음과 같다: 단어 빈도 식별 COVID-19 관련 키워드; 유행병과 내부 뉴스를 식별하는 주제 배포 정치; 국제적인 뉴스를 식별한 세계적인 단어 임베딩 갈등들. 이 연구는 전통적인 전기에 새로운 관점을 가져다 준다 수요 분석 및 예측 개선의 실현 가능성을 확인합니다 텍스트에 포함된 구조화되지 않은 정보, 잠재적인 결과와 함께 사회학과 경제학. 

 

 

반응형

댓글