본문 바로가기
오늘의 자연어 처리

[2022-08-10] 오늘의 자연어처리

by 지환이아빠 2022. 8. 10.
반응형

Information Extraction from Scanned Invoice Images using Text Analysis and Layout Features

 

While storing invoice content as metadata to avoid paper document processing may be the future trend, almost all of daily issued invoices are still printed on paper or generated in digital formats such as PDFs. In this paper, we introduce the OCRMiner system for information extraction from scanned document images which is based on text analysis techniques in combination with layout features to extract indexing metadata of (semi-)structured documents. The system is designed to process the document in a similar way a human reader uses, i.e. to employ different layout and text attributes in a coordinated decision. The system consists of a set of interconnected modules that start with (possibly erroneous) character-based output from a standard OCR system and allow to apply different techniques and to expand the extracted knowledge at each step. Using an open source OCR, the system is able to recover the invoice data in 90% for English and in 88% for the Czech set.

 

송장 내용을 메타데이터로 저장하여 종이 문서 처리를 방지합니다. 미래의 추세일 수도 있습니다. 매일 발행되는 거의 모든 송장이 여전히 인쇄되어 있습니다. 종이 또는 PDF와 같은 디지털 형식으로 생성됩니다. 이 논문에서, 우리는 스캔한 문서에서 정보를 추출하기 위해 OCR마이너 시스템을 도입하다. 레이아웃과 함께 텍스트 분석 기법을 기반으로 하는 이미지 구조화된 문서의 인덱싱 메타데이터를 추출하는 기능입니다. 그 시스템은 인간 독자와 유사한 방법으로 문서를 처리하도록 설계되었다. 사용(즉, 조정된 상태에서 다른 레이아웃 및 텍스트 속성을 사용하는 경우) 결정. 시스템은 시동되는 상호 연결된 모듈 세트로 구성됩니다. 표준 OCR 시스템에서 문자 기반 출력(오류 가능성 있음)을 사용하여 다른 기술을 적용하고 추출된 지식을 넓히는 것을 허용한다. 한 걸음 한 걸음 오픈 소스 OCR을 사용하여 시스템은 송장을 복구할 수 있습니다. 데이터의 90%는 영어이고 88%는 체코어 집합이다. 

 

 

High Recall Data-to-text Generation with Progressive Edit

 

Data-to-text (D2T) generation is the task of generating texts from structured inputs. We observed that when the same target sentence was repeated twice, Transformer (T5) based model generates an output made up of asymmetric sentences from structured inputs. In other words, these sentences were different in length and quality. We call this phenomenon "Asymmetric Generation" and we exploit this in D2T generation. Once asymmetric sentences are generated, we add the first part of the output with a no-repeated-target. As this goes through progressive edit (ProEdit), the recall increases. Hence, this method better covers structured inputs than before editing. ProEdit is a simple but effective way to improve performance in D2T generation and it achieves the new stateof-the-art result on the ToTTo dataset

 

D2T(Data-to-Text) 생성은 구조화된 텍스트에서 텍스트를 생성하는 작업이다. 입력. 우리는 동일한 목표 문장이 두 번 반복되었을 때, Transformer(T5) 기반 모델은 비대칭으로 구성된 출력을 생성합니다. 구조화된 입력에서 나온 문장. 다른 말로 하자면, 이 문장들은 길이와 질이 다르다. 우리는 이 현상을 "비대칭적"이라고 부른다. "세대" 그리고 우리는 이것을 D2T 세대에 활용합니다. 한 번 비대칭 문장 생성되면 출력의 첫 번째 부분을 no-target-target으로 추가합니다. 이 작업이 프로그레시브 편집(ProEdit)을 거치면 리콜이 증가합니다. 이런 이유로, 이 메서드는 편집 전보다 구조화된 입력을 더 잘 처리합니다. 프로에디트는 D2T 생성에서 성능을 향상시키는 간단하지만 효과적인 방법 및 ToTo 데이터 세트에서 새로운 최첨단 결과를 달성한다. 

 

 

DialogSum Challenge: Results of the Dialogue Summarization Shared Task

 

We report the results of DialogSum Challenge, the shared task on summarizing real-life scenario dialogues at INLG 2022. Four teams participate in this shared task and three submit their system reports, exploring different methods to improve the performance of dialogue summarization. Although there is a great improvement over the baseline models regarding automatic evaluation metrics, such as Rouge scores, we find that there is a salient gap between model generated outputs and human annotated summaries by human evaluation from multiple aspects. These findings demonstrate the difficulty of dialogue summarization and suggest that more fine-grained evaluatuion metrics are in need.

 

요약에 대한 공유 과제인 DialogSum Challenge의 결과를 보고한다. INLG 2022에서 실제 시나리오 대화. 4개의 팀이 여기에 참가한다. 공유 작업 및 세 명이 시스템 보고서를 제출하고, 다양한 방법을 탐색합니다. 대화 요약의 성능을 향상시킵니다. 비록 위대한 것이 있지만 자동 평가 지표에 관한 기준 모델에 대한 개선 Rouge 점수와 같이, 우리는 모델들 사이에 현저한 차이가 있다는 것을 발견한다. 인간 평가에 의해 생성된 출력물 및 인간 주석 요약 다방면의 이 발견들은 대화의 어려움을 보여준다. 요약 및 보다 세분화된 평가 지표가 다음 항목에 있음을 제안합니다. 필요하다. 

 

 

반응형

댓글