Page Layout Analysis of Text-heavy Historical Documents: a Comparison of Textual and Visual Approaches
Page layout analysis is a fundamental step in document processing which enables to segment a page into regions of interest. With highly complex layouts and mixed scripts, scholarly commentaries are text-heavy documents which remain challenging for state-of-the-art models. Their layout considerably varies across editions and their most important regions are mainly defined by semantic rather than graphical characteristics such as position or appearance. This setting calls for a comparison between textual, visual and hybrid approaches. We therefore assess the performances of two transformers (LayoutLMv3 and RoBERTa) and an objection-detection network (YOLOv5). If results show a clear advantage in favor of the latter, we also list several caveats to this finding. In addition to our experiments, we release a dataset of ca. 300 annotated pages sampled from 19th century commentaries.
페이지 레이아웃 분석은 문서 처리의 기본 단계입니다. 페이지를 관심 영역으로 분할할 수 있습니다. 매우 복잡한 레이아웃으로 그리고 혼합 대본, 학술적 논평은 남아있는 텍스트가 많은 문서이다. 최첨단 모델에 도전적입니다. 그들의 배치는 상당히 다양하다. 판을 가로질러 그리고 그들의 가장 중요한 지역들은 주로 의미론에 의해 정의된다. 위치 또는 외관과 같은 그래픽 특성보다는 이것. 텍스트, 시각 및 하이브리드 접근 방식 간의 비교를 요구한다. 따라서 우리는 두 개의 변압기의 성능을 평가한다(레이아웃).LMv3 및 RoBERTA) 및 이의 감지 네트워크(YOLOv5). 결과가 명확한 경우 후자에 유리한 이점, 우리는 또한 이 발견에 대한 몇 가지 경고를 나열한다. 우리의 실험 외에도, 우리는 ca. 300개의 주석이 달린 페이지의 데이터 세트를 발표한다. 19세기 주석에서 추출한 것입니다.
TempCLR: Temporal Alignment Representation with Contrastive Learning
Video representation learning has been successful in video-text pre-training for zero-shot transfer, where each sentence is trained to be close to the paired video clips in a common feature space. For long videos, given a paragraph of description where the sentences describe different segments of the video, by matching all sentence-clip pairs, the paragraph and the full video are aligned implicitly. However, such unit-level similarity measure may ignore the global temporal context over a long time span, which inevitably limits the generalization ability. In this paper, we propose a contrastive learning framework TempCLR to compare the full video and the paragraph explicitly. As the video/paragraph is formulated as a sequence of clips/sentences, under the constraint of their temporal order, we use dynamic time warping to compute the minimum cumulative cost over sentence-clip pairs as the sequence-level distance. To explore the temporal dynamics, we break the consistency of temporal order by shuffling the video clips or sentences according to the temporal granularity. In this way, we obtain the representations for clips/sentences, which perceive the temporal information and thus facilitate the sequence alignment. In addition to pre-training on the video and paragraph, our approach can also generalize on the matching between different video instances. We evaluate our approach on video retrieval, action step localization, and few-shot action recognition, and achieve consistent performance gain over all three tasks. Detailed ablation studies are provided to justify the approach design.
비디오 표현 학습은 비디오 텍스트 사전 교육에서 성공적이었다. 제로샷 전송의 경우, 각 문장이 다음에 근접하도록 훈련됩니다. 공통 피쳐 공간에 비디오 클립을 페어링합니다. 긴 비디오의 경우, 다음과 같이 지정됩니다. 문장들이 다른 세그먼트들을 설명하는 설명 비디오, 모든 문장과 문장의 쌍을 일치시킴으로써 단락과 전체 비디오 암묵적으로 정렬됩니다. 그러나 이러한 단위 수준 유사성 측정은 무시될 수 있다. 필연적으로 제한되는 긴 시간 범위의 글로벌 시간적 맥락 일반화 능력 본 논문에서, 우리는 대조 학습을 제안한다. 전체 비디오와 단락을 명시적으로 비교하기 위한 프레임워크 TempCLR. ~하듯이 비디오/문단은 아래에서 일련의 클립/클립으로 공식화된다. 그들의 시간적 순서의 제약, 우리는 동적 시간 뒤틀림을 계산하기 위해 사용한다. 시퀀스 수준으로 문장과 문장의 쌍에 대한 최소 누적 비용 거리. 시간 역학을 탐구하기 위해, 우리는 다음의 일관성을 깨뜨린다. 비디오 클립 또는 문장을 순서대로 섞음으로써 시간 순서. 시간적 세분화 이러한 방식으로, 우리는 다음과 같은 표현을 얻는다. 시간적 정보를 인식하여 용이하게 하는 클립/스캐너 순서 정렬 비디오와 단락에 대한 사전 교육 외에도, 우리의 접근 방식은 또한 다른 비디오 간의 매칭을 일반화할 수 있다. 예를 들 수 있습니다. 비디오 검색에 대한 접근 방식과 조치 단계를 평가합니다. 로컬리제이션, 퓨샷 액션 인식, 일관성 달성 세 가지 작업 모두에 대한 성능 향상. 자세한 절제 연구가 제공됩니다. 접근 설계를 정당화할 수 있습니다.
Skit-S2I: An Indian Accented Speech to Intent dataset
Conventional conversation assistants extract text transcripts from the speech signal using automatic speech recognition (ASR) and then predict intent from the transcriptions. Using end-to-end spoken language understanding (SLU), the intents of the speaker are predicted directly from the speech signal without requiring intermediate text transcripts. As a result, the model can optimize directly for intent classification and avoid cascading errors from ASR. The end-to-end SLU system also helps in reducing the latency of the intent prediction model. Although many datasets are available publicly for text-to-intent tasks, the availability of labeled speech-to-intent datasets is limited, and there are no datasets available in the Indian accent. In this paper, we release the Skit-S2I dataset, the first publicly available Indian-accented SLU dataset in the banking domain in a conversational tonality. We experiment with multiple baselines, compare different pretrained speech encoder's representations, and find that SSL pretrained representations perform slightly better than ASR pretrained representations lacking prosodic features for speech-to-intent classification. The dataset and baseline code is available at \url{this https URL}
기존의 대화 보조자들은 연설에서 텍스트 대본을 추출한다. 자동 음성 인식(ASR)을 사용하여 신호를 보낸 다음 의도를 예측합니다. 필사본 종단 간 음성 언어 이해(SLU)를 사용하여 화자의 의도는 음성 신호에 의해 직접 예측된다. 중간 텍스트 스크립트가 필요합니다. 결과적으로, 모델은 최적화될 수 있다. 의도 분류를 위해 직접 사용하고 ASR에서 계단식 오류를 방지합니다. 그 엔드 투 엔드 SLU 시스템은 또한 의도의 지연 시간을 줄이는 데 도움이 됩니다. 예측 모형 많은 데이터셋이 다음을 위해 공개적으로 제공되지만 텍스트에서 음성으로 변환하는 작업, 레이블이 지정된 음성에서 음성으로 변환하는 데이터 세트의 가용성은 다음과 같습니다. 제한적이며, 인도 억양으로 사용할 수 있는 데이터 세트가 없습니다. 이 점에서. 논문, 우리는 최초로 공개적으로 이용 가능한 Skit-S2I 데이터 세트를 발표한다. 대화 톤으로 은행 영역의 인도 억양 SLU 데이터 세트. 우리는 여러 기준선을 실험하고, 다른 사전 훈련된 음성을 비교한다. 인코더의 표현, 그리고 SSL 사전 훈련된 표현이 수행되는 것을 찾습니다. 운율적 특징이 없는 사전 훈련된 ASR 표현보다 약간 낫다. 음성 대 음성 분류를 위해. 데이터 세트 및 기준선 코드를 사용할 수 있습니다. \url{이 https URL}에서
'오늘의 자연어 처리' 카테고리의 다른 글
[2023-01-02] 오늘의 자연어처리 (0) | 2023.01.02 |
---|---|
[2023-01-01] 오늘의 자연어처리 (0) | 2023.01.01 |
[2022-12-30] 오늘의 자연어처리 (0) | 2022.12.30 |
[2022-12-29] 오늘의 자연어처리 (0) | 2022.12.29 |
[2022-12-28] 오늘의 자연어처리 (0) | 2022.12.28 |
댓글