March 1, 2024

문서 텍스트 인식을 위한 합成 데이터 생성

Key Points

Key points are not available for this paper at this time.

Abstract

필기 텍스트 인식 소프트웨어는 스캔한 문서에서 텍스트를 인식하고 추출하는 데 사용됩니다. 이 기술의 기본 목표는 인쇄된 또는 필기된 텍스트를 쉽게 읽을 수 있는 전자 형식으로 변환하는 것입니다. 그러나 인도 언어의 수많은 문자와 방대한 양의 정보 때문에 명시적 전처리에는 시간이 소요됩니다. 이러한 명시적 전처리의 필요성은 여러 문제를 극복하고 프로세스를 가속화하는 합성 데이터 생성 기술로 대체되었습니다. 실제 관측값과 밀접하게 유사한 인위적으로 생성된 데이터를 합성 데이터라고 합니다. 실제 데이터를 얻는 것이 어렵거나 비용이 많이 드는 상황에서 기계 학습 모델 훈련을 위한 실행 가능한 대체 수단을 제공합니다. 본 연구에서는 기존의 인도 언어 데이터 수집에서 합성 데이터 파일을 생성하는 데이터 전처리 기법을 제안합니다. 우리는 단어 임베딩을 생성할 수 있는 사전 훈련된 언어 모델인 FastText 모델을 사용하여 실시간 데이터셋에서 합성 데이터셋을 생성합니다. 생성된 합성 데이터셋의 도움을 받아 문서 텍스트 인식 시스템은 광범위한 훈련 및 테스트를 거쳐 인도 언어의 복잡성을 파악하고 스캔한 문서에서 정확한 텍스트 추출을 수행할 수 있습니다.

Bookmark

문서 텍스트 인식을 위한 합成 데이터 생성

Key Points

Abstract

Cite This Study

Also Consider

Also Consider