오라클 뼈 비문은 알려진 가장 초기 형태의 중국 문자로, 역사적 및 언어적 중요성이 큽니다. 그러나 기존의 디지털 데이터셋은 일반적으로 고립된 문자에 제한되어 있으며, 포괄적 분석에 필수적인 맥락 및 구조 정보를 결여하고 있습니다. 우리는 픽셀 정렬된 문지르기 및 모사 이미지, 문자 수준 주석, 그리고 해당 읽기 순서를 포함한 문장 수준 필기를 제공하는 대규모 공개 데이터셋인 오라클 뼈 비문 다중 모달 데이터셋(OBIMD)을 제시합니다. OBIMD는 상나라의 다섯 시기를 아우르는 10,077개의 오라클 뼈 비문 이미지를 포함하며, 93,652개의 주석이 달린 문자, 21,667개의 기록된 누락 문자 위치, 21,941개의 문장 단위 및 4,192개의 비문장적 요소를 특징으로 합니다. 시각적, 구조적, 언어적 모달리티를 통합함으로써 OBIMD는 다중 모달 학습과 문서 모사 향상, 문자 검색, 구문 재구성 등 다양한 작업을 지원합니다. 이는 오라클 뼈 비문 인식과 해석을 위한 기초 자원으로, 고대 중국 문자의 확장 가능하고 체계적인 분석을 가능하게 합니다.
Li et al. (Sat,)은 이 질문을 연구했습니다.