September 1, 2019

OBC306: Ein großes Oracle-Bone-Zeichenerkennungsdataset

Key Points

Key points are not available for this paper at this time.

Abstract

Die Orakelknochenschrift aus dem alten China gehört zu den berühmtesten antiken Schriftsystemen der Welt. Die Identifizierung und Entzifferung von Orakelknocheninschriften ist eines der wichtigsten Themen in der Orakelknochenforschung und erfordert ein tiefes Verständnis der Kultur des alten China. Diese Aufgabe bleibt aus zwei Gründen sehr herausfordernd. Der erste Grund ist, dass sie hauptsächlich von Menschen durchgeführt wird und ein hohes Maß an Erfahrung, Eignung und Engagement erfordert. Der zweite Grund ist die Knappheit an domänenspezifischen Daten, die den Fortschritt der Forschung zur automatischen Erkennung behindert. Eine Sammlung gut beschrifteter Orakelknochen-Daten ist notwendig, um die Bereiche Orakelknochen und Informationsverarbeitung miteinander zu verbinden; jedoch wurde ein solches Dataset bisher nicht vorgestellt. Daher erstellen wir in diesem Papier ein neues, groß angelegtes Dataset von Orakelknochenzeichen mit dem Namen OBC306. Wir präsentieren auch die standardisierte Bewertung auf der Basis von tiefen konvolutionalen neuronalen Netzwerken für dieses Dataset, um als Benchmark zu dienen. Durch statistische und visuelle Analysen beschreiben wir die inhärenten Schwierigkeiten der Orakelknochen-Erkennung und schlagen zukünftige Herausforderungen und Erweiterungen der Orakelknochenforschung unter Verwendung der Informationsverarbeitung vor. Dieses Dataset enthält mehr als 300.000 Stichproben auf Zeichenebene, die aus Orakelknochen-Rubbings oder Bildern zugeschnitten sind. Es deckt 306 Glyphenklassen ab und ist nach unserem besten Wissen der größte existierende Rohdatensatz von Orakelknochenzeichen. Es wird erwartet, dass die Veröffentlichung dieses Datasets die Entwicklung der Orakelknochenforschung erleichtert und zu optimalen algorithmischen Lösungen führt.

KI fragen

Bookmark

KI fragen

Bookmark

OBC306: Ein großes Oracle-Bone-Zeichenerkennungsdataset

Key Points

Abstract

Cite This Study