June 2, 2022Open Access

Von hyperdimensionalen Strukturen zu linearen Strukturen: Die Lokalität deduplizierter Daten aufrechterhalten

Key Points

Key points are not available for this paper at this time.

Abstract

Datendeduplizierung wird weit verbreitet eingesetzt, um die Größe von Backup-Lasten zu reduzieren, hat jedoch den bekannten Nachteil, eine schlechte Datenlokalität zu verursachen, auch als Fragmentierungsproblem bezeichnet. Dies resultiert aus der Kluft zwischen der hyperdimensionalen Struktur der deduplizierten Daten und der sequentiellen Natur vieler Speichergeräte, was zu schlechteren Wiederherstellungs- und Garbage-Collection (GC)-Leistungen führt. Aktuelle Forschungen haben in Betracht gezogen, Duplikate zu schreiben, um die Lokalität aufrechtzuerhalten (z.B. durch Neu-Schreiben) oder Daten im Speicher oder auf SSDs zu cachen, aber die Fragmentierung verringert weiterhin die Wiederherstellungs- und GC-Leistung. Bei der Untersuchung des Lokalitätsproblems entwickeln wir eine Methode, um die hyperdimensionale strukturierte deduplizierte Daten in ein eindimensionales Format zu flatten, das auf der Klassifizierung des Lebenszyklus jedes Chunks basiert, und dies schafft unser vorgeschlagenes Datenlayout. Darüber hinaus präsentieren wir ein neuartiges managementfreundliches Deduplikationsframework namens MFDedup, das unser Datenlayout anwendet und die Lokalität so weit wie möglich aufrechterhält. Insbesondere verwenden wir zwei Schlüsseltechniken in MFDedup: Nachbar-Duplikat-fokussierte Indizierung (NDF) und versionenübergreifendes Reorganisationsschema (AVAR). NDF führt Duplikaterkennung gegen ein vorheriges Backup durch, dann reorganisiert AVAR die Chunks mit einem Offline- und iterativen Algorithmus in ein kompaktes, sequentielles Layout, das nahezu zufällige I/O während der Datei-Wiederherstellungen nach der Deduplikation eliminiert. Evaluierungsergebnisse mit fünf Backup-Datensätzen zeigen, dass MFDedup im Vergleich zu modernen Techniken Deduplikationsverhältnisse erreicht, die 1,12× bis 2,19× höher sind, und Wiederherstellungsgeschwindigkeiten, die 1,92× bis 10,02× schneller sind, aufgrund des verbesserten Datenlayouts. Während die Umordnungsphase Overheads einführt, wird dies durch einen nahezu null overhead-GC-Prozess mehr als ausgeglichen. Darüber hinaus benötigt der NDF-Index nur Indizes für zwei Backup-Versionen, während der traditionelle Index mit der Anzahl der gespeicherten Versionen wächst.

Bookmark

View Full Paper