March 12, 2024Open Access

Découplage de machine dans les bases de données apprises : Une analyse expérimentale

Key Points

Key points are not available for this paper at this time.

Abstract

Les modèles d'apprentissage automatique basés sur des réseaux de neurones (NN) suscitent une attention croissante dans la communauté des bases de données (DB), tant en recherche qu'en pratique. Cependant, un problème important a été largement négligé, à savoir le défi de faire face à la nature dynamique inhérente des DB, où les mises à jour des données sont des opérations fondamentales et très fréquentes (contrairement, par exemple, aux tâches de classification ML). Bien que certaines recherches récentes aient abordé les problèmes de maintien de modèles NN à jour en présence de nouvelles insertions de données, les effets des suppressions de données (a.k.a., "découplage de machine") restent un point aveugle. Avec ce travail, pour la première fois à notre connaissance, nous posons et répondons aux questions clés suivantes : Quel est l'effet des algorithmes de découplage sur les modèles DB basés sur des NN ? Comment ces effets se traduisent-ils sur des tâches clés en aval de DB, telles que l'estimation de cardinalité/sélectivité (SE), le traitement de requêtes approximatives (AQP), la génération de données (DG), et des tâches en amont comme la classification de données (DC) ? Quelles métriques devrions-nous utiliser pour évaluer l'impact et l'efficacité des algorithmes de découplage dans les DB apprises ? Le problème de (et les solutions pour) le découplage de machine dans les DB est-il différent de celui de l'apprentissage automatique dans les DB face aux insertions de données ? Le problème de (et les solutions pour) le découplage de machine pour les DB est-il différent du découplage dans la littérature ML ? Quels sont les coûts et l'efficacité des algorithmes de découplage (par rapport à la solution naïve de réapprentissage depuis zéro) ? Quelle est la sensibilité du découplage sur le traitement par lots des opérations de suppression (afin de réduire les coûts de mise à jour du modèle) ? Si nous avons un algorithme de découplage approprié (oubli des anciennes connaissances), pouvons-nous le combiner avec un algorithme gérant les insertions de données (nouvelles connaissances) dans le but de résoudre l'exigence générale d'adaptabilité/mise à jour dans les DB apprises face à la fois aux insertions et aux suppressions de données ? Nous répondons à ces questions en utilisant un ensemble complet d'expériences, divers algorithmes de découplage, une variété de tâches DB en aval (comme SE, AQP et DG), et une tâche en amont (DC), chacune avec différents NN, et en utilisant une variété de métriques (internes au modèle et spécifiques aux tâches en aval) sur une variété de jeux de données réels, faisant également de cela une première étape clé vers un benchmark pour le découplage de DB apprises.

Découplage de machine dans les bases de données apprises : Une analyse expérimentale

Key Points

Abstract

Cite This Study