Key points are not available for this paper at this time.
تُعتبر خدمات تخزين الكائنات السحابية مثل أمازون S3 من أكبر وأنظمة التخزين الفعالة من حيث التكلفة على وجه الأرض، مما يجعلها هدفًا جذابًا لتخزين مستودعات البيانات الكبيرة وبحيرات البيانات. لسوء الحظ، فإن تنفيذها كمخازن للأزواج المفتاحية تجعل من الصعب تحقيق معاملات ACID وأداء عالي: حيث إن عمليات البيانات الوصفية مثل إدراج الكائنات مكلفة، وضمانات التناسق محدودة. في هذه الورقة، نقدم دلتا ليك، طبقة تخزين جداول ACID مفتوحة المصدر فوق خدمات تخزين الكائنات السحابية تم تطويرها في الأصل في Databricks. يستخدم دلتا ليك سجل المعاملات الذي يتم ضغطه إلى تنسيق Apache Parquet لتوفير خصائص ACID، والسفر عبر الزمن، وعمليات بيانات وصفية أسرع بشكل كبير لمجموعات البيانات الجدولية الكبيرة (على سبيل المثال، القدرة على البحث بسرعة في مليارات تقسيمات الجدول لتلك المتعلقة باستعلام). كما أنه يستفيد من هذا التصميم لتوفير ميزات عالية المستوى مثل تحسين تخطيط البيانات تلقائيًا، وإدخال وتحديث البيانات، والتخزين المؤقت، وسجلات التدقيق. يمكن الوصول إلى جداول دلتا ليك من Apache Spark وHive وPresto وRedshift وأنظمة أخرى. تم نشر دلتا ليك في آلاف عملاء Databricks الذين يعالجون إكسابايت من البيانات يوميًا، مع أكبر الحالات التي تدير مجموعات بيانات بحجم إكسابايت ومليارات الكائنات.
بحث Armbrust وآخرون (Sat) في هذا السؤال.