الملخص السلاسل ذات الأبجدية الكبيرة، المنتشرة في استرجاع المعلومات ومعالجة اللغة الطبيعية، تطرح تحديات فريدة في التخزين والمعالجة. تستكشف هذه الورقة التنفيذ الفعال لنهج تقسيم الأبجدية، مقدمة هيكل بيانات مضغوط يدعم بفاعلية عمليتي التصنيف والتحديد. يتفوق تنفيذنا بشكل ملحوظ على الطرق الحالية، حيث يحسن سرعة عملية التحديد بنسبة 80% مع استخدام 11% مساحة إضافية فقط. نوضح فائدة هيكلنا في تطبيقات متنوعة، بما في ذلك تقاطعات القوائم المعكوسة، سلاسل مضغوطة بالطول التشغيلي، والحساب الموزع لعمليات التصنيف والتحديد. من الملحوظ أن هيكل البيانات لدينا لسلاسل مضغوطة بالطول التشغيلي باستخدام تحويل بوروز–ويلر يتطلب فقط 0.98–1.09 مرة من مساحة مؤشرات RLFM المتقدمة لتحقيق عدّ حدوث الأنماط بشكل أسرع بمعدل 1.23–2.33 مرة مع تقديم ضمانات نظرية أفضل.
درس أرويويلو وآخرون (مون،) هذا السؤال.