Key points are not available for this paper at this time.
تمثل حقول البيانات الفئوية التي تتميز بعدد كبير من القيم المتميزة تحديًا خطيرًا للعديد من خوارزميات التصنيف والانحدار التي تتطلب مدخلات عددية. من ناحية أخرى، فإن هذه الأنواع من حقول البيانات شائعة جدًا في تطبيقات التنقيب عن البيانات في العالم الحقيقي وغالبًا ما تحتوي على معلومات ذات صلة محتملة يصعب تمثيلها لأغراض النمذجة. تقدم هذه الورقة خطة معالجة مسبقة بسيطة للبيانات الفئوية ذات الكاردينالية العالية تسمح باستخدام هذه الفئة من السمات في النماذج التنبؤية مثل الشبكات العصبية، والانحدار الخطي واللوجستي. تعتمد الطريقة المقترحة على طريقة إحصائية راسخة (بايز التجريبية) سهلة التنفيذ كإجراء داخل قاعدة البيانات. علاوة على ذلك، بالنسبة للسمات الفئوية ذات الهيكل الهرمي المتأصل، مثل الرموز البريدية، يمكن لخطة المعالجة المسبقة أن تستفيد مباشرة من الهيكل الهرمي من خلال دمج الإحصائيات على المستويات المختلفة للتجميع. بينما تم تقديم الأساليب الإحصائية المناقشة في هذه الورقة لأول مرة في منتصف الخمسينيات، لم يتم مناقشة استخدام هذه الأساليب كخطوة معالجة مسبقة للنماذج المعقدة، مثل الشبكات العصبية، في أي أدبيات سابقة.
درس دانييلي ميتشي-باريكا (سون) هذا السؤال.