Key points are not available for this paper at this time.
غالبًا ما تحتوي مجموعات البيانات على تناقضات تنشأ بسبب مجموعة متنوعة من الأسباب، ومن المرغوب فيه أن يكون بالإمكان تحديدها وحلها بكفاءة. تُستخدم استعلامات تشابه المجموعات عادةً في تنظيف البيانات لمطابقة البيانات المتشابهة. في هذا العمل، نركز على استعلامات اختيار تشابه المجموعات: بالنظر إلى مجموعة استعلام، استرجاع جميع المجموعات في مجموعة بقدر تشابه أكبر من عتبة معينة. تم اقتراح قياسات مختلفة لتشابه المجموعات في الماضي لأغراض تنظيف البيانات. في هذا العمل، نركز على وظائف التشابه الموزون مثل TF/IDF، ونقدم متغيرات تناسب بشكل جيد اختيارات التشابه المجموعات في سياق قاعدة البيانات العلائقية. تمتلك هذه المتغيرات خصائص دلالية خاصة يمكن استغلالها لتصميم هياكل وفهارس فعالة جدًا للإجابة على الاستعلامات بكفاءة. نقدم تعديلات على التقنيات الحالية للعمل لاستعلامات اختيار تشابه المجموعات. كما نقدم ثلاث خوارزميات جديدة تستند إلى خوارزمية العتبة، التي تستفيد من الخصائص الدلالية لمقاييس التشابه الجديدة لتحقيق أفضل أداء من الناحية النظرية والعملية.
بحث هادجيليفثيريو وآخرون (الثلاثاء) في هذا السؤال.