August 1, 2009

Evaluando el agrupamiento en proyecciones de subespacio de datos de alta dimensión

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El agrupamiento de datos de alta dimensión es un campo de investigación emergente. El agrupamiento en subespacios o agrupamiento proyectado agrupa objetos similares en subespacios, es decir, proyecciones, del espacio completo. En la última década, se han desarrollado varios paradigmas de agrupamiento en paralelo, sin una evaluación y comparación exhaustiva entre estos paradigmas sobre una base común. La evaluación y comparación concluyentes se ven desafiadas por tres problemas principales. Primero, no hay una verdad fundamental que describa los "verdaderos" grupos en los datos del mundo real. En segundo lugar, se han utilizado una gran variedad de medidas de evaluación que reflejan diferentes aspectos del resultado del agrupamiento. Finalmente, en las publicaciones típicas, los autores han limitado su análisis solo a su paradigma preferido, prestando poca o ninguna atención a otros paradigmas. En este artículo, adoptamos un enfoque sistemático para evaluar los principales paradigmas en un marco común. Estudiamos algoritmos de agrupamiento representativos para caracterizar los diferentes aspectos de cada paradigma y damos una comparación detallada de sus propiedades. Proporcionamos un conjunto de resultados de referencia sobre una amplia variedad de conjuntos de datos reales y sintéticos. Utilizando diferentes medidas de evaluación, ampliamos el alcance del análisis experimental y creamos una línea base común para futuros desarrollos y evaluaciones comparables en el campo. Para la repetibilidad, todas las implementaciones, conjuntos de datos y medidas de evaluación están disponibles en nuestro sitio web.

Preguntar a la IA

Me gusta

Guardar