Key points are not available for this paper at this time.
Die Gruppierung von Objekten basierend auf ihren Ähnlichkeiten ist eine wichtige, häufige Aufgabe in Anwendungen des maschinellen Lernens. Viele Clustering-Methoden wurden entwickelt, unter denen insbesondere k-means-basierte Clustering-Methoden weit verbreitet sind und mehrere Erweiterungen entwickelt wurden, um die ursprüngliche k-means-Clustering-Methode zu verbessern, wie k-means ++ und kernel k-means. K-means ist eine lineare Clustering-Methode; das heißt, sie teilt die Objekte in linear trennbare Gruppen ein, während kernel k-means eine nicht-lineare Technik ist. Kernel k-means projiziert die Elemente in einen hochdimensionalen Merkmalsraum mittels einer Kernelfunktion und gruppiert sie dann. Verschiedene Kernelfunktionen können in der Clusterbildung eines Datensatzes unterschiedlich abschneiden, und daher könnte die Wahl des richtigen Kernels für eine Anwendung herausfordernd sein. In unserer vorherigen Arbeit führten wir eine gewichtete Mehrheitsabstimmungsmethode für das Clustering basierend auf normalisierter wechselseitiger Information (NMI) ein. NMI ist ein überwachtes Verfahren, bei dem die echten Labels für einen Trainingssatz benötigt werden, um NMI zu berechnen. In dieser Studie erweitern wir unsere vorherige Arbeit zur Aggregation der Clusterergebnisse, um eine unüberwachte Gewichtungsfunktion zu entwickeln, bei der kein Trainingssatz verfügbar ist. Die vorgeschlagene Gewichtungsfunktion basiert hier auf dem Silhouette-Index als unüberwachtem Kriterium. Infolgedessen ist kein Trainingssatz erforderlich, um den Silhouette-Index zu berechnen. Dies macht unsere neue Methode in Bezug auf das Clustering-Konzept sinnvoller.
Shutaywi et al. (Mi,) untersuchten diese Frage.