Wir schlagen vor, mehrere Informationsquellen zu nutzen, um eine Schätzung der Anzahl der Personen zu berechnen, die in einer extrem dichten Menschenmenge sichtbar sind, die in einem einzelnen Bild zu sehen ist. Aufgrund von Problemen wie Perspektive, Verdeckung, Unordnung und wenigen Pixeln pro Person ist das Zählen durch menschliche Erkennung in solchen Bildern nahezu unmöglich. Stattdessen stützt sich unser Ansatz auf mehrere Quellen wie Kopfdetektionen mit geringer Zuversicht, Wiederholung von Textur-Elementen (unter Verwendung von SIFT) und Frequenzbereichsanalyse, um Zählungen und das Vertrauen in die Beobachtung von Individuen in einer Bildregion zu schätzen. Zweitens wenden wir eine globale Konsistenzbeschränkung auf Zählungen unter Verwendung eines Markov-Random-Fields an. Dies berücksichtigt die Diskrepanz der Zählungen in lokalen Nachbarschaften und über Skalen hinweg. Wir haben unseren Ansatz an einem neuen Datensatz von fünfzig Menschenmengenbildern getestet, die 64K annotierte Menschen enthalten, mit den Kopfzahlen von 94 bis 4543. Dies steht im starken Kontrast zu Datensätzen, die für bestehende Methoden verwendet werden und nicht mehr als einige Dutzend Individuen enthalten. Wir demonstrieren experimentell die Wirksamkeit und Zuverlässigkeit des vorgeschlagenen Ansatzes, indem wir die Zählleistung quantifizieren.
Idrees et al. (Sat,) haben diese Frage untersucht.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: