Künstliche Intelligenz (KI) revolutioniert die Gesundheitsversorgung durch den Einsatz ausgeklügelter großer Sprachmodelle (LLMs), die eine schnelle Symptombewertung und verbesserte Krankheitsidentifikation ermöglichen. Diese Studie untersucht die Leistung multimodaler LLMs, insbesondere llama-4-scout-17b-16e-instruct und llama-4-maverick-17b-128e-instruct, die für die Analyse medizinischer Bilder optimiert sind, zusammen mit ihren Gegenstücken, die auf textbasierte diagnostische Unterstützung spezialisiert sind. Diese Modelle wurden mit Echtzeit-Röntgenbildern und von Patienten berichteten Symptombeschreibungen bewertet, wobei die Bewertungen auf diagnostischer Präzision, Klarheit der Antworten, Verarbeitungseffizienz und kontextuellem Reichtum konzentriert waren. Die Ergebnisse zeigen, dass vision-spezialisierte Modelle hohe Genauigkeit bei der Bildinterpretation aufweisen, jedoch mit relativ langsameren Verarbeitungszeiten, während textorientierte Modelle klare Einblicke bieten, jedoch gelegentlich Schwierigkeiten bei der Handhabung komplexer Szenarien haben. Durch die Weiterentwicklung der Echtzeitanalyse multimodaler Ansätze unabhängig von bestehenden Datensätzen unterstreicht diese Forschung das Potenzial der Synergie von visuellem und textlichem Funktionalitäten zur Verbesserung der Genauigkeit und Reaktionsfähigkeit von KI-gesteuerten Chatbots, was den Weg für skalierbare, effektive Gesundheitsinterventionen in der Praxis ebnet.
Singh et al. (Sa.) haben diese Frage untersucht.