What question did this study set out to answer?

The aim is to enhance automated vehicle damage evaluation through energy-efficient fine-tuning of vision-language models.

January 17, 2026Open Access

Optimizing Energy Efficiency in Multimodal Learning for Automated Vehicle Damage Evaluation

Key Points

The aim is to enhance automated vehicle damage evaluation through energy-efficient fine-tuning of vision-language models.
Redesigning vehicle damage assessment as a benchmark task for fine-tuning strategies.
Creating a multimodal corpus of vehicle images and textual damage descriptions.
Evaluating five compact vision-language model architectures under energy constraints.
Implementing domain-specific fine-tuning strategies on the strongest baseline model.
Mathematically modeling compromises between energy consumption and model performance.
Achieved 58.7% reduction in inference energy consumption compared to baseline.
Increased the F1-score from 61.05% to 68.35% with optimized configurations.
Reduced training energy consumption by 19.5% using a curated dataset.
Break-even analysis indicated energy costs amortized after processing about 48,000 images.

Abstract

Fahrzeugkollisionen verursachen jedes Jahr über eine Million Todesfälle und führen zu erheblichen wirtschaftlichen Verlusten. Dennoch verlassen sich Versicherungsgesellschaften weiterhin auf manuelle, arbeitsintensive Schadensbewertungsprozesse, die langsam,fehleranfällig und schwer skalierbar sind. Daher ist eine automatisierte und genaue Bewertung von Fahrzeugschäden entscheidend, um die Bearbeitungszeit von Schadensfällen zu verkürzen, die Konsistenz der Schätzungen zu verbessern und die Kosten in derKfz-Versicherungsbranche zu kontrollieren.Diese Arbeit geht diese Herausforderung an, indem sie die Bewertung von Fahrzeugschäden als Benchmark-Aufgabe für die Bewertung von Feinabstimmungsstrategien für modernste Vision-Language-Modelle (VLMs) unter strengen Daten- und Energiebeschränkungen neu definiert. Ein multimodaler Korpus aus Fahrzeugbildern und textuellen Schadensbeschreibungen wird zusammengestellt und sowohl in roher als auch in vollständig vorverarbeiteter Form bereitgestellt, wobei letztere Qualitätsfilter wie Unschärferkennung, Belichtungssteuerung,Kontrastschwellenwert und Entfernung von Nahe-Duplikaten enthält. Fünf hochmoderne kompakte VLM-Architekturen, die für den Einsatz mit geringen Ressourcen entwickelt wurden (LLaVA, Qwen-VL, Bunny, Phi und SmolVLM), werden anhand eine srepräsentativen Testsatzes bewertet. Anschließend wird das stärkste Basismodell mithilfe mehrerer Strategien domänenspezifisch fein abgestimmt. Die daraus resultierenden Kompromissezwischen Energieverbrauch und Leistung werden mathematisch modelliert, umdie effizienteste Konfiguration zu ermitteln.Experimente zeigen, dass eine gezielte Feinabstimmung auf einem sorgfältig zusammengestellten Datensatz zu erheblichen Verbesserungen der praktischen Anwendbarkeit führt.Konkret erzielte die optimierte Modellkonfiguration eine Reduzierung des Energieverbrauchs für die Inferenz um 58,7% im Vergleich zur Basislinie, während gleichzeitig der F1-Score von 61,05% auf 68,35% gesteigert wurde. Im Vergleich zu einem naiv zusammengestellten Datensatz führte der kuratierte Korpus zu einer überlegenen Vorhersageleistung bei einer Reduzierung des Trainingsenergieverbrauchs um 19,5%. Darüber hinaus zeigt eine Break-even-Analyse, dass sich die Energiekosten für die Feinabstimmung nach der Verarbeitung von etwa 48.000 Bildern amortisieren. Diese Ergebnisse deuten daraufhin, dass eine energieeffiziente Feinabstimmung kompakter VLMs eine automatisierte Fahrzeugschadensbewertung für ressourcenbeschränkte Versicherungsabläufe rentabel machen kann.

Optimizing Energy Efficiency in Multimodal Learning for Automated Vehicle Damage Evaluation

Key Points

Abstract

Cite This Study