KI
Lesezeit: 10 min

KI-Strategien für die Massenbildbearbeitung im Bereich eCommerce: Ein Überblick und Einblicke aus der Praxis bei Doopic

Author:
Doopic
Veröffentlicht am:
September 11, 2024

Inhalt

Einleitung

In den letzten Monaten hat die künstliche Intelligenz erhebliche Fortschritte in der Bildbearbeitung gemacht und bietet mittlerweile bereits vielfältige, konkrete Einsatzmöglichkeiten in der Massenbildbearbeitung, insbesondere für den eCommerce Bereich.

Diese Entwicklungen ermöglichen es Unternehmen zum einen, ihre Bildbearbeitungsprozesse zu automatisieren, zu skalieren und zu optimieren, um schneller und kostengünstiger zu hochwertigen visuellen Inhalten zu gelangen. Auf der anderen Seite sind es vor allem generative KI-Modelle, die darüber hinaus das Potential ausstrahlen, kostenintensive Modelshootings oder On Location Produktionen künftig komplett umgehen zu können oder sogar Bereiche über die klassischen Sehgewohnheiten hinaus zu öffnen. 

In diesem Post möchten wir ein paar generelle Insights zu dem Thema geben und uns mit den strategischen Ansätzen für eine gewinnbringende Implementierung beschäftigen, die wir bei Doopic verfolgen. 

Aktuelle KI-Anwendungsbereiche in der Massenbildbearbeitung für den eCommerce

Die Möglichkeiten sind grundsätzlich eng an die verfügbaren KI-Modelle gebunden und an den Grad an vorhersagbaren Ergebnissen bei einer einheitlichen Prompting-Struktur. Inhaltlich könnte man zum einen grob zwischen manipulativen, analytischen und generativen KI-Modellen unterscheiden und entsprechend deutliche Abstufungen in den Einschränkungen für unterschiedliche Anwendungsstrategien vornehmen.

  • Manipulative KI: Veränderung und Optimierung vorhandener Bilder, wie z.B. Freistellen von Objekten, Retusche, Kompression, Farbkorrekturen, etc.
  • Analytische KI: Erkennung und Klassifizierung von Bildinhalten, wie z.B. Muster- und Texturerkennung, Erkennung von Händen, Gesichtern und Körperteilen, Bildkategorisierung und Tagging, etc.
  • Generative KI: Erstellung neuer Bilder, oft basierend auf vorgegebenen Parametern oder Prompts, wie z.B. Erstellung von künstlichen Models, personalisierte Bilderzeugung, Produktmorphing, etc.

Bildnahe Ansätze lassen sich darüber hinaus in drei Innovationsgraden unterbringen, die wie auch bei Doopic oft parallel in unterschiedlicher Intensität getestet, implementiert oder bereits genutzt werden.

1. Optimierung klassischer Bildbearbeitungsprozesse

Zum einen geht es darum die klassischen Bildbearbeitungsprozesse bestmöglich durch die Implementierung von KI zu unterstützen um eine Optimierung in den Bereichen Zeit, Kosten, Qualität und Konsistenz zu erreichen. Hier liegt der Fokus vor allem darauf, gut segmentierte Arbeitsschritte im Bearbeitungsprozess durch möglichst “reife” KI-Modelle abzubilden, die zumindest perspektivisch sehr zeitnah einen Mehrwert einspielen. Das klassischste Beispiel ist sicherlich das bereits in vielen Anwendungen integrierte automatische Freistellen von Objekten, das früher rein händisch umgesetzt wurde.

2. Simulation klassischer Bildproduktionsprozesse durch generative KI

Ein weiterer Ansatz zielt darauf ab, mit Hilfe generativer KI-Modelle die klassischen Bild- Produktionsprozesse in Fotostudios bestmöglich zu ersetzen, um so maximal  ressourcensparend zu einem ähnlichen oder besseren Ergebnis zu kommen. Ein Beispiel ist der hybride Prozess, in dem produzierte Freisteller Bilder mit KI generierten Models zu einer klassischen Hollowman-Model-Detail Produktbild-Serie kombiniert werden. Dadurch werden Shooting-, Modelbooking-, Anreise-, Styling-, Makeup- und Buyout-Kosten gespart,  die Time-to-Online drastisch reduziert und neue Möglichkeiten für kontextbasierte Varianten freigespielt.

Quelle: Doopic

3. Experimentelle KI-Modelle und grenzenlose visuelle Aufbereitung

Der dritte Ansatz wird von den reinen Möglichkeiten her gedacht, die KI zu bieten hat. Grundsätzlich ist jede statische oder bewegte visuelle Produkt-Aufbereitung möglich und muss sich lediglich mit dem Mehrwert für die gesetzten KPI´s messen. Ob damit konventionelle Sehgewohnheiten, konservative Produktbildstandards oder herkömmliche Kontexte aufgehoben oder sogar aktiv negiert werden, spielt maximal eine untergeordnete Rolle. Aktuell wird der experimentelle Charakter dieser Strategie vor allem auf Social Media Kanälen als Satellit für klassische Strategien vielfältig getestet und findet noch selten Anwendung in Shop-Konzepten.

Für die Massenbildbearbeitung erwähnt werden muss natürlich noch ein vierter, bildferner Ansatz, der im Prozessbereich anzusiedeln ist und dabei unterstützen kann z.B. Aufträge gemäß Auslastung und Anforderung optimal zu priorisieren oder weitere Aussteuerungen durch z.B. kurzfristigen Kundenanforderungen smart anzusetzen. Darauf soll aber in einem weiteren Artikel näher eingegangen werden.

Herausforderungen durch Unreife und stetige Evolution der KI-Modelle

Entgegen dem vorherrschenden Eindruck, der momentan in den Sozialen Medien, in Fachmagazinen und ähnlichen Kontexten über das eingangs erwähnte Promoten von Einzelbeispielen erzeugt wird, ist die massenhafte Reproduzierbarkeit von ihnen zum Greifen nahe. In der Realität ist aber genau das noch ein Weg voller Herausforderungen.

1. “Unreife” von KI-Modellen: 

Zum jetzigen Zeitpunkt gibt es trotz der enormen Fortschritte eine Fülle an Widerständen, die dem Ziel entgegenstehen, abgesteckte Arbeitsschritte generalisiert zu ersetzen. Als Beispiel sei die sogenannte „Halluzination“ aufgeführt – ein Phänomen, bei dem KI-Modelle Details erfinden oder falsch interpretieren, was zu unrealistischen oder irreführenden Produktbildern und Inkonsistenzen führt.

In mehreren unserer Pilotprojekte, die im Kern die Verheiratung von realen Produktbildern mit KI generierten Models gemeinsam haben, ist KI-Modell-übergreifend eine beachtliche Anzahl an Dimensionen dieser Halluzination deutlich geworden. So gibt es hier z.B. Probleme mit der Interpretation von Schriften, Farben, Schnitten, Reflektionen und Schatten im Mikro- und Makrobereich, der Konsistenz von Mustern, Strukturen und anderen Produkteigenschaften. Auch Dimensionen und Relationen können in verschiedenen Ansichten trotz verschiedener Prompting-Strategien nicht so einfach unter Kontrolle gebracht werden. Darüber hinaus ist die Standard-Auflösung ohne ergänzte KI Skalierung noch nicht ausreichend für den klassischen eCommerce Bedarf und fehlende Konsistenzen über eine komplette Bilderserie multipliziert die Imperfektion auf eine relevante Menge, die es zu kontrollieren gilt.

Unterm Strich kann es je nach Produktgruppe und Qualitätsstandard passieren, dass trotz der Kombination sehr gut angelernter KI-Modelle, einer hohen Anzahl von Varianten und einer sehr präzisen Vorauswahl jedes einzelne Bild nochmal angefasst werden muss.

Quelle: Doopic

2. Stetige Innovation:

Die Integration von KI-Modellen in einen Prozess verlangt entweder einen verlässlichen Standard des KI-Modells, oder die unbedingte Flexibilität des Prozesses.

Die Schlagzahl für neue KI-Modelle, Varianten und Versionen ist momentan ganz klar so hoch, dass sich binnen weniger Tage ein Lösungsansatz für einen Arbeitsschritt oder z.B. für den Regelprozess zur Generierung von KI-Modellen komplett hinfällig ist. Ein Beispiel dafür ist FLUX, der neue KI-Bildgenerator von Black Forest Labs, der sich recht überraschend 2024 als revolutionärer Akteur in der KI-Bildgenerierung etabliert hat, indem er durch seine enorme Rechenleistung und Präzision selbst erfahrene Designer beeindruckt. 

Die stete Innovation im Bereich KI beinhaltet für einzelne Bereiche noch so große Innovationsschritte, dass es natürlich unproduktiv wäre, sich auf alten Ansätzen auszuruhen. Damit geht ein großer Teil der Integrationsarbeit sicherlich auf das Testen aktueller Veröffentlichungen und das Prüfen der Möglichkeiten, sie verfügbar und bespielbar zu bekommen.

Dafür ist es sicherlich von großem Wert, auf einem flexiblen System zu arbeiten, das Cloud-Lösungen bereithält, die variabel ansteuerbar und schnell mit besseren Alternativen zu ersetzen sind.

Einblicke in die KI-gestützte Massenbildbearbeitung bei Doopic

Wie begegnet man also dem Innovationsdruck, der Fülle an Herausforderungen im Fahrwasser einer so feierlichen Erwartung?

Dank einer prozessstarken und recht flexibel ausgerichteten systemischen Grundlage konnten wir uns bei Doopic schon früh dafür entschieden eine zweigleisige Strategie zu erarbeiten, die zum einen die klassischen Bearbeitungsprozesse aufbricht, segmentiert und Stück für Stück um reife und bewährte KI-gestützte Bearbeitungsschritte ergänzt. 

Zum Anderen sind wir gemeinsam mit unseren Kunden daran, neue Ansätze über den klassischen Weg hinaus zu entwickeln, die sich zwar auf die bewährten Prozessketten legen lassen, aber ganz neue Ziele ansteuern. Ein Beispiel dafür ist der sehr lukrative Schritt, mit generativen Models eine Alternative zu den herkömmlichen Produktionsstandards zu entwerfen. 

Wie lassen sich für den generativen Teil aber hochwertige Ergebnisse erzielen, bei der Fülle an Widerständen durch Halluzinationen und der eingeschränkten Vorhersagbarkeit von Ergebnissen? Die Antwort darauf ist eine sehr konservative: Mit einem smart kombinierten Korrekturprozess, der sowohl auf der Mikro, wie auch auf der Makroebene alle Fehler abfängt, sie in unsere Learnings integriert und uns für das weitere Trainieren der aktuellen KI-Modelle genug Anwendungsfälle gibt um sie Stück für Stück zu verbessern.

Eine wichtige Komponente dabei ist die Ergänzung mit einem traditionellen  Korrekturprozess, der je nach Warengruppe, Zielvorgabe und Fehlerquote noch ein- bis mehrmals in die Prozesskette integriert werden muss, um eine hohe Ausgabequalität zu gewährleisten. Eine große Rolle spielt hierbei die neue Form der Kontrolle, die ganz neue Fehlerklassen berücksichtigen muss. Schließlich ist eine zusätzlicher Knopf auf der Knopfleiste kein Fehler, den man aus der klassischen Produktion gewöhnt ist - Daher sind hier auch systemische Komponenten von großem Wert.

So entsteht ein Werkzeugkasten der gemäß Bedarf, Innovation, Umsetzbarkeit und Anwendungsfall stetig weiterentwickelt werden kann und aus dem sich flexibel benutzerdefinierte Workflows bestücken lassen.

Das Ziel bleibt natürlich die stete Reduktion und Vereinfachung der Workflows bis hin zu rein automatisierten Abläufen.

Fazit: KI-Strategien in der Massenbildbearbeitung im Bereich Produktfotografie

Die Integration von Künstlicher Intelligenz in die Massenbildbearbeitung verspricht ein beachtliches Potential auf ganz unterschiedlichen Ebenen, auch und gerade für den eCommerce. Doch verglichen mit dem möglichen Output sind wir noch in den Anfängen der Entwicklung.

Den Fortschritten steht noch eine enorme Unreife der KI-Modelle entgegen, die eine verlässliche Vorhersage für hochwertige und anspruchsvolle Ergebnisse noch nicht ermöglicht. Um diese Schwierigkeiten zu überwinden, bereits jetzt Potential frei zu spielen und die Zukünftigen Fortschritte ab dem Zeitpunkt der Verfügbarkeit nutzen zu können, bedarf es aufwendiger Korrekturprozesse auf der Basis einer äußerst flexiblen Prozesskultur und Ausdauer beim kontinuierlichen Training und Feintuning der KI-Modelle.

Doopic verfolgt eine zweigleisige Strategie, bei der sowohl klassische Bildbearbeitungsprozesse durch KI verbessert als auch neue, generative Ansätze entwickelt werden. Flexibilität und eine strukturierte Vorgehensweise sind dabei entscheidend, um den Innovationsdruck und die Unvorhersehbarkeit der KI-Ergebnisse erfolgreich zu managen. Die Zukunft der Massenbildbearbeitung liegt in der Kombination aus KI-gestützten Automatisierungen und prozessintegrierten Korrekturmaßnahmen, um den hohen Anforderungen des eCommerce gerecht zu werden und die Grenzen des Machbaren kontinuierlich zu erweitern.

Tool icon
Unverbindlicher Austausch

Sie benötigen weitere Infos oder möchten mehr darüber herausfinden wie Sie Ihre Produktbild-Prozesse mit Doopic optimieren können?

Wir freuen uns über einen unverbindlichen Austausch zu Ihrer individuellen Situation!