W&V Techonomics
von 19.02.2024 - 17:55 Uhr   » Zur Webversion
Jochen Fuchs

Jochen G. Fuchs, aka der ‚E-Fuchs‘, sortiert die Ereignisse der Woche aus den Bereichen KI, Tech und Commerce und analysiert daraus das, was wirklich wichtig ist.

Hallo John,

OpenAIs neues Video-KI-Modell Sora beschäftigt das Netz seit Tagen. Ich habe einen Blick auf die Funktionsweise von Sora geworfen und erkläre zum einen, was das Besondere an dem Modell ist
 
Und zum anderen zeige ich Use Cases auf, die gleich zum Start von Sora für Marketing und Commerce verfügbar seien werden.
(Wann Sora für die Allgemeinheit verfügbar sein wird, ist im Moment noch nicht bekannt.)
 
Spannend: Sora generiert nicht einfach nur Videos, sondern entwickelt ein Verständnis für Aspekte unserer physikalischen Welt und simuliert diese.
 
Mehr dazu in meinem Artikel:  Der Sora-Deep-Dive für Marketing und Commerce.
 
Das erwartet dich: 
  • KI im Einzelhandel: Fünf Schlüsselbereiche für mehr Effizienz
  • Die gute Nachricht: 2024 wird das Jahr der KI-Enttäuschungen
  • Paukenschlag: Apple wirf Support für Progressive-Web-Apps (PWA) über Bord
  • Hochrechnung: Amazon-Umsätze 2023 in Deutschland und der Schweiz
 
Viel Spaß beim Lesen
 
Dein

Jochen G. Fuchs

 
ANZEIGE
Live-Webinar
 
Der Sora-Deep-Dive für Marketing und Commerce
 
Ein Wesen, halb Drache, halb Ente fliegt mit einem Hamster in Abenteuerausrüstung auf seinem Rücken in den Sonnenuntergang.
Foto: OpenAI Sora (x/sama) Prompt: “A half duck half dragon flies through a beautiful sunset with a hamster dressed in adventure gear on its back”
OpenAI hat mit Sora ein KI-Modell vorgestellt, das unter anderem Videos mit bis zu einer Minute Dauer anhand eines Prompts aus dem Nichts oder anhand eines Startbildes generieren kann. Was das Modell aktuell noch kann und welche Auswirkungen das auf Marketing und Commerce haben wird.
 
Wunschkonzert mit Sam Altman auf X zeigt Geschwindigkeit von OpenAIs Sora
Vermutlich auch um aufkommenden Zweifeln entgegenzuwirken, hat Sam Altmann nach der offiziellen Ankündigung auf X eine Wünsch-dir-was-Runde gestartet und willkürliche Vorschläge von Nutzer:innen direkt mit Sora umgesetzt und auf X gepostet. Ein Blick auf die generierten Videos lohnt sich. 
 
Gemessen an der Geschwindigkeit, mit der Altman Vorschläge auf X umsetzen ließ, scheint es wahrscheinlich, dass die Generierung eines Zehn-Sekünders in wenigen Minuten erledigt ist. Vom Vorschlag bis zu Sam Altmans Antwort mit einem generierten Video vergingen im kürzesten Fall rund 20 Minuten.
 
Wobei wir berücksichtigen müssen, dass es sich um ein experimentelles Setup handelt, dessen Geschwindigkeit nicht direkt auf die Geschwindigkeit des späteren, öffentlich zugänglichen Modells schließen lässt. (Sora ist momentan nicht öffentlich verfügbar; wann sich das ändern wird, ist bis jetzt nicht bekannt.)
 
Deep Dive: Wie Sora Videos versteht und generiert
 
Sora ist aufgrund seiner Architektur (eine Mischung aus Diffusion und Transformer-Architektur) im Gegensatz zu anderen Modellen in der Lage, die Aspekte der physikalischen Welt zu simulieren, erklärt OpenAI in seinem technischen Hintergrundartikel
 
Ohne zu tief in die Architektur und Funktionsweise eintauchen zu wollen, lässt sich die Vorgehensweise wie folgt simplifizieren:
 
Ein Video wird in Originalauflösung und in originalem Seitenverhältnis in kleine Ausschnitte aufgeteilt, sogenannte visuelle Patches. Dazu wird zuerst das Video vereinfacht, in einem sogenannten Latent Space, der die Bezüge zwischen räumlicher und zeitlicher Darstellung im Video erfasst. 
 
In diesem räumlich und zeitlich komprimierten Konstrukt des Latent Space trainiert und generiert Sora. Beispielhaft ausgedrückt verfolgt Sora in einer Sequenz, wie sich ein Wassertropfen korrekt verhält und aussieht auf seinem Weg zum Boden und nutzt dann Sequenzen der Spacetime Patches, um Regen in diesem Latent Space darzustellen. 
 
Durch die Aufteilung entsteht ein Array, ein dreidimensionales Gitter gefüllt mit komprimierten visuellen Daten. Die kleinen Bruchstücke des Videos bezeichnet OpenAi als Spacetime Patches.  
 
Ein dazugehöriges Decoder-Modell verbindet die komprimierten Raumzeit-Patches mit Pixel-Bildaten, die zur Bildgenerierung verwendet werden. Die Patches werden schließlich in einem Array neu angeordnet.
 
Das Diffusion-Modell Sora erhält so "noisy" Patches, also grobe Bild-Bruchstücke und wird darauf trainiert,  die "sauberen" Patches vorherzusagen. 
 
( Akkurater und detaillierter erklärt Vincent Koc auf Medium das Konzept der Spacetime Patches.)
 
Die vermutlich wichtigsten zwei Fakten über Sora
  • Sora verwendet, ähnlich wie LLMs, eine riesige Datenmenge als Trainingsgrundlage. Die Trainingsvideos werden in der Originalauflösung und im Original-Bildverhältnis verarbeitet. Das ermöglicht dem Modell, Erkenntnisse zur physikalischen Welt zu ermitteln und so Aspekte von Menschen, Tieren und Umgebung  zu simulieren.
  • OpenAI merkt an, dass diese Fähigkeiten emergent seien, also "von alleine" auftauchen, sobald das Training skaliert wird. Dem Modell wurden also keine Vorannahmen zum Verhalten von Gegenständen, Menschen, Tieren und Umgebung zum Lernen vorgegeben. Je größer es skaliert wurde, umso besser wurden die Ergebnisse.
 
OpenAI endet seinen technischen Aufsatz mit den Worten: "Wir glauben, dass die Fähigkeiten, die Sora heute hat, zeigen, dass die kontinuierliche Skalierung von Videomodellen ein vielversprechender Weg zur Entwicklung leistungsfähiger Simulatoren der physischen und digitalen Welt und der Objekte, Tiere und Menschen, die in ihnen leben, ist."
 
Was Sora noch kann und wie Marketing und Commerce davon profitieren
Hollywood wird noch eine Weile warten müssen, bis KIs wie Sora ganze Kinofilme mit kohärenten Handlungssträngen und spezifischen Hauptfiguren generieren können. Auch wenn die jetztigen Fähigkeiten deutlich machen, dass der Zeitpunkt wohl kommen wird.
 
Aber die Marketingbranche und der Handel können vermutlich schon mit der ersten Version von Sora direkt anwendbare Use Cases finden.
 
Denn Sora kann nicht nur Videos komplett neu generieren, sondern bestehende Bilder in Videos verwandeln oder spezifische Aspekte von bestehenden Videos verändern:
 
1. Sora wandelt Standbilder in Videos um
Fotos von Produkten können dazu genutzt werden, um Produkte zum Leben zu erwecken; die Bilder eines Fahrrads können beispielsweise schnell zu einem Produktvideo umgewandelt werden, welches das Fahrrad in Aktion zeigt.
 
2. Protagonisten und Umgebung können einfach ersetzt werden
In einem Demovideo von OpenAI fliegt eine Drohne durch eine römisch anmutende Ruinenlandschaft. Im nächsten Videoabschnitt wird die Drohne zum Schmetterling, der dann schließlich durch eine Unterwasserlandschaft weiterfliegt.
Mit Leichtigkeit könnte beispielsweise ein Hersteller von Taucherausrüstungen einen Fisch im Meer durch einen Taucher ersetzen, um seine Ausrüstung in Aktion zu zeigen.
 
Es gibt viele Aspekte rund um die Generierung von künstlichem Bild- und Videomaterial, die es zu berücksichtigen gibt. Beispielsweise hinsichtlich Deepfakes und der Kennzeichnung von KI-generiertem Material. (Etwas, bei dem die KI-Industrie sich im Moment sehr bemüht, Bedenken proaktiv durch Initiativen wie C2PA abzuschwächen)
 
Aber eines wird deutlich: Vergleichbar mit dem Evolutionsschritt der grafischen Benutzeroberflächen, die den Computer Durchschnittsbürger:innen als Werkzeug erstmals zugänglich und nutzbar gemacht haben, machen generative KIs wie Sora die Produktion von High-End-Videos für Unternehmen jeder Größe zugänglich und nutzbar. Unabhängig von den vorhandenen Ressourcen.
 
Das ist die ultimative Demokratisierung des Werbefilms.
 
ANZEIGE
PLAN A TO GEN Z
PLAN A TO GEN Z
Wie Marken durch Partnerschaften mit NGOs Wirkung entfalten und das Vertrauen der Gen Z gewinnen.
Hier mehr erfahren!
 
Meine Lesetipps
Unternehmen haften für Fehler ihrer KI-Chatbots
Die Fluglinie Air Canada muss für falsche Infos ihres Chatbots zahlen. Sie wollte sich herausreden, dass sie nicht für irreführende Informationen eines KI-Chatbots auf ihrer Website zuständig sei. Nun hat ein Gericht klargestellt: Die Verantwortung für KI-Fehler liegt beim anbietenden Unternehmen.
Facebook Share
Twitter Share
Xing Share
LinkedIn Share
Lesen
KI im Einzelhandel: Fünf Schlüsselbereiche für mehr Effizienz
KI fasziniert nicht nur – sie schüchtert Unternehmen genauso ein. Michael Korbacher, Google Cloud, skizziert fünf Bereiche, in denen sich Einzelhändler schnell und effektiv mit KI warmlaufen können.
Facebook Share
Twitter Share
Xing Share
LinkedIn Share
Lesen
Telekom zeigt appfreies KI-Smartphone
Wer von uns glaubt schon, dass Apps bald zu Relikten aus grauen Vorzeiten mutieren könnten? Zumindest ein Unternehmen tut das, und zwar die Telekom! Denn die präsentiert in wenigen Tagen ihr erstes, appfreies KI-Phone. Was dahintersteckt, wie es funktioniert, welchen Haken es gibt.
Facebook Share
Twitter Share
Xing Share
LinkedIn Share
Lesen
Vodafone: Befreit uns KI vom Abverkaufs-Geschrei der Radiowerbung?
KI setzt Vodafone bereits in nicht weniger als 130 Bereichen im Unternehmen ein. Jetzt hat der Telko-Konzern den ersten KI-generierten Radiospot produziert. Aber ist das wirklich ein Vorteil zu „Human Made“?
Facebook Share
Twitter Share
Xing Share
LinkedIn Share
Lesen
Die gute Nachricht: 2024 wird das Jahr der KI-Enttäuschungen
In unserer neuen Kolumne "KI für Könner" zeigen euch Tanja Braemer und Timm Rotter am Beispiel konkreter Cases, wie ihr das Maximum aus den neuen GenAI-Tools herausholen könnt. Folge 1: KI als Videoproduzent.
Facebook Share
Twitter Share
Xing Share
LinkedIn Share
Lesen
Neue KI-Brille lässt Apple Vision Pro alt aussehen
Brille: Apple? Apple Vision Pro lässt viele glauben, dass das 600-Gramm-Teil die Brille der Zukunft ist. Doch ein kleines US-Startup zeigt mit "Frame", was heute schon geht. Brille reloaded, viel günstiger, viel leichter.
Facebook Share
Twitter Share
Xing Share
LinkedIn Share
Lesen
So profitieren Unternehmen von Google-Gemini-Advanced
Der Suchmaschinenriese Google hat die nächste Ära zum Thema Künstliche Intelligenz ausgerufen. Bei Gemini Advanced profitieren vor allem Unternehmen. Was das Modell leistet, was es kostet.
Facebook Share
Twitter Share
Xing Share
LinkedIn Share
Lesen
 
ANZEIGE
CommerceTECH Conference
CommerceTECH Conference
Lerne auf der CommerceTECH Conference, warum es mehr braucht als Expertenwissen, Erfahrungen und einen Blick in Analytics. Nur ein fundiertes Kundenverständnis hilft dir, weiterhin du für deine Zielgruppen relevant und interessant zu bleiben.
Jetzt Ticket sichern
 
Prime Video und die gescheiterte Kommunikations-Strategie
Verbraucherschützer sind alarmiert und wollen klagen: Mit dem neuen Werbe-Abo zeigt Amazon Prime Video, wie Kommunikationsstrategien scheitern können.
Facebook Share
Twitter Share
Xing Share
LinkedIn Share
Lesen
Retail Media: Von der Option zum Muss
Im vergangenen Jahr trug Retail Media entscheidend zum Umsatzwachstum bei - und zwar bei Marken, Händlern und Agenturen. Der Aufstieg des Kanals scheint unaufhaltsam. Jetzt erobert Retail Media neue Sektoren wie Reisen und Finanzen.
Facebook Share
Twitter Share
Xing Share
LinkedIn Share
Lesen
Klarna positioniert sich mit Login-Service gegen Tech-Riesen
Schnellere Käufe, höhere Kontrolle, bessere Angebote: Der schwedische Zahlungsdienstleister Klarna startet einen eigenen Login-Dienst und positioniert sich damit gegen Apple, Google & Co.
Facebook Share
Twitter Share
Xing Share
LinkedIn Share
Lesen
Retail Media: So steigerte Kühne mit Einkaufs-Apps die Käuferreichweite
Der Lebensmittelhersteller setzte für die Reichweitensteigerung in Form von Einkaufs-Apps erstmals Retail Media in großem Stil ein. Mit durchschlagendem Erfolg.
Facebook Share
Twitter Share
Xing Share
LinkedIn Share
Lesen
Westwing-Offensive: Von online pure raus auf die Fläche
Westwing macht einen guten Job als Online-Pure-Händler. Aber der Home- und Livingausstatter will auch „Fläche“. Nach einem Test-Shop plant CEO Andreas Hoerning jetzt eine Vor-Ort-Offensive.
Facebook Share
Twitter Share
Xing Share
LinkedIn Share
Lesen
 
ANZEIGE
Transformiere dein Marketing mit KI
Transformiere dein Marketing mit KI
Im Workshop 'Consumer Insights & Strategie mit KI' lernst du, wie du mit der Kraft der KI deine Marktforschung, Datenanalyse und Zielgruppenansprache revolutionierst.
Jetzt Platz sichern
 
Was noch?
 
Paukenschlag: Apple wirf Support für Progressive-Web-Apps (PWA) über Bord
 
Hochrechnung: Amazon-Umsätze 2023 in Deutschland und der Schweiz
 
Zalando könnte zum Verlassen des Dax gezwungen sein
W&V
Digital Marketing Specialist (m/w/d)
Ruess International GmbH
Stuttgart
zum Stellenangebot
Art Director Digital (m/w/d)
Ravensburger AG
München
zum Stellenangebot
Referent (m/w/d) Kampagnenmanagement / Sponsoring
Westdeutsche Lotterie GmbH & Co. OHG
Münster
zum Stellenangebot
Marketing Manager (m/w/d)
ECOVIS BayLa-Union GmbH
München
zum Stellenangebot
Strategischer Einkäufer Marketing & Advertising (m/w/d)
MediaMarktSaturn
Ingolstadt
zum Stellenangebot
Alle Stellenangebote   Stellenanzeige schalten
Im W&V Executive Briefing weiterlesen:
W&V Executive Briefing
Auf Social Media folgen:
 
Anregungen oder Fragen an die Redaktion? -  [email protected]
Fragen zu Anzeigen oder werden unsere Mediadaten benötigt? -  [email protected]
Fragen oder Anregungen zu den Newslettern? -  [email protected]
Ebner Media Group GmbH &amp Co. KG, Büro München
Postfach 20 15 52, 80015 München
Bayerstraße 16a, 80335 München
Deutschland
Telefon: +49 731 88005-8000
Geschäftsführer: Marco Parrillo

Kommanditgesellschaft, Ulm, Registergericht Ulm, HRA 1900
Persönlich haftende Gesellschafterin:
Ebner Ulm MGV GmbH, Ulm, Registergericht Ulm, HRB 576
USt-IdNr.: DE 147041097

E-Mail: [email protected]
Chefredakteur (verantwortlich): Rolf Schröter

Anzeigen- und Mediaberatung:
Susanne Tacke, Director Sales & Client Success,
Telefon: +49 731 88005-8936
Mobil: +49 173 299 – 8434
E-Mail: [email protected]

Gesamtleitung Stellenmärkte
Sabine Vockrodt
Telefon: +49 731 88005 8222
E-Mail: [email protected]

Verkauf Stellenmärkte
Michael Borchert
Telefon: +49 40 2786 6625
E-Mail: [email protected]

Impressum
Diese E-Mail wurde verschickt an [email protected]
Vom Newsletter abmelden