OpenAI hat mit Sora ein KI-Modell vorgestellt, das unter anderem Videos mit bis zu einer Minute Dauer anhand eines Prompts aus dem Nichts oder anhand eines Startbildes generieren kann. Was das Modell aktuell noch kann und welche Auswirkungen das auf Marketing und Commerce haben wird. |
|
Wunschkonzert mit Sam Altman auf X zeigt Geschwindigkeit von OpenAIs Sora |
Vermutlich auch um aufkommenden Zweifeln entgegenzuwirken, hat Sam Altmann nach der offiziellen Ankündigung auf X eine Wünsch-dir-was-Runde gestartet und willkürliche Vorschläge von Nutzer:innen direkt mit Sora umgesetzt und auf X gepostet. Ein Blick auf die generierten Videos lohnt sich. |
|
Gemessen an der Geschwindigkeit, mit der Altman Vorschläge auf X umsetzen ließ, scheint es wahrscheinlich, dass die Generierung eines Zehn-Sekünders in wenigen Minuten erledigt ist. Vom Vorschlag bis zu Sam Altmans Antwort mit einem generierten Video vergingen im kürzesten Fall rund 20 Minuten. |
|
Wobei wir berücksichtigen müssen, dass es sich um ein experimentelles Setup handelt, dessen Geschwindigkeit nicht direkt auf die Geschwindigkeit des späteren, öffentlich zugänglichen Modells schließen lässt. (Sora ist momentan nicht öffentlich verfügbar; wann sich das ändern wird, ist bis jetzt nicht bekannt.) |
|
Deep Dive: Wie Sora Videos versteht und generiert |
|
Sora ist aufgrund seiner Architektur (eine Mischung aus Diffusion und Transformer-Architektur) im Gegensatz zu anderen Modellen in der Lage, die Aspekte der physikalischen Welt zu simulieren, erklärt OpenAI in seinem technischen Hintergrundartikel. |
|
Ohne zu tief in die Architektur und Funktionsweise eintauchen zu wollen, lässt sich die Vorgehensweise wie folgt simplifizieren: |
|
Ein Video wird in Originalauflösung und in originalem Seitenverhältnis in kleine Ausschnitte aufgeteilt, sogenannte visuelle Patches. Dazu wird zuerst das Video vereinfacht, in einem sogenannten Latent Space, der die Bezüge zwischen räumlicher und zeitlicher Darstellung im Video erfasst. |
|
In diesem räumlich und zeitlich komprimierten Konstrukt des Latent Space trainiert und generiert Sora. Beispielhaft ausgedrückt verfolgt Sora in einer Sequenz, wie sich ein Wassertropfen korrekt verhält und aussieht auf seinem Weg zum Boden und nutzt dann Sequenzen der Spacetime Patches, um Regen in diesem Latent Space darzustellen. |
|
Durch die Aufteilung entsteht ein Array, ein dreidimensionales Gitter gefüllt mit komprimierten visuellen Daten. Die kleinen Bruchstücke des Videos bezeichnet OpenAi als Spacetime Patches. |
|
Ein dazugehöriges Decoder-Modell verbindet die komprimierten Raumzeit-Patches mit Pixel-Bildaten, die zur Bildgenerierung verwendet werden. Die Patches werden schließlich in einem Array neu angeordnet. |
|
Das Diffusion-Modell Sora erhält so "noisy" Patches, also grobe Bild-Bruchstücke und wird darauf trainiert, die "sauberen" Patches vorherzusagen. |
|
( Akkurater und detaillierter erklärt Vincent Koc auf Medium das Konzept der Spacetime Patches.) |
|
Die vermutlich wichtigsten zwei Fakten über Sora |
Sora verwendet, ähnlich wie LLMs, eine riesige Datenmenge als Trainingsgrundlage. Die Trainingsvideos werden in der Originalauflösung und im Original-Bildverhältnis verarbeitet. Das ermöglicht dem Modell, Erkenntnisse zur physikalischen Welt zu ermitteln und so Aspekte von Menschen, Tieren und Umgebung zu simulieren.OpenAI merkt an, dass diese Fähigkeiten emergent seien, also "von alleine" auftauchen, sobald das Training skaliert wird. Dem Modell wurden also keine Vorannahmen zum Verhalten von Gegenständen, Menschen, Tieren und Umgebung zum Lernen vorgegeben. Je größer es skaliert wurde, umso besser wurden die Ergebnisse. |
|
OpenAI endet seinen technischen Aufsatz mit den Worten: "Wir glauben, dass die Fähigkeiten, die Sora heute hat, zeigen, dass die kontinuierliche Skalierung von Videomodellen ein vielversprechender Weg zur Entwicklung leistungsfähiger Simulatoren der physischen und digitalen Welt und der Objekte, Tiere und Menschen, die in ihnen leben, ist." |
|
Was Sora noch kann und wie Marketing und Commerce davon profitieren |
Hollywood wird noch eine Weile warten müssen, bis KIs wie Sora ganze Kinofilme mit kohärenten Handlungssträngen und spezifischen Hauptfiguren generieren können. Auch wenn die jetztigen Fähigkeiten deutlich machen, dass der Zeitpunkt wohl kommen wird. |
|
Aber die Marketingbranche und der Handel können vermutlich schon mit der ersten Version von Sora direkt anwendbare Use Cases finden. |
|
Denn Sora kann nicht nur Videos komplett neu generieren, sondern bestehende Bilder in Videos verwandeln oder spezifische Aspekte von bestehenden Videos verändern: |
|
1. Sora wandelt Standbilder in Videos um |
Fotos von Produkten können dazu genutzt werden, um Produkte zum Leben zu erwecken; die Bilder eines Fahrrads können beispielsweise schnell zu einem Produktvideo umgewandelt werden, welches das Fahrrad in Aktion zeigt. |
|
2. Protagonisten und Umgebung können einfach ersetzt werden |
In einem Demovideo von OpenAI fliegt eine Drohne durch eine römisch anmutende Ruinenlandschaft. Im nächsten Videoabschnitt wird die Drohne zum Schmetterling, der dann schließlich durch eine Unterwasserlandschaft weiterfliegt. |
Mit Leichtigkeit könnte beispielsweise ein Hersteller von Taucherausrüstungen einen Fisch im Meer durch einen Taucher ersetzen, um seine Ausrüstung in Aktion zu zeigen. Es gibt viele Aspekte rund um die Generierung von künstlichem Bild- und Videomaterial, die es zu berücksichtigen gibt. Beispielsweise hinsichtlich Deepfakes und der Kennzeichnung von KI-generiertem Material. (Etwas, bei dem die KI-Industrie sich im Moment sehr bemüht, Bedenken proaktiv durch Initiativen wie C2PA abzuschwächen) |
|
Aber eines wird deutlich: Vergleichbar mit dem Evolutionsschritt der grafischen Benutzeroberflächen, die den Computer Durchschnittsbürger:innen als Werkzeug erstmals zugänglich und nutzbar gemacht haben, machen generative KIs wie Sora die Produktion von High-End-Videos für Unternehmen jeder Größe zugänglich und nutzbar. Unabhängig von den vorhandenen Ressourcen. |
|
Das ist die ultimative Demokratisierung des Werbefilms. |