text/html; charset=utf-8

Techonomics

von 19.02.2024 - 17:55 Uhr

Jochen G. Fuchs, aka der ‚E-Fuchs‘, sortiert die Ereignisse der Woche aus den Bereichen KI, Tech und Commerce und analysiert daraus das, was wirklich wichtig ist.

OpenAIs neues Video-KI-Modell Sora beschäftigt das Netz seit Tagen. Ich habe einen Blick auf die Funktionsweise von Sora geworfen und erkläre zum einen, was das Besondere an dem Modell ist.

Und zum anderen zeige ich Use Cases auf, die gleich zum Start von Sora für Marketing und Commerce verfügbar seien werden.

(Wann Sora für die Allgemeinheit verfügbar sein wird, ist im Moment noch nicht bekannt.)

Spannend: Sora generiert nicht einfach nur Videos, sondern entwickelt ein Verständnis für Aspekte unserer physikalischen Welt und simuliert diese.

Mehr dazu in meinem Artikel: Der Sora-Deep-Dive für Marketing und Commerce.

Das erwartet dich:

KI im Einzelhandel: Fünf Schlüsselbereiche für mehr Effizienz
Die gute Nachricht: 2024 wird das Jahr der KI-Enttäuschungen
Paukenschlag: Apple wirf Support für Progressive-Web-Apps (PWA) über Bord
Hochrechnung: Amazon-Umsätze 2023 in Deutschland und der Schweiz

Viel Spaß beim Lesen

Dein

Der Sora-Deep-Dive für Marketing und Commerce

Ein Wesen, halb Drache, halb Ente fliegt mit einem Hamster in Abenteuerausrüstung auf seinem Rücken in den Sonnenuntergang.

Foto: OpenAI Sora (x/sama) Prompt: “A half duck half dragon flies through a beautiful sunset with a hamster dressed in adventure gear on its back”

OpenAI hat mit Sora ein KI-Modell vorgestellt, das unter anderem Videos mit bis zu einer Minute Dauer anhand eines Prompts aus dem Nichts oder anhand eines Startbildes generieren kann. Was das Modell aktuell noch kann und welche Auswirkungen das auf Marketing und Commerce haben wird.

Wunschkonzert mit Sam Altman auf X zeigt Geschwindigkeit von OpenAIs Sora

Vermutlich auch um aufkommenden Zweifeln entgegenzuwirken, hat Sam Altmann nach der offiziellen Ankündigung auf X eine Wünsch-dir-was-Runde gestartet und willkürliche Vorschläge von Nutzer:innen direkt mit Sora umgesetzt und auf X gepostet. Ein Blick auf die generierten Videos lohnt sich.

Gemessen an der Geschwindigkeit, mit der Altman Vorschläge auf X umsetzen ließ, scheint es wahrscheinlich, dass die Generierung eines Zehn-Sekünders in wenigen Minuten erledigt ist. Vom Vorschlag bis zu Sam Altmans Antwort mit einem generierten Video vergingen im kürzesten Fall rund 20 Minuten.

Wobei wir berücksichtigen müssen, dass es sich um ein experimentelles Setup handelt, dessen Geschwindigkeit nicht direkt auf die Geschwindigkeit des späteren, öffentlich zugänglichen Modells schließen lässt. (Sora ist momentan nicht öffentlich verfügbar; wann sich das ändern wird, ist bis jetzt nicht bekannt.)

Deep Dive: Wie Sora Videos versteht und generiert

Sora ist aufgrund seiner Architektur (eine Mischung aus Diffusion und Transformer-Architektur) im Gegensatz zu anderen Modellen in der Lage, die Aspekte der physikalischen Welt zu simulieren, erklärt OpenAI in seinem technischen Hintergrundartikel.

Ohne zu tief in die Architektur und Funktionsweise eintauchen zu wollen, lässt sich die Vorgehensweise wie folgt simplifizieren:

Ein Video wird in Originalauflösung und in originalem Seitenverhältnis in kleine Ausschnitte aufgeteilt, sogenannte visuelle Patches. Dazu wird zuerst das Video vereinfacht, in einem sogenannten Latent Space, der die Bezüge zwischen räumlicher und zeitlicher Darstellung im Video erfasst.

In diesem räumlich und zeitlich komprimierten Konstrukt des Latent Space trainiert und generiert Sora. Beispielhaft ausgedrückt verfolgt Sora in einer Sequenz, wie sich ein Wassertropfen korrekt verhält und aussieht auf seinem Weg zum Boden und nutzt dann Sequenzen der Spacetime Patches, um Regen in diesem Latent Space darzustellen.

Durch die Aufteilung entsteht ein Array, ein dreidimensionales Gitter gefüllt mit komprimierten visuellen Daten. Die kleinen Bruchstücke des Videos bezeichnet OpenAi als Spacetime Patches.

Ein dazugehöriges Decoder-Modell verbindet die komprimierten Raumzeit-Patches mit Pixel-Bildaten, die zur Bildgenerierung verwendet werden. Die Patches werden schließlich in einem Array neu angeordnet.

Das Diffusion-Modell Sora erhält so "noisy" Patches, also grobe Bild-Bruchstücke und wird darauf trainiert, die "sauberen" Patches vorherzusagen.

( Akkurater und detaillierter erklärt Vincent Koc auf Medium das Konzept der Spacetime Patches.)

Die vermutlich wichtigsten zwei Fakten über Sora

Sora verwendet, ähnlich wie LLMs, eine riesige Datenmenge als Trainingsgrundlage. Die Trainingsvideos werden in der Originalauflösung und im Original-Bildverhältnis verarbeitet. Das ermöglicht dem Modell, Erkenntnisse zur physikalischen Welt zu ermitteln und so Aspekte von Menschen, Tieren und Umgebung zu simulieren.
OpenAI merkt an, dass diese Fähigkeiten emergent seien, also "von alleine" auftauchen, sobald das Training skaliert wird. Dem Modell wurden also keine Vorannahmen zum Verhalten von Gegenständen, Menschen, Tieren und Umgebung zum Lernen vorgegeben. Je größer es skaliert wurde, umso besser wurden die Ergebnisse.

OpenAI endet seinen technischen Aufsatz mit den Worten: "Wir glauben, dass die Fähigkeiten, die Sora heute hat, zeigen, dass die kontinuierliche Skalierung von Videomodellen ein vielversprechender Weg zur Entwicklung leistungsfähiger Simulatoren der physischen und digitalen Welt und der Objekte, Tiere und Menschen, die in ihnen leben, ist."

Was Sora noch kann und wie Marketing und Commerce davon profitieren

Hollywood wird noch eine Weile warten müssen, bis KIs wie Sora ganze Kinofilme mit kohärenten Handlungssträngen und spezifischen Hauptfiguren generieren können. Auch wenn die jetztigen Fähigkeiten deutlich machen, dass der Zeitpunkt wohl kommen wird.

Aber die Marketingbranche und der Handel können vermutlich schon mit der ersten Version von Sora direkt anwendbare Use Cases finden.

Denn Sora kann nicht nur Videos komplett neu generieren, sondern bestehende Bilder in Videos verwandeln oder spezifische Aspekte von bestehenden Videos verändern:

1. Sora wandelt Standbilder in Videos um

Fotos von Produkten können dazu genutzt werden, um Produkte zum Leben zu erwecken; die Bilder eines Fahrrads können beispielsweise schnell zu einem Produktvideo umgewandelt werden, welches das Fahrrad in Aktion zeigt.

2. Protagonisten und Umgebung können einfach ersetzt werden

In einem Demovideo von OpenAI fliegt eine Drohne durch eine römisch anmutende Ruinenlandschaft. Im nächsten Videoabschnitt wird die Drohne zum Schmetterling, der dann schließlich durch eine Unterwasserlandschaft weiterfliegt.

Mit Leichtigkeit könnte beispielsweise ein Hersteller von Taucherausrüstungen einen Fisch im Meer durch einen Taucher ersetzen, um seine Ausrüstung in Aktion zu zeigen.

Es gibt viele Aspekte rund um die Generierung von künstlichem Bild- und Videomaterial, die es zu berücksichtigen gibt. Beispielsweise hinsichtlich Deepfakes und der Kennzeichnung von KI-generiertem Material. (Etwas, bei dem die KI-Industrie sich im Moment sehr bemüht, Bedenken proaktiv durch Initiativen wie C2PA abzuschwächen)

Aber eines wird deutlich: Vergleichbar mit dem Evolutionsschritt der grafischen Benutzeroberflächen, die den Computer Durchschnittsbürger:innen als Werkzeug erstmals zugänglich und nutzbar gemacht haben, machen generative KIs wie Sora die Produktion von High-End-Videos für Unternehmen jeder Größe zugänglich und nutzbar. Unabhängig von den vorhandenen Ressourcen.

Das ist die ultimative Demokratisierung des Werbefilms.

PLAN A TO GEN Z

Wie Marken durch Partnerschaften mit NGOs Wirkung entfalten und das Vertrauen der Gen Z gewinnen.

Hier mehr erfahren!

Meine Lesetipps

Unternehmen haften für Fehler ihrer KI-Chatbots

Die Fluglinie Air Canada muss für falsche Infos ihres Chatbots zahlen. Sie wollte sich herausreden, dass sie nicht für irreführende Informationen eines KI-Chatbots auf ihrer Website zuständig sei. Nun hat ein Gericht klargestellt: Die Verantwortung für KI-Fehler liegt beim anbietenden Unternehmen.

Lesen

KI im Einzelhandel: Fünf Schlüsselbereiche für mehr Effizienz

KI fasziniert nicht nur – sie schüchtert Unternehmen genauso ein. Michael Korbacher, Google Cloud, skizziert fünf Bereiche, in denen sich Einzelhändler schnell und effektiv mit KI warmlaufen können.

Lesen

Telekom zeigt appfreies KI-Smartphone

Wer von uns glaubt schon, dass Apps bald zu Relikten aus grauen Vorzeiten mutieren könnten? Zumindest ein Unternehmen tut das, und zwar die Telekom! Denn die präsentiert in wenigen Tagen ihr erstes, appfreies KI-Phone. Was dahintersteckt, wie es funktioniert, welchen Haken es gibt.

Lesen

Vodafone: Befreit uns KI vom Abverkaufs-Geschrei der Radiowerbung?

KI setzt Vodafone bereits in nicht weniger als 130 Bereichen im Unternehmen ein. Jetzt hat der Telko-Konzern den ersten KI-generierten Radiospot produziert. Aber ist das wirklich ein Vorteil zu „Human Made“?

Lesen

Die gute Nachricht: 2024 wird das Jahr der KI-Enttäuschungen

In unserer neuen Kolumne "KI für Könner" zeigen euch Tanja Braemer und Timm Rotter am Beispiel konkreter Cases, wie ihr das Maximum aus den neuen GenAI-Tools herausholen könnt. Folge 1: KI als Videoproduzent.

Lesen

Neue KI-Brille lässt Apple Vision Pro alt aussehen

Brille: Apple? Apple Vision Pro lässt viele glauben, dass das 600-Gramm-Teil die Brille der Zukunft ist. Doch ein kleines US-Startup zeigt mit "Frame", was heute schon geht. Brille reloaded, viel günstiger, viel leichter.

Lesen

So profitieren Unternehmen von Google-Gemini-Advanced

Der Suchmaschinenriese Google hat die nächste Ära zum Thema Künstliche Intelligenz ausgerufen. Bei Gemini Advanced profitieren vor allem Unternehmen. Was das Modell leistet, was es kostet.

Lesen

CommerceTECH Conference

Lerne auf der CommerceTECH Conference, warum es mehr braucht als Expertenwissen, Erfahrungen und einen Blick in Analytics. Nur ein fundiertes Kundenverständnis hilft dir, weiterhin du für deine Zielgruppen relevant und interessant zu bleiben.

Jetzt Ticket sichern

Prime Video und die gescheiterte Kommunikations-Strategie

Verbraucherschützer sind alarmiert und wollen klagen: Mit dem neuen Werbe-Abo zeigt Amazon Prime Video, wie Kommunikationsstrategien scheitern können.

Lesen

Retail Media: Von der Option zum Muss

Im vergangenen Jahr trug Retail Media entscheidend zum Umsatzwachstum bei - und zwar bei Marken, Händlern und Agenturen. Der Aufstieg des Kanals scheint unaufhaltsam. Jetzt erobert Retail Media neue Sektoren wie Reisen und Finanzen.

Lesen

Klarna positioniert sich mit Login-Service gegen Tech-Riesen

Schnellere Käufe, höhere Kontrolle, bessere Angebote: Der schwedische Zahlungsdienstleister Klarna startet einen eigenen Login-Dienst und positioniert sich damit gegen Apple, Google & Co.

Lesen

Retail Media: So steigerte Kühne mit Einkaufs-Apps die Käuferreichweite

Der Lebensmittelhersteller setzte für die Reichweitensteigerung in Form von Einkaufs-Apps erstmals Retail Media in großem Stil ein. Mit durchschlagendem Erfolg.

Lesen

Westwing-Offensive: Von online pure raus auf die Fläche

Westwing macht einen guten Job als Online-Pure-Händler. Aber der Home- und Livingausstatter will auch „Fläche“. Nach einem Test-Shop plant CEO Andreas Hoerning jetzt eine Vor-Ort-Offensive.

Lesen

Transformiere dein Marketing mit KI

Im Workshop 'Consumer Insights & Strategie mit KI' lernst du, wie du mit der Kraft der KI deine Marktforschung, Datenanalyse und Zielgruppenansprache revolutionierst.

Jetzt Platz sichern

Digital Marketing Specialist (m/w/d)

Ruess International GmbH
Stuttgart

Art Director Digital (m/w/d)

Ravensburger AG
München

Referent (m/w/d) Kampagnenmanagement / Sponsoring

Westdeutsche Lotterie GmbH & Co. OHG
Münster

Marketing Manager (m/w/d)

ECOVIS BayLa-Union GmbH
München

Strategischer Einkäufer Marketing & Advertising (m/w/d)

MediaMarktSaturn
Ingolstadt

Im W&V Executive Briefing weiterlesen:

Auf Social Media folgen:

Anregungen oder Fragen an die Redaktion? - [email protected]
Fragen zu Anzeigen oder werden unsere Mediadaten benötigt? - [email protected]
Fragen oder Anregungen zu den Newslettern? - [email protected]

Ebner Media Group GmbH &amp Co. KG, Büro München
Postfach 20 15 52, 80015 München
Bayerstraße 16a, 80335 München
Deutschland
Telefon: +49 731 88005-8000
Geschäftsführer: Marco Parrillo

Kommanditgesellschaft, Ulm, Registergericht Ulm, HRA 1900
Persönlich haftende Gesellschafterin:
Ebner Ulm MGV GmbH, Ulm, Registergericht Ulm, HRB 576
USt-IdNr.: DE 147041097

E-Mail: [email protected]
Chefredakteur (verantwortlich): Rolf Schröter

Anzeigen- und Mediaberatung:
Susanne Tacke, Director Sales & Client Success,
Telefon: +49 731 88005-8936
Mobil: +49 173 299 – 8434
E-Mail: [email protected]

Gesamtleitung Stellenmärkte
Sabine Vockrodt
Telefon: +49 731 88005 8222
E-Mail: [email protected]

Verkauf Stellenmärkte
Michael Borchert
Telefon: +49 40 2786 6625
E-Mail: [email protected]

Impressum
Diese E-Mail wurde verschickt an [email protected]

Vom Newsletter abmelden