Thema:
Re:Ein paar Gedanken über die Zukunft der KI flat
Autor: JPS
Datum:20.02.24 10:37
Antwort auf:Ein paar Gedanken über die Zukunft der KI von deltax

>Ich denke, in Zukunft werden komplette Filme und sogar Serien von KI generiert.
>
>Das heißt, der Zuschauer wird ein paar Grundvorgaben machen wie:
>
>Genre: Science-Fiction, Horror, Komödie, Thriller usw.
>Protagonisten/Schauspieler(Natürlich kostet es Geld, bekannte Schauspieler auszuwählen ;) )
>Länge bzw. wie viele Staffel und folgen der Film bzw. die Serie haben sollen.
>Stil
>Zeitalter
>usw...
>Somit wird jeder seinen ganz eigenen und persönlichen Film sehen.


Wo soll die Rechenleistung herkommen? Als reine Science Fiction für in ein paar hundert Jahren würde ich das noch irgendwie verstehen, Du sprichst weiter unten aber nur von "Jahren".

Für einen Film brauchst Du 24 Bilder pro Sekunde. Das also dann mal 60, mal 90, für einen 90 Minuten Film - das wären 130.000 Bilder.

Und dann schau Dir an wie lange ein hochwertiges Bild in 1080p zur Berechnung auf einer RTX4090 braucht - vor allem wenn Du die Berechnung noch zusätzlich mit ControlNet & Co. beeinflussen willst, was für Video nahezu unerlässlich ist - und eigentlich ist für Filme inzwischen 4K der Standard.

Nicht ohne Grund sind viele Demo-Videos eher klein und mit geringer Auflösung berechnet.

Aber selbst, wenn Du mit Optimierungen, besserer Hardware und verfeinerten Techniken in ein paar Jahren ein ausreichend gutes 4K-Bild pro Sekunde berechnet bekommen würdest, würde die Berechnung noch immer 36 Stunden für einen 90minütigen Film dauern.

Allein für die Berechnung müsstest Du also eine entsprechende High-End-CPU (eher aus dem professionellen Bereich, als noch teurerer als eine Consumer-Karte) für 1,5 Tage mieten um Deinen privaten Film zu erzeugen, was noch keine Entwicklungskosten und keinen Gewinn für das Unternehmen enthält.

Der Film müsste dann hunderte Euro kosten und das Ergebnis wäre trotzdem ohne manuelle Eingriffe und Vorarbeiten eher bescheiden und qualitativ sehr weit weg von einem echten Film.

Realistischer wäre zu unser Lebenszeit wohl eher eine Berechnung die Monate braucht und in den 5-6stelligen Bereich geht. Wenn es vernünftig werden soll und nicht wie aus einem Baukasten mit immer gleichen Szenen/Abläufen/Gesichtern wirken darf, müssen Menschen das auch massiv steuern und bis auf auf sehr kurze Abschnitte heruntergebrochen beeinflussen, wodurch ein KI-Film auch in 10 Jahren noch ein millionenschweres Projekt wäre.

Außerdem macht es viel mehr Sinn die KI mit anderen Techniken zu kombinieren, also z.B. die Bewegung weiterhin von Menschen ausführen zu lassen, diese zu filmen und von der KI dann nur noch per Image2Image/Video2Video den Stil zu ändern. Die ersten kompletten Filme, die wir mit massivem KI-Einsatz bekommen werden (und das über Jahre), werden daher eher im Bereich Disney/Pixar/Anime zu verorten sein oder generell eher auf einen unrealistischen Look abzielen.

Was ich auch als realistisch ansehen würde ist, dass wir noch erleben, dass die Lippenbewegung sich in Echtzeit berechnet an die Synchro-Sprache anpasst. In Kombination mit künstlich erzeugten Stimmen und automatischer Übersetzung, sollten wir also in halbwegs absehbarer Zeit auf Youtube alle Videos in der eigene Sprache präsentiert bekommen. Zunächst aber wohl auch eher erst einmal vorberechnet und erst in einem späteren Schritt in Echtzeit.

Das geht aber auch nur, weil die Berechnung sich dabei auf einen sehr kleinen Bereich des Bildes beschränkt und die Anpassung so spezifisch ist, dass sie sich gut trainieren, automatisieren und ohne größere Eingriffe millionenfach wiederverwenden lässt.


< antworten >