Thema:
Re:Segmentation in ControlNet flat
Autor: JPS
Datum:15.05.23 14:59
Antwort auf:Re:Segmentation in ControlNet von suicuique

>Wenn letzteres der Output zum ersteren Input sein soll, dann sind wir hier IMO nah dran an einer Themaverfehlung.

Es geht darum, dass Du mit reinen Text-Prompts eine Szene nicht so beschreiben kannst, dass eine Art-AI daraus das gewünschte, grundsätzlich Layout einer Szene ableiten kann.

Denn die Art-AI ist vom Textverständnis noch schlechter als die typischen Chat-Bots und greift im Endeffekt nur Schlüsselwörter oder Wortbestandteile (Token) heraus und ordnet diese intern Vektoren zu.

Welche dann zur Anwendung kommen hängt unter anderem vom Kontext ab, da diese Vektoren tatsächlich in der Matrix in einer Form vorliegen, bei der thematisch ähnliche Vektoren dicht zusammen liegen.

Du kannst z.B. tatsächlich den Vektor für König nehmen, davon den Vektor von Mann abziehen und den Vektor für Frau addieren und bekommst sehr wahrscheinlich den Vektor für Königin heraus bzw. liegt Dein rechnerisches Ergebnis so nah am Vektor für Königin, dass die KI diesem die höchste Wahrscheinlichkeit zuweisen würde.

Im Gegensatz zu Chat-Bots haben die Art-AIs aber den Vorteil, dass Du durch die Funktionsweise der schrittweisen Bilderzeugung aus "Noise" solche Informationen mit anderen Methoden injizieren kannst.

Und das geschieht in diesem Beispiel eben. Die Position von Personen, Gläsern, der Speisekarte, der Stühle, etc. wird perfekt übernommen. Alles Dinge, die Du mit reinen Text-Prompts nur sehr aufwendig beschreiben könntest und welche die Art-AI dann trotzdem nicht genau genug verstehen würde.

Die Feinabstimmung muss dann aber natürlich weiterhin über Text-Prompts, das verwendete Model, Angaben zum gewünschten Stil oder über weitere Eingriffe (z.B. "Regional Prompt Control") erfolgen.

>Und damit meine ich noch nicht mal Details die man derlei Bildern reihenweise vorwerfen kann, wie starre ausdruckslose Gesichter.

Auch hier musst Du gezielt eingreifen. Über das verwendete Model, darauf aufsetzende Zusätze (z.B. LoRA oder Textual Inversion), bei der Du die AI gezielt auf bestimmte Gesichter oder Gesichtsausdrücke trainierst, usw.

Wie schon an anderer Stelle geschrieben, fallen gezielte Wunschergebnisse, die Deiner Vision oder den konkreten Vorstellungen eines Auftraggebers entsprechen, auch bei Art-AI-Lösungen nicht einfach unten raus. Das ist stundenlange Arbeit für ein einzelnes Bild.

Im Gegensatz zu Chat-Bots und Large Language Models ist das geniale aber, dass man bei Art AI tatsächlich so weit und detailliert an jedem einzelnen Schritt der Bilderzeugung eingreifen kann, das man ein Wunschergebnis hinbekommen kann und dabei dann durch Wiederverwendung und den Aufbau von Skills und Workflows auch in einer Form die gegenüber der klassischen Erstellung Zeit und damit Kosten spart.

Außerdem eröffnen sich damit die Möglichkeit zur Auslebung von Kreativität auf hohem technischen Niveau für Menschen die kein Talent im Umgang mit den üblichen Malwerkzeugen haben.

>Aber gut, wenn es der Anspruch ist drei Menschen an einer Bartheke zu zeigen dann hat die AI wohl voll ins schwarze getroffen!!1 Wens glücklich macht ...

Der Anspruch war in dem Fall, dass möglichst viele Objekte der Vorlage am Ende an der gewünschten Position im Ergebnis landen und dabei zumindest so brauchbar sind, dass man die entsprechenden Feinheiten darauf basierend anpassen kann. Ein Gesicht ist z.B. nachträglich schnell getauscht - wichtiger ist, dass an der Stelle überhaupt eine Person sitzt deren Körperhaltung entweder zum Wunschergebnis passt oder per Text-Prompts und Detail-Eingriffe dazu gebracht werden kann.

Wenn Du auf Basis dieser Erklärung nochmal die Bilder ansiehst, wirst Du erkennen, dass die KI über 90% der Objekte von der Position richtig übernommen hat.

[https://i.imgur.com/uWOSWwH.png]
[https://i.imgur.com/hUhGG7y.jpg]

Speziell dieses Tool/Feature hat dabei auch noch eine grobe Unterscheidung (durch die Farben) in verschiedene Objekttypen, so dass Dein Text-Prompt entsprechend einfacher und kürzer wird, da Du diese Basics nicht mehr beschreiben musst oder Dich auf diese dann mit Deinen Detailwünschen und weiteren Eingriffen beziehen kannst. Die Farbkodierung verhindert dabei, dass statt einer Flasche oder einem Glas dann plötzlich ein ganz anderes Objekt mit ähnlicher Form im Ergebnis landet.


< antworten >