Der Bildgenerator DALL-E AI von OpenAI kann jetzt auch Bilder bearbeiten

Die OpenAI Artificial Intelligence Research Group hat eine neue Version von DALL-E erstellt, sein Programm zum Generieren von Text in ein Bild. DALL-E 2 verfügt über eine Version des Originalsystems mit höherer Auflösung und geringerer Latenz, die Bilder erzeugt, die von Benutzern geschriebene Beschreibungen anzeigen. Es enthält auch neue Funktionen, wie z. B. das Bearbeiten eines vorhandenen Bildes. Wie bei früheren OpenAI-Arbeiten wird das Tool nicht direkt für die Öffentlichkeit freigegeben. Forscher können sich jedoch online anmelden, um das System zu überprüfen, und OpenAI hofft, es später für die Verwendung in Anwendungen von Drittanbietern verfügbar zu machen.

Das Original DALL-E, das Portmanteau des Künstlers „Salvador Dali“ und des Roboters „WALL-E“, debütierte im Januar 2021. Es war eine ein begrenzter, aber faszinierender Test Die Fähigkeit der KI, Konzepte zu visualisieren, von alltäglichen Darstellungen von Modellen in Flanellhemden bis hin zu „aus Schildkröten gefertigten Giraffen“ oder Illustrationen eines Rettichs, der mit einem Hund spazieren geht. Damals sagte OpenAI, es werde weiter auf dem System aufbauen und gleichzeitig potenzielle Bedrohungen wie Verzerrungen bei der Bildgenerierung oder die Produktion von Fehlinformationen untersuchen. Es versucht, diese Probleme durch den Einsatz technischer Sicherheitsvorkehrungen und neuer Inhaltsrichtlinien anzugehen, während es seine Rechenlast reduziert und die grundlegenden Fähigkeiten des Modells vorantreibt.

DALL-E 2-Ergebnis für „Shiba Inu-Hund mit Baskenmütze und schwarzem Dolcevina“.

Eine der neuen Funktionen von DALL-E 2, Inpainting, nutzt die Fähigkeit von DALL-E, Text auf einer detaillierteren Ebene in Bilder umzuwandeln. Benutzer können mit einem vorhandenen Bild beginnen, einen Bereich auswählen und das Modell anweisen, es zu bearbeiten. Sie können das Bild beispielsweise an der Wohnzimmerwand blockieren und durch ein anderes Bild ersetzen oder den Couchtisch mit einer Blumenvase ergänzen. Das Modell kann Objekte füllen (oder entfernen) und dabei Details wie die Richtung der Schatten im Raum berücksichtigen. Eine weitere Funktion, Variationen, ist so etwas wie ein Bildsuchwerkzeug für Bilder, die nicht existieren. Benutzer können das Ausgangsbild laden und dann eine Reihe ähnlicher Variationen erstellen. Sie können auch zwei Bilder zusammenführen und Bilder erzeugen, die Elemente von beiden enthalten. Die generierten Bilder haben eine Größe von 1.024 x 1.024 Pixel, was einen Sprung gegenüber den 256 x 256 Pixel des Originalmodells darstellt.

DALL-E 2 wird auf CLIP aufgerüstet, ein Computer-Vision-System, das OpenAI ebenfalls letztes Jahr angekündigt hat. „DALL-E 1 hat einfach unseren GPT-3-Ansatz aus der Sprache genommen und angewendet, um ein Bild zu erzeugen: Wir haben die Bilder zu einer Reihe von Wörtern komprimiert und einfach gelernt, vorherzusagen, was als nächstes kommt“, sagt OpenAI-Forscherin Prafulla Dhariwal GPT-Modell, das von vielen Text-KI-Anwendungen verwendet wird. Aber der Wortabgleich umfasste nicht unbedingt Qualitäten, die die Menschen für am wichtigsten hielten, und der Prozess der Vorhersage schränkte den Realismus von Bildern ein. CLIP wurde entwickelt, um Bilder zu betrachten und ihren Inhalt so zusammenzufassen, wie es ein Mensch tun würde, und OpenAI hat diesen Prozess wiederholt, um „unCLIP“ zu erstellen – die umgekehrte Version, die mit einer Beschreibung beginnt und zum Bild führt. DALL-E 2 erzeugt ein Bild mit einem Prozess namens Diffusion, den Dhariwal so beschreibt, dass er mit einer „Tüte voller Punkte“ beginnt und dann das Muster mit immer mehr Details füllt.

Vorhandenes Raumbild mit Flamingo in einer Ecke hinzugefügt.

Vorhandenes Raumbild mit Flamingo in einer Ecke hinzugefügt.

Interessanterweise heißt es im Entwurfsdokument zu unCLIP, dass es teilweise resistent ist eine sehr lächerliche Schwäche von CLIP: die Tatsache, dass Menschen die Identifizierungsfähigkeiten des Modells täuschen können, indem sie ein Objekt (wie den Granny-Smith-Apfel) mit einem Wort markieren, das etwas anderes markiert (wie einen iPod). Das Variationstool, so die Autoren, „erzeugt weiterhin mit hoher Wahrscheinlichkeit Apfelbilder“, selbst wenn ein falsch gekennzeichnetes Bild verwendet wird, das CLIP nicht als Grandma Smith identifizieren kann. Im Gegensatz dazu “erzeugt das Modell nie Bilder des iPods, trotz der sehr hohen relativen vorhergesagten Wahrscheinlichkeit dieses Etiketts.”

Das vollständige Modell von DALL wurde nie veröffentlicht, aber andere Entwickler haben im vergangenen Jahr ihre eigenen Tools perfektioniert, die einige seiner Funktionen nachahmen. Eine der beliebtesten Mainstream-Anwendungen ist eine mobile Anwendung von Wombo’s Dream, das Bilder von dem erzeugt, was Benutzer in verschiedenen künstlerischen Stilen beschreiben. OpenAI veröffentlicht heute keine neuen Modelle, aber Entwickler könnten seine technischen Erkenntnisse nutzen, um ihre Arbeit zu aktualisieren.

DALL-E 2 Partitur für “eine Suppenschüssel, die wie ein Monster aussieht, aus Wolle gewebt.”

OpenAI hat einige eingebaute Sicherheitsmaßnahmen implementiert. Das Modell wurde mit Daten trainiert, die inakzeptables Material aussonderten, was im Idealfall seine Fähigkeit zur Erzeugung unerwünschter Inhalte einschränkte. Es gibt ein Wasserzeichen, das auf die Art der von künstlicher Intelligenz generierten Arbeit hinweist, obwohl es theoretisch geschnitten werden könnte. Als präventive Funktion gegen Missbrauch kann das Model auch kein erkennbares Gesicht anhand des Namens generieren – auch nicht durch Suchen nach so etwas Mona Lisa Er würde offensichtlich die echte Gesichtsvariante aus dem Bild zurückgeben.

DALL-E 2 kann von verifizierten Partnern mit bestimmten Warnungen getestet werden. Benutzern ist es untersagt, Bilder hochzuladen oder zu erzeugen, die „nicht mit G bewertet“ sind und „schädlich sein könnten“, einschließlich aller Bilder, die Hasssymbole, Nacktheit, obszöne Gesten oder „große Verschwörungen oder Ereignisse im Zusammenhang mit wichtigen aktuellen geopolitischen Ereignissen“ enthalten. Sie müssen auch die Rolle der künstlichen Intelligenz bei der Generierung von Bildern entdecken und können die generierten Bilder nicht über eine App oder Website an andere Personen weitergeben – daher werden Sie zunächst keine Version von so etwas wie einem DALL-E-betriebenen Traum sehen. Aber OpenAI hofft, es später zum API-Toolkit der Gruppe hinzuzufügen, was es ihm ermöglichen wird, Anwendungen von Drittanbietern auszuführen. „Wir hoffen, den schrittweisen Prozess hier fortzusetzen, damit wir basierend auf dem Feedback, das wir erhalten, weiter evaluieren können, wie diese Technologie sicher veröffentlicht werden kann“, sagt Dhariwal.

Zusätzliche Berichterstattung von James Vincent.

Leave a Comment