DALL-E 2 von OpenAI bekommt freie Konkurrenz. Dahinter steckt eine Open-Source-KI-Bewegung und das Start-up Stability AI. Künstliche Intelligenz, die aus textuellen Beschreibungen Bilder generieren kann, macht seit Anfang 2021 rasante Fortschritte. OpenAI zeigte damals mit DALL-E 1 und CLIP beeindruckende Ergebnisse. Die Open-Source-Community hat CLIP im Laufe des Jahres für mehrere alternative Projekte verwendet. Dann, im Jahr 2022, veröffentlichte OpenAI den beeindruckenden DALL-E 2, Google zeigte Imagen und Parti, Midjourney erreichte Millionen und Craiyon überschwemmte die sozialen Medien. Startup Stability AI hat nun die Veröffentlichung von Stable Diffusion angekündigt, einem weiteren DALL-E-2-ähnlichen System, das jungen Forschern und anderen Gruppen zunächst nach und nach über einen Discord-Server zur Verfügung gestellt werden soll. Nach einer Testphase wird Stable Diffusion dann kostenlos freigegeben – der Code und ein fertig trainiertes Modell werden als Open Source freigegeben. Es wird auch eine gehostete Version mit einer Weboberfläche geben, mit der Benutzer das System testen können.
Stability AI finanziert DALL-E 2-Konkurrenten kostenlos
Stable Diffusion wurde in Zusammenarbeit zwischen Forschern von Stability AI, RunwayML, der LMU München sowie EleutherAI und LAION entwickelt. Das Forschungskollektiv EleutherAI ist unter anderem für seine Open-Source-Sprachmodelle GPT-J-6B und GPT-NeoX-20B bekannt und forscht auch an multimodalen Modellen. Das gemeinnützige LAION (Large-scale Artificial Intelligence Open Network) stellte die Trainingsdaten mit dem Open-Source-Datensatz LAION 5B zur Verfügung, den das Team in einer ersten Testphase mit menschlichem Feedback gefiltert hat, um den endgültigen LAION-Ästhetik-Trainingsdatensatz zu erstellen. Patrick Esser von Runway und Robin Rombach von der LMU München leiteten das Projekt, aufbauend auf ihrer Arbeit in der CompVis-Gruppe an der Universität Heidelberg. Hier entstand das häufig verwendete VQGAN und die latente Diffusion. Letzteres diente als Grundlage für eine stabile Verbreitung mit Forschungen von OpenAI und Google Brain. “Jazz-Roboter.” von TheRealBissy#StableDiffusion #AIArt #AIArtwork @StableDiffusion pic.twitter.com/V6hBWZUuM9 – Stabile Diffusionsbilder (@DiffusionPics) 14. August 2022 Hinter der 2020 gegründeten Stability AI steht der Mathematiker und Informatiker Emad Mostaque. Er arbeitete mehrere Jahre als Analyst bei verschiedenen Hedgefonds, bevor er sich der Öffentlichkeitsarbeit zuwandte. 2019 half er bei der Gründung von Symmitree, einem Projekt, das darauf abzielt, die Kosten für Smartphones und Internetzugang für gefährdete Bevölkerungsgruppen zu senken. Mit Stability AI und seinem Privatvermögen will Mostaque die Open-Source-KI-Forschungsgemeinschaft voranbringen. Sein Start unterstützte zuvor beispielsweise die Erstellung des Datensatzes „LAION 5B“. Um das stabile Diffusionsmodell zu trainieren, stellte Stability AI Server mit 4.000 Nvidia A100-GPUs bereit. „Niemand außer unseren 75 Mitarbeitern hat Stimmrechte – keine Milliardäre, große Fonds, Regierungen oder sonst jemand, der das Unternehmen oder die von uns unterstützten Gemeinschaften kontrolliert. Wir sind völlig unabhängig“, sagte Mostaque gegenüber TechCrunch. „Wir nutzen unsere Rechenleistung, um künstliche Open-Source-Intelligenz zu beschleunigen.“
Stable Diffusion ist ein Open-Source-Meilenstein
Derzeit läuft ein Test auf stabile Diffusion, Neuzugänge werden in Wellen verteilt. Die Ergebnisse, die Sie beispielsweise auf Twitter sehen können, zeigen, dass hier ein echter DALL-E-2-Konkurrent auftaucht. Stable Diffusion ist nuancierter als Midjourney, hat aber eine etwas geringere Auflösung als DALL-E 2. | Bild: Github Im Gegensatz zu DALL-E 2 kann Stable Diffusion Bilder von prominenten Personen und anderen Motiven erzeugen, die OpenAI in DALL-E 2 verbietet. Andere Systeme wie Midjourney oder Pixelz.ai können dies, aber keines davon erreicht eine vergleichbare Qualität wie das High Vielfalt, die in Stable Diffusion zu sehen ist – und keines der anderen Systeme ist Open Source. Es stellt sich heraus, dass #stablediffusion eine wirklich großartige Interpolation zwischen Textnachrichten ausführen kann, wenn Sie das Initialisierungsrauschen beheben und zwischen den Prompt-Initialisierungsvektoren slerpen: pic.twitter.com/lWOoETYVZ3 – Xander Steenbrugge (@xsteenbrugge) 7. August 2022 Stable Diffusion soll bereits auf einer einzigen Grafikkarte mit 5,1 Gigabyte VRAM laufen – das Projekt treibt die KI-Technologie auf die Spitze, die bisher nur über Cloud-Dienste verfügbar war. Stable Diffusion bietet damit Forschern und Stakeholdern ohne Zugang zu GPU-Servern die Möglichkeit, mit modernen KI-Modellen zu experimentieren. Das Modell soll auch auf MacBooks mit Apples M1-Chip laufen. Allerdings dauert die Bilderzeugung mehrere Minuten statt Sekunden. DALL-E 2 von OpenAI erhält einen Open-Source-Wettbewerb. Dahinter steht die Open-Source-Community und das Startup Stability AI. | Bild: Github Stability AI selbst will es Unternehmen auch ermöglichen, eine eigene Variante der Stable Propagation zu trainieren. Multimodale Modelle folgen damit dem Weg, den große Sprachmodelle bereits gegangen sind: weg von einem einzigen Anbieter hin zur breiten Verfügbarkeit zahlreicher Alternativen durch Open Source. Runway forscht bereits an der Text-zu-Video-Verarbeitung, die durch stabile Diffusion unterstützt wird. #stablediffusion Text-to-Image-Checkpoints sind jetzt für Forschungszwecke auf Anfrage unter verfügbar Wir arbeiten an einem toleranteren Release- und Control-Point-Painting. Coming Soon™ zu @runwayml für die Text-zu-Video-Bearbeitung pic.twitter.com/7XVKydxTeD – Patrick Esser (@pess_r) 11. August 2022
Stable Diffusion: Die Büchse der Pandora und Nettovorteile
Mit offenem Zugang und der Möglichkeit, das Modell auf einer weit verbreiteten GPU auszuführen, steigt das Missbrauchspotenzial natürlich dramatisch an. „Ein gewisser Prozentsatz der Menschen ist einfach unbeholfen und seltsam, aber das ist menschlich“, sagte Mostaque. „Wir sind davon überzeugt, dass diese Technologie durchstarten wird, und die paternalistische und etwas herablassende Haltung vieler KI-Enthusiasten ist falsch, weil sie der Gesellschaft nicht vertrauen.“ Mostaque betont jedoch, dass die freie Verfügbarkeit es der Community ermöglicht, Gegenmaßnahmen zu entwickeln. „Wir ergreifen umfangreiche Sicherheitsmaßnahmen, einschließlich der Entwicklung moderner Tools, um potenzielle Schäden an der Freigabe und unseren eigenen Diensten zu mindern. Da Hunderttausende an diesem Modell arbeiten, sind wir zuversichtlich, dass der Nettonutzen äußerst positiv sein wird, und da Milliarden von Menschen diese Technologie verwenden, werden die Schäden in den Hintergrund treten.“ Weitere Informationen finden Sie im Stable-Diffusion-Github. Viele Beispiele für die Bilderzeugungsfunktionen von Stable Diffusion finden Sie im Subreddit von Stable Diffusion. Melden Sie sich hier für die Beta-Version von Stable Diffusion an. Hinweis: Links zu Onlineshops in Artikeln können sogenannte Affiliate-Links sein. Wenn Sie über diesen Link einkaufen, erhält MIXED.de vom Verkäufer eine Provision. Der Preis ändert sich für Sie nicht.