image generation

60 items

ARTICLEDEV.to AI·vor 12Std

AI Pin Maker — multi-model AI studio for image, video, and custom pin design (just shipped)

AI Pin Maker ist ein kürzlich veröffentlichter All-in-One-KI-Studio zur Generierung von Bildern, Videos, individuellen Emaille-Pins und Alben. Es zeichnet sich durch Multi-Modell-Routing über mehr als 28 zugrunde liegende Modelle aus, was nahtlose Übergänge zwischen verschiedenen Aufgaben in einer einzigen Sitzung und einem einzigen Konto ermöglicht.

image generation AI studio AI design video generation

NEWSThe Verge AI·4/21/2026

OpenAI’s updated image generator can now pull information from the web

OpenAI hat die neueste Version seines KI-gestützten Bildgenerators, ChatGPT Images 2.0, veröffentlicht, der nun das Web durchsuchen kann, um anspruchsvollere Bilder aus einer einzigen Anweisung zu erstellen. Angetrieben vom neuen GPT Image 2-Modell, ist diese Funktion mit "Denkfähigkeiten" für ChatGPT Plus und höherrangige Abonnenten verfügbar.

OpenAI Product Update image generation AI

NEWSThe Verge AI·4/16/2026

Gemini can now pull from Google Photos to generate personalized images

Gemini kann jetzt Daten aus Google Fotos nutzen, um personalisierte Bilder zu generieren, die den Stil und Geschmack eines Nutzers widerspiegeln. Diese Funktion, genannt „Personal Intelligence“, nutzt Informationen aus verbundenen Google-Apps, um Bilder basierend auf dem individuellen Kontext des Nutzers zu erstellen.

personalization image generation Gemini Google

ARTICLEDEV.to AI·4/24/2026

GPT Image 2: A Practical Image Model for Developers Who Need Better Text and Layout

GPT Image 2 ist ein praktisches Bildmodell, das darauf abzielt, brauchbare visuelle Elemente für Entwickler, Designer und Content-Teams zu erstellen und sich durch die Handhabung von Text und Layout auszeichnet. Es verbessert frühere Modelle durch zuverlässiges Rendern von Text und Layout-Verwaltung, was es ideal für Mockups und Interface-Konzepte macht.

AI models image generation layout developer tools

ARTICLEDEV.to AI·4/23/2026

ERNIE Image Review: Open-Source Text-to-Image for Posters, Comics, and Bilingual Visuals

Baidus ERNIE Image ist ein Open-Source-Text-zu-Bild-Modell, das sich auf die Generierung hochwertiger Visuals mit lesbarem Text und zweisprachiger chinesisch-englischer Unterstützung konzentriert. Es excelled in strukturierten Kompositionen wie Poster-Layouts und Comic-Szenen und ist nützlich für vielfältige kreative Arbeitsabläufe.

Multilingual AI Text-to-image open-source AI image generation

RESEARCHarXiv CS.LG·vor 21T

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

Diese Forschung optimiert systematisch die Inferenz von Echtzeit-Diffusionsmodellen auf dem Apple M3 Ultra und untersucht verschiedene Techniken wie CoreML-Konvertierung und Quantisierung. Die Studie erreichte 22.7 FPS für die 512x512 img2img-Transformation durch die Kombination der CoreML-Konvertierung des SDXS-512 mit einer 3-Thread-Kamerapipeline.

Diffusion Models Optimization apple-silicon image generation

RESEARCHDEV.to AI·4/22/2026

Playground v2.5: Three Insights towards Enhancing Aesthetic Quality inText-to-Image Generation

Dieser Inhalt präsentiert drei wichtige Erkenntnisse aus Playground v2.5, die sich auf Methoden zur erheblichen Verbesserung der ästhetischen Qualität von Bildern konzentrieren, die von Text-zu-Bild-Generierungsmodellen erzeugt werden. Es werden wahrscheinlich technische Details behandelt, die die visuelle Attraktivität und künstlerische Kohärenz verbessern.

Text-to-image image generation aesthetic quality Generative AI

NEWSDEV.to AI·4/22/2026

gpt-image-2 API: ship 2K AI images in Next.js for $0.21 (2026)

OpenAI hat das gpt-image-2 Modell am 21. April 2026 veröffentlicht, das bis zu 2.000 Pixel rendert und sieben Seitenverhältnisse mit bis zu 8 kohärenten Bildern pro Aufruf unterstützt. Dieses neue Modell verfügt über einen Denkmodus für Layout und Typografie, der die Text- und Grafikwiedergabe drastisch verbessert.

image generation API AI Model

NEWSMicrosoft Research (YouTube)·vor 6T

Introducing MAI-Image-2.5 | Microsoft AI Models

Dieser Inhalt kündigt die Einführung von MAI-Image-2.5 an, einem neuen KI-Modell von Microsoft. Er beleuchtet die neuesten Fortschritte in den KI-Fähigkeiten von Microsoft, insbesondere für bildbezogene Aufgaben.

AI models MAI-Image image generation Microsoft

Introducing MAI-Image-2.5 | Microsoft AI Models

NEWSDEV.to AI·vor 11T

ByteDance Open-Sources BAGEL: 7B Multimodal Model for Image Gen, Editing, Understanding

ByteDance hat BAGEL als Open-Source-Modell veröffentlicht, ein 7B-Parameter-Multimodalmodell unter der Apache 2.0-Lizenz. Es vereint Bildgenerierung, -bearbeitung, Stilübertragung und Bildverständnis in einer einzigen Architektur für die On-Device-Bereitstellung.

Open Source multimodal AI BAGEL image generation

ARTICLEDEV.to AI·vor 23T

Understanding How ChatGPT Generates Images: A Deep Dive into AI Creativity

Dieser Artikel untersucht, wie ChatGPT zur Bilderzeugung beiträgt, die zugrunde liegenden Technologien und die Auswirkungen für Entwickler, Künstler und Unternehmen. Die Fähigkeit, Bilder aus Textbeschreibungen zu erstellen, rationalisiert Prozesse und demokratisiert die Kunst, was die Produktivität steigert.

AI Creativity ChatGPT image generation Natural Language Processing

ARTICLEDEV.to AI·vor 28T

Why text-to-image AI keeps failing at scientific figures (and what actually works)

Der Autor versuchte, verschiedene Text-zu-Bild-KI-Tools für wissenschaftliche Abbildungen zu verwenden, stellte jedoch fest, dass diese beim Text-Rendering durchweg versagen. Dies liegt daran, dass die Modelle Text als Pixel behandeln, und nur ein speziell entwickeltes wissenschaftliches Illustrationstool funktionierte.

scientific illustration limitations image generation AI

ARTICLEDEV.to AI·vor 29T

The Compost of Variations

Der Artikel erörtert die Natur der Verschwendung in der generativen Kunst, bei der mehrere Variationen erstellt und verworfen werden. Der Autor reflektiert über den Wert von "Beinahe-Treffer"-Bildern und sieht sie als Einblicke in den Denkprozess der KI, bevor sie sich für eine endgültige Ausgabe entscheidet.

creative process image generation AI art AI Variations

DOCDEV.to AI·vor 22T

Wiring Magnific Images Into a Vercel Edge Config A/B Test

Dieser Inhalt beschreibt einen A/B-Test auf raxxo.shop, bei dem drei von Magnific generierte Bilder und Vercel Edge Config verwendet wurden, um den Einfluss eines engeren Bildausschnitts auf die Klickrate (CTR) zu bewerten. Eine einstündige Einrichtung führte dazu, dass eine Variante nach 11 Tagen den Kontrollwert um 18,4% übertraf, wobei der Artikel die genaue Verdrahtung und das Schema bereitstellt.

Vercel Magnific AI image generation A/B testing

DOCDEV.to AI·4/25/2026

How to Create 360 Panoramas with GPT Image 2 and View Them Interactively

Dieses Tutorial zeigt, wie man 360-Grad-Äquirektangular-Panoramabilder mit GPT Image 2 in ChatGPT generiert. Es behandelt auch, wie man diese Bilder interaktiv in einem Browser-Viewer anzeigt und auf Websites einbettet.

interactive viewer GPT Image 2 tutorial image generation

DOCDEV.to AI·4/27/2026

How to Create AI Product Photos for Your Side Project (Zero Budget)

Der Autor, ein Entwickler mit Nullbudget, nutzte kostenlose KI-Tools, um professionelle Produktfotos für seine App zu erstellen und so eine kreative Blockade zu überwinden. Er teilt diese Erfahrung, um anderen unabhängigen Kreativen zu helfen, hochwertige visuelle Assets kostenlos zu produzieren.

marketing image generation AI tools side projects

ARTICLEDEV.to AI·4/24/2026

Routing 30+ image models with one MCP server

Der Text beschreibt einen MCP-Server namens „prompt-to-asset“, der Anfragen intelligent an eines von über 30 Bildmodellen weiterleitet, basierend auf den Aufgabenanforderungen, wodurch die Einschränkungen von Single-Modell-Wrappern überwunden werden. Er hebt die Komplexität des Aufbaus dieser Routing-Logik hervor, angesichts der stark unterschiedlichen Stärken verschiedener Bildmodelle, wie Texterstellung, transparente Hintergründe und Stilkonformität.

model selection MCP server AI routing image generation

ARTICLEDEV.to AI·vor 26T

Midjourney — Deep Dive

Midjourney gilt als die ästhetisch potenteste generative KI-Bild-Engine und arbeitet mit einer Philosophie, die die geteilte Kreativität betont. Ursprünglich ein Discord-Bot, hat es sich zu einer umfassenden Kreativsuite mit Weboberfläche, APIs und multimodalen Funktionen entwickelt, die sich auf die Demokratisierung hochauflösender visueller Kreation konzentriert.

Creative AI image generation AI tools Midjourney

NEWSDEV.to AI·vor 9T

Bonsai Image 4B: difusión de 1 bit que corre en un iPhone

PrismML hat Bonsai Image 4B auf den Markt gebracht, eine Familie von Bildgenerierungsmodellen, die 1-Bit- oder ternäre Gewichte verwenden, um hochwertige Diffusion direkt auf Geräten wie iPhones auszuführen. Diese Innovation ermöglicht eine 8,3-fache Modellkomprimierung, wodurch die Größe von 7,75 GB auf 0,93 GB reduziert wird, während bis zu 95 % der ursprünglichen Qualität erhalten bleiben.

Diffusion Models Edge AI image generation PrismML

ARTICLEDEV.to AI·vor 25T

Stop Hardcoding Templates: How I Feed a Live 3x2 Inspiration Grid into Gemini Flash

Dieser Artikel beschreibt, wie die Erstellung dynamischer Open Graph-Bilder mithilfe einer Backend-Pipeline automatisiert wird, die visuelle Trends in Gemini Flash einspeist. Dies eliminiert die Notwendigkeit fest codierter Vorlagen und manueller Gestaltung, gewährleistet Vorhersehbarkeit und verhindert KI-Halluzinationen.

image generation Gemini Flash AI automation