← heapsort-ai

image generation

60 items

ARTICLEDEV.to AI·vor 12Std

AI Pin Maker — multi-model AI studio for image, video, and custom pin design (just shipped)

AI Pin Maker ist ein kürzlich veröffentlichter All-in-One-KI-Studio zur Generierung von Bildern, Videos, individuellen Emaille-Pins und Alben. Es zeichnet sich durch Multi-Modell-Routing über mehr als 28 zugrunde liegende Modelle aus, was nahtlose Übergänge zwischen verschiedenen Aufgaben in einer einzigen Sitzung und einem einzigen Konto ermöglicht.

61
ARTICLEDEV.to AI·4/24/2026

GPT Image 2: A Practical Image Model for Developers Who Need Better Text and Layout

GPT Image 2 ist ein praktisches Bildmodell, das darauf abzielt, brauchbare visuelle Elemente für Entwickler, Designer und Content-Teams zu erstellen und sich durch die Handhabung von Text und Layout auszeichnet. Es verbessert frühere Modelle durch zuverlässiges Rendern von Text und Layout-Verwaltung, was es ideal für Mockups und Interface-Konzepte macht.

29
ARTICLEDEV.to AI·4/23/2026

ERNIE Image Review: Open-Source Text-to-Image for Posters, Comics, and Bilingual Visuals

Baidus ERNIE Image ist ein Open-Source-Text-zu-Bild-Modell, das sich auf die Generierung hochwertiger Visuals mit lesbarem Text und zweisprachiger chinesisch-englischer Unterstützung konzentriert. Es excelled in strukturierten Kompositionen wie Poster-Layouts und Comic-Szenen und ist nützlich für vielfältige kreative Arbeitsabläufe.

28
RESEARCHarXiv CS.LG·vor 21T

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

Diese Forschung optimiert systematisch die Inferenz von Echtzeit-Diffusionsmodellen auf dem Apple M3 Ultra und untersucht verschiedene Techniken wie CoreML-Konvertierung und Quantisierung. Die Studie erreichte 22.7 FPS für die 512x512 img2img-Transformation durch die Kombination der CoreML-Konvertierung des SDXS-512 mit einer 3-Thread-Kamerapipeline.

28
RESEARCHDEV.to AI·4/22/2026

Playground v2.5: Three Insights towards Enhancing Aesthetic Quality inText-to-Image Generation

Dieser Inhalt präsentiert drei wichtige Erkenntnisse aus Playground v2.5, die sich auf Methoden zur erheblichen Verbesserung der ästhetischen Qualität von Bildern konzentrieren, die von Text-zu-Bild-Generierungsmodellen erzeugt werden. Es werden wahrscheinlich technische Details behandelt, die die visuelle Attraktivität und künstlerische Kohärenz verbessern.

28
ARTICLEDEV.to AI·vor 29T

The Compost of Variations

Der Artikel erörtert die Natur der Verschwendung in der generativen Kunst, bei der mehrere Variationen erstellt und verworfen werden. Der Autor reflektiert über den Wert von "Beinahe-Treffer"-Bildern und sieht sie als Einblicke in den Denkprozess der KI, bevor sie sich für eine endgültige Ausgabe entscheidet.

27
DOCDEV.to AI·vor 22T

Wiring Magnific Images Into a Vercel Edge Config A/B Test

Dieser Inhalt beschreibt einen A/B-Test auf raxxo.shop, bei dem drei von Magnific generierte Bilder und Vercel Edge Config verwendet wurden, um den Einfluss eines engeren Bildausschnitts auf die Klickrate (CTR) zu bewerten. Eine einstündige Einrichtung führte dazu, dass eine Variante nach 11 Tagen den Kontrollwert um 18,4% übertraf, wobei der Artikel die genaue Verdrahtung und das Schema bereitstellt.

27
ARTICLEDEV.to AI·4/24/2026

Routing 30+ image models with one MCP server

Der Text beschreibt einen MCP-Server namens „prompt-to-asset“, der Anfragen intelligent an eines von über 30 Bildmodellen weiterleitet, basierend auf den Aufgabenanforderungen, wodurch die Einschränkungen von Single-Modell-Wrappern überwunden werden. Er hebt die Komplexität des Aufbaus dieser Routing-Logik hervor, angesichts der stark unterschiedlichen Stärken verschiedener Bildmodelle, wie Texterstellung, transparente Hintergründe und Stilkonformität.

27
ARTICLEDEV.to AI·vor 26T

Midjourney — Deep Dive

Midjourney gilt als die ästhetisch potenteste generative KI-Bild-Engine und arbeitet mit einer Philosophie, die die geteilte Kreativität betont. Ursprünglich ein Discord-Bot, hat es sich zu einer umfassenden Kreativsuite mit Weboberfläche, APIs und multimodalen Funktionen entwickelt, die sich auf die Demokratisierung hochauflösender visueller Kreation konzentriert.

27
NEWSDEV.to AI·vor 9T

Bonsai Image 4B: difusión de 1 bit que corre en un iPhone

PrismML hat Bonsai Image 4B auf den Markt gebracht, eine Familie von Bildgenerierungsmodellen, die 1-Bit- oder ternäre Gewichte verwenden, um hochwertige Diffusion direkt auf Geräten wie iPhones auszuführen. Diese Innovation ermöglicht eine 8,3-fache Modellkomprimierung, wodurch die Größe von 7,75 GB auf 0,93 GB reduziert wird, während bis zu 95 % der ursprünglichen Qualität erhalten bleiben.

27