← heapsort-ai

image generation

60 items

ARTICLEDEV.to AI·il y a 12h

AI Pin Maker — multi-model AI studio for image, video, and custom pin design (just shipped)

AI Pin Maker est un studio d'IA tout-en-un récemment lancé pour la génération d'images, de vidéos, de broches émaillées personnalisées et d'albums. Il se distingue par son routage multi-modèle utilisant plus de 28 modèles sous-jacents, permettant de basculer entre les tâches dans une seule session et un seul compte.

61
NEWSThe Verge AI·21/04/2026

OpenAI’s updated image generator can now pull information from the web

OpenAI a déployé la dernière version de son générateur d'images alimenté par l'IA, ChatGPT Images 2.0, qui peut désormais rechercher sur le web pour créer des images plus sophistiquées à partir d'une seule invite. Alimentée par le nouveau modèle GPT Image 2, cette fonctionnalité avec des "capacités de réflexion" est disponible pour les abonnés ChatGPT Plus et les niveaux supérieurs.

33
ARTICLEDEV.to AI·24/04/2026

GPT Image 2: A Practical Image Model for Developers Who Need Better Text and Layout

GPT Image 2 est un modèle d'image pratique axé sur la production de visuels utilisables pour les développeurs, designers et équipes de contenu, excellant dans la gestion du texte et de la mise en page. Il surpasse les modèles précédents en rendant le texte et en gérant la mise en page de manière fiable, le rendant idéal pour les maquettes et concepts d'interface.

29
ARTICLEDEV.to AI·23/04/2026

ERNIE Image Review: Open-Source Text-to-Image for Posters, Comics, and Bilingual Visuals

ERNIE Image de Baidu est un modèle texte-vers-image open-source axé sur la génération de visuels de haute qualité avec du texte lisible intégré et un support bilingue chinois-anglais. Il excelle dans les compositions structurées comme les mises en page d'affiches et les scènes de bande dessinée, s'avérant utile pour divers flux de travail créatifs.

28
RESEARCHarXiv CS.LG·il y a 21j

Systematic Optimization of Real-Time Diffusion Model Inference on Apple M3 Ultra

Cette recherche optimise systématiquement l'inférence des modèles de diffusion en temps réel sur l'Apple M3 Ultra, explorant diverses techniques telles que la conversion CoreML et la quantification. L'étude a atteint 22.7 FPS pour la transformation img2img de 512x512 en combinant la conversion CoreML du SDXS-512 avec un pipeline de caméra à 3 threads.

28
RESEARCHDEV.to AI·22/04/2026

Playground v2.5: Three Insights towards Enhancing Aesthetic Quality inText-to-Image Generation

Ce contenu présente trois aperçus clés tirés de Playground v2.5, se concentrant sur les méthodes visant à améliorer significativement la qualité esthétique des images produites par les modèles de génération de texte à image. Il aborde probablement des détails techniques qui améliorent l'attrait visuel et la cohérence artistique.

28
ARTICLEDEV.to AI·il y a 29j

The Compost of Variations

L'article aborde la nature du gaspillage dans l'art génératif, où de multiples variations sont créées et écartées. L'auteur réfléchit à la valeur des images "presque choisies", les considérant comme un aperçu du processus de pensée de l'IA avant qu'elle ne sélectionne un résultat final.

27
ARTICLEDEV.to AI·24/04/2026

Routing 30+ image models with one MCP server

Le texte décrit un serveur MCP appelé "prompt-to-asset" qui achemine intelligemment les requêtes vers l'un des plus de 30 modèles d'image en fonction des exigences de la tâche, dépassant les limites des wrappers à modèle unique. Il souligne la complexité de construire cette logique de routage, compte tenu des forces très différentes des divers modèles d'image, telles que le rendu de texte, les fonds transparents et le respect du style.

27
ARTICLEDEV.to AI·il y a 26j

Midjourney — Deep Dive

Midjourney est reconnue comme le moteur d'IA générative d'images le plus puissant esthétiquement, opérant avec une philosophie qui met l'accent sur la créativité partagée. Initialement un bot Discord, il a évolué en une suite créative complète avec interface web, API et capacités multimodales, visant à démocratiser la création visuelle de haute fidélité.

27
NEWSDEV.to AI·il y a 9j

Bonsai Image 4B: difusión de 1 bit que corre en un iPhone

PrismML a lancé Bonsai Image 4B, une famille de modèles de génération d'images utilisant des poids 1 bit ou ternaires pour exécuter la diffusion de haute qualité sur des appareils locaux comme les iPhones. Cette innovation permet une compression du modèle de 8,3 fois, le réduisant de 7,75 Go à 0,93 Go, tout en conservant jusqu'à 95 % de la qualité d'origine.

27