← heapsort-ai

on-device AI

27 items

ARTICLEDEV.to AI·17/04/2026

Local LLM with Google Gemma: On-Device Inference Between Theory and Practice

Cet article explore la faisabilité et les défis de l'exécution de LLM localement sur smartphones, en utilisant Google Gemma et LiteRT-LM dans une application Flutter. Il se concentre sur les compromis en matière de format de modèle, de temps d'exécution et de performances pour l'inférence sur l'appareil, soulignant le passage de la question 'si cela peut être fait' à 'comment cela est fait'.

27
ARTICLEDEV.to AI·13/04/2026

Open-Sourcing Mano-P Today: Pure Vision GUI Agent, OSWorld #1, Apache 2.0

Mano-P, un agent GUI purement visuel, a été mis en open source sous la licence Apache 2.0, se distinguant par son interaction avec les écrans d'ordinateur uniquement via des captures d'écran. Il affiche des performances de pointe sur les benchmarks OSWorld et privilégie la confidentialité en s'exécutant sur l'appareil, servant de base pour l'IA personnalisée.

27
RESEARCHarXiv CS.CL·17/04/2026

HUOZIIME: An On-Device LLM-enhanced Input Method for Deep Personalization

HUOZIIME est une méthode de saisie (IME) innovante, améliorée par LLM, conçue pour les appareils mobiles, visant une personnalisation profonde et en temps réel. Il utilise un LLM de base post-entraîné et un mécanisme de mémoire hiérarchique pour capturer l'historique de l'utilisateur, assurant un fonctionnement efficace et privé sous les contraintes mobiles.

27
ARTICLEDEV.to AI·13/04/2026

Gemma 4 and the Architecture of On-Device AI

L'annonce de Gemma 4 par Google signale un changement architectural fondamental vers l'IA embarquée, priorisant le calcul distribué et local plutôt que l'inférence centralisée dans le cloud. Cela inverse l'approche traditionnelle de mise à l'échelle des modèles, en se concentrant désormais sur les contraintes d'efficacité des appareils grand public comme les smartphones.

27
ARTICLEDEV.to AI·il y a 18j

AI MAX & Intel: Local LLMs Change Everything

La révolution de l'IA personnelle est en marche, permettant l'exécution de grands modèles de langage (LLMs) directement sur des ordinateurs personnels, éliminant le besoin du cloud. Ce changement offre une confidentialité inégalée, un contrôle accru et une capacité hors ligne, redéfinissant fondamentalement l'interaction avec l'intelligence artificielle.

27
ARTICLEDEV.to AI·08/05/2026

AI Is Escaping The Browser | The Gemma 4 Edition

L'article explore la transition de l'IA, qui résidait principalement dans les navigateurs et le cloud, vers un déploiement sur du matériel ordinaire. Ce changement, illustré par des modèles comme Gemma 4, est présenté comme un développement plus significatif que la simple course aux performances.

27
RESEARCHDEV.to AI·08/05/2026

Micro LM delivers large‑model quality on device

Une nouvelle étude présente les Micro Language Models (μLMs), des modèles ultra-compacts (8M–30M paramètres) qui offrent la qualité des grands modèles sur les appareils. Cette approche résout le dilemme entre des premiers mots réactifs et des réponses complètes pour les assistants de périphérie, en amorçant les réponses localement et en réduisant la latence des modèles cloud.

27
RESEARCHarXiv CS.LG·28/04/2026

Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation

Cette recherche remet en question l'hypothèse selon laquelle la PEFT équivaut à l'efficacité de la mémoire pour les LLM sur appareil, montrant que les méthodes existantes peuvent toujours provoquer des erreurs de mémoire insuffisante. Elle introduit LARS, un nouveau cadre qui découple la consommation de mémoire de la longueur de séquence en contraignant le sous-espace d'activation, réduisant l'empreinte mémoire de 33,54% en moyenne.

27
ARTICLEDEV.to AI·18/04/2026

How I built a Zero-Upload AI Workspace in the browser using WebGPU

PrivaKit est un espace de travail IA basé sur le navigateur pour les données sensibles, effectuant toutes les inférences (OCR, transcription, traitement d'images) directement sur l'appareil via WebGPU/WASM. Il garantit la confidentialité en évitant le téléchargement de documents confidentiels vers des API cloud tierces, destiné aux professionnels du RH, juridique et finance.

27
DOCDEV.to AI·25/04/2026

Tian AI Knowledge Base: Million Entries on Your Phone

Tian AI a développé une base de connaissances locale de millions d'entrées, stockée dans un seul fichier SQLite et interrogeable en millisecondes, pour augmenter les LLM plus petits sur les téléphones. Ce système utilise un KnowledgeRetriever pour répondre directement aux requêtes ou injecter un contexte pertinent dans l'invite du LLM pour des réponses augmentées.

27