Optimization

134 items

RESEARCHarXiv CS.AI·il y a 1j

Accelerated Fourier SAT (AFSAT): Fully Realising a GPU-based Symmetric Pseudo-Boolean SAT Solver

Accelerated Fourier SAT (AFSAT) est un solveur accéléré par GPU pour la satisfiabilité pseudo-booléenne, basé sur la recherche locale continue. Il améliore considérablement la stabilité numérique, les performances d'exécution et l'efficacité de la mémoire par rapport à sa preuve de concept, en exploitant JAX pour le traitement parallèle et en résolvant les limitations de mémoire/point flottant.

SAT solver Computational logic GPU computing Optimization

RESEARCHarXiv CS.AI·il y a 1j

A Study of Parallel Continuous Local Search

Cette étude examine la Recherche Locale Continue Parallèle (CLS) comme solution aux problèmes de satisfiabilité booléenne avec des contraintes pseudo-booléennes symétriques. Elle révèle empiriquement que les contraintes redondantes peuvent entraver la convergence, que la CLS est prometteuse dans des configurations hybrides, et que la recherche locale converge rapidement vers une distribution stable de qualité de solution.

Optimization Boolean Satisfiability Local Search Parallel Computing

ARTICLEDEV.to AI·23/04/2026

Serving Infrastructure — Deep Dive + Problem: Softmax Function

L'infrastructure de service est cruciale pour déployer et gérer les grands modèles de langage (LLM) en production, assurant une livraison efficace et fiable des prédictions. Elle fait le lien entre le développement du modèle et son application réelle, influençant directement la performance, la scalabilité et la maintenabilité.

Scalability Optimization LLMs deployment

RESEARCHarXiv CS.AI·il y a 19h

Improving Multimodal Reasoning via Worst Dimension Optimization

Le raisonnement multimodal exige le maintien de l'intégrité à travers diverses contraintes, telles que l'ancrage visuel et la cohérence logique. Les modèles de récompense de processus actuels masquent souvent les défaillances de dimensions individuelles en pondérant les facteurs de manière égale, compromettant le processus de raisonnement global.

Optimization multimodal AI machine learning AI Reasoning

CASEAWS Machine Learning Blog·il y a 1j

Better decisions at scale: How mathematical optimization delivers where intuition fails

Ce billet présente l'optimisation mathématique, explique comment elle s'intègre dans le paysage plus large de l'IA et met en lumière des exemples de réussite concrets issus de partenariats clients. L'optimisation mathématique produit des résultats tangibles là où l'intuition échoue, permettant de meilleures décisions à grande échelle.

mathematical optimization Optimization Decision Making Innovation

ARTICLEDEV.to AI·23/04/2026

Stop Using sleep() in Your Agent Loops: Event-Driven AI Agent Scheduling

Cet article critique l'utilisation courante de `sleep()` dans les boucles d'agents IA, soulignant son coût en termes de budget API, de latence élevée et de masquage des échecs. Il préconise une planification basée sur les événements comme alternative supérieure pour optimiser les coûts et les performances à grande échelle.

Optimization performance developer tools scheduling

NEWS↑ trendingReddit r/LocalLLaMA·18/04/2026

Cloudflare open-sources lossless LLM compression tool

Cloudflare a lancé Unweight, un système de compression sans perte qui réduit la taille des LLM de 15 à 22 % sans sacrifier la précision de sortie. L'outil, qui économise environ 3 Go de VRAM sur les GPU Nvidia H100 pour Llama-3.1-8B, a été mis en open-source sur GitHub avec des plans pour étendre la compression.

Open Source Optimization GPU compression

ARTICLE↑ trendingHacker News (AI)·il y a 6j

Lean Inference: Lean Manufacturing Principles Applied to AI

Cet article explore l'application des principes du Lean Manufacturing à l'inférence d'IA, visant à optimiser l'efficacité et à réduire le gaspillage dans les flux de travail d'intelligence artificielle. Il détaille comment les méthodologies lean peuvent être utilisées pour améliorer les performances et la durabilité des systèmes d'IA.

MLOps Optimization Lean Manufacturing efficiency

ARTICLE↑ trendingReddit r/LocalLLaMA·07/05/2026

why llama.cpp can’t combine speculative decode methods?

Un utilisateur se demande pourquoi les méthodes de décodage spéculatif comme MTP et N-gram ne peuvent pas être combinées simultanément dans llama.cpp, notant que N-gram apporte des améliorations significatives pour le codage agentique. Il cherche à savoir s'il s'agit d'une limitation fondamentale ou d'implémentation, et découvre que d'autres ont posé la même question.

Optimization LLMs llama.cpp Qwen3.6

NEWS↑ trendingReddit r/LocalLLaMA·27/04/2026

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

Luce DFlash introduit un port GGUF du décodage spéculatif DFlash pour Qwen3.6-27B, atteignant près de 2x le débit sur une seule RTX 3090. Cette pile C++/CUDA autonome, disponible en tant que projet open-source sous licence MIT, améliore considérablement les performances des LLM sur du matériel grand public.

Open Source Optimization performance Speculative Decoding

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

Why dynamically routing multi-timescale advantages in PPO causes policy collapse (and a simple decoupled fix) [R]

Un chercheur étudiant en IA a découvert pourquoi la fusion d'avantages à plusieurs échelles de temps dans les architectures PPO Actor-Critic provoque l'effondrement de la politique. Cela est dû au «piratage» de l'objectif de substitution et à la préférence pour les horizons à court terme en raison d'une incertitude temporelle plus faible.

Optimization Actor-Critic reinforcement learning PPO

DOC↑ trendingReddit r/MachineLearning·il y a 27j

Built Support Vector Machine(SVM) from scratch in Rust [P]

Un développeur a construit un classifieur Support Vector Machine (SVM) à partir de zéro en Rust, intégrant l'optimisation SMO, les noyaux linéaire et RBF, et le réglage des hyperparamètres via la recherche par grille. Le SVM a été testé sur les ensembles de données d'authentification de billets de banque et de cancer du sein, obtenant des scores de précision élevés.

support-vector-machine Optimization machine learning Hyperparameters

RESEARCH↑ trendingReddit r/LocalLLaMA·07/05/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant est une nouvelle technique qui utilise la quantification par rotation par paires pour améliorer significativement l'efficacité de l'inférence des Grands Modèles Linguistiques (LLM). Cette méthode cible spécifiquement les LLM de raisonnement, permettant un déploiement plus économique et rapide en réduisant les exigences de calcul et de mémoire.

Optimization LLMs efficiency quantization

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ARTICLE↑ trendingReddit r/LocalLLaMA·30/04/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Cette mise à jour détaille l'exécution de Qwen3.6-27B sur une seule RTX 3090, atteignant un contexte de ~218K et des appels d'outils stables à 50-66 TPS. Un problème de mémoire critique avec de longues sorties d'outils a été résolu en corrigeant une dérive d'ancre dans un patch Genesis (PN12) pour vLLM.

Optimization hardware performance vLLM

ARTICLE↑ trendingReddit r/LocalLLaMA·23/04/2026

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

Le titre décrit une optimisation impressionnante pour le modèle Qwen3.6–27B, atteignant 85 TPS et 125K de contexte avec des capacités de vision sur une seule RTX 3090. Cela représente une prouesse technique significative pour le déploiement efficace des LLM.

Optimization multimodal AI GPU large language models

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

ARTICLE↑ trendingReddit r/LocalLLaMA·21/04/2026

Gemma 4 Vision

Le budget de vision par défaut de Gemma 4 est souvent trop faible pour une reconnaissance de détails efficace, entraînant de mauvaises performances en OCR. Les utilisateurs peuvent améliorer considérablement sa vision en configurant les paramètres de `llama.cpp` tels que `--image-min-tokens` et `--image-max-tokens` à des valeurs plus élevées, comme 560 et 2240.

Optimization Configuration computer vision Gemma

ARTICLEDEV.to AI·22/04/2026

Efficiency at Scale: Scaling, Scheduling, and Measuring Databricks SQL

Cet article se concentre sur l'optimisation de l'architecture Databricks SQL pour la durabilité et la rentabilité, en soulignant l'importance de choisir la bonne taille d'entrepôt et d'automatiser les charges de travail. Il fournit des directives pour différents besoins, des requêtes légères aux environnements de production à forte concurrence, et suggère l'utilisation de l'Auto-Stop pour éviter les coûts de calcul inactifs.

cost management Optimization Databricks cloud computing

DOC↑ trendingReddit r/MachineLearning·06/05/2026

Exploring Black‑Box Optimization [R]

Ce projet personnel en phase initiale explore les algorithmes d'optimisation en boîte noire, invitant la communauté à partager ses commentaires et suggestions. Les personnes intéressées peuvent consulter l'aperçu complet et explorer le dépôt pour plus de détails sur le projet.

Optimization machine learning Algorithms

ARTICLEDEV.to AI·18/04/2026

The Attention Economy Inside Your Agent

Ce contenu introduit le concept d'un budget d'attention fini pour les agents d'IA, au-delà de la fenêtre de contexte de jetons, soulignant comment ils décident ce qui mérite leur temps de traitement. Il soutient que les agents, comme les humains, développent des raccourcis heuristiques et se contentent de satisfaire, allouant l'attention de manière asymétrique, ce qui dicte leur succès ou leur échec en production.

Heuristics Optimization AI design AI agents

ARTICLEDEV.to AI·il y a 18j

How AI Allocation Engines Optimize Multi-Partner Delivery Networks

Les moteurs d'allocation d'IA optimisent les réseaux de livraison multi-partenaires en analysant en temps réel des variables telles que la disponibilité des livreurs, le trafic et la demande. Ils répartissent dynamiquement les livraisons, améliorant l'efficacité et l'évolutivité des opérations logistiques.

logistics Optimization delivery networks AI