← heapsort-ai

efficiency

106 items

DOCHugging Face (YouTube)·il y a 11h

Build Small with OpenBMB

Le titre "Build Small with OpenBMB" suggère un contenu lié au développement de modèles d'IA compacts ou efficaces à l'aide du framework OpenBMB. Il aborde probablement des méthodes ou des outils pour créer des solutions d'IA plus petites et plus gérables.

Build Small with OpenBMB
59
ARTICLE↑ trendingHacker News (AI)·il y a 6j

Lean Inference: Lean Manufacturing Principles Applied to AI

Cet article explore l'application des principes du Lean Manufacturing à l'inférence d'IA, visant à optimiser l'efficacité et à réduire le gaspillage dans les flux de travail d'intelligence artificielle. Il détaille comment les méthodologies lean peuvent être utilisées pour améliorer les performances et la durabilité des systèmes d'IA.

44
RESEARCH↑ trendingReddit r/LocalLLaMA·07/05/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant est une nouvelle technique qui utilise la quantification par rotation par paires pour améliorer significativement l'efficacité de l'inférence des Grands Modèles Linguistiques (LLM). Cette méthode cible spécifiquement les LLM de raisonnement, permettant un déploiement plus économique et rapide en réduisant les exigences de calcul et de mémoire.

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
42
RESEARCH↑ trendingReddit r/MachineLearning·06/05/2026

Transformers with Selective Access to Early Representations [R]

L'article présente SATFormer, une nouvelle variante de Transformer qui améliore l'efficacité en permettant aux "heads" de réaccéder sélectivement aux représentations précoces au lieu de les copier uniformément. Ce mécanisme de "gating" dépendant du contexte optimise la réutilisation de l'information, offrant un meilleur compromis efficacité-performance.

Transformers with Selective Access to Early Representations [R]
42
RESEARCHarXiv CS.AI·17/04/2026

Mistake gating leads to energy and memory efficient continual learning

Cette recherche propose l'« apprentissage à porte d'erreur mémorisée », une règle de plasticité biologiquement plausible qui ne met à jour les synapses qu'en cas d'erreurs de classification. Cette méthode réduit le nombre de mises à jour du réseau de 50% à 80%, améliorant l'efficacité énergétique et de la mémoire dans les scénarios d'apprentissage continu et en ligne.

35
RESEARCHarXiv CS.LG·20/04/2026

Aletheia: Gradient-Guided Layer Selection for Efficient LoRA Fine-Tuning Across Architectures

Aletheia propose une méthode de sélection de couches guidée par le gradient pour l'ajustement fin de LoRA, ciblant les couches les plus pertinentes pour la tâche avec une allocation de rang asymétrique. Cette approche permet une accélération de l'entraînement de 15 à 28 % sur diverses architectures de modèles de langage, tout en conservant les performances.

32
RESEARCHarXiv CS.AI·il y a 4j

What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems

Cet article analyse les stratégies de communication inter-agents dans les systèmes multi-agents basés sur les LLMs, constatant que le langage naturel non contraint peut augmenter l'utilisation des tokens et affecter les performances. Il propose PACT (Protocolized Action-state Communication and Transmission), une méthode pour optimiser la communication en projetant les sorties brutes des agents dans des enregistrements d'état-action compacts.

28
RESEARCHarXiv CS.CL·04/05/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Cette recherche explore des méthodes efficaces pour évaluer les grands modèles audio (LAMs) en utilisant des sous-ensembles de données minimaux, atteignant une corrélation élevée avec les benchmarks complets. Elle montre également que les modèles de régression entraînés sur ces sous-ensembles peuvent mieux prédire les préférences humaines pour la satisfaction des utilisateurs que les benchmarks complets.

28
RESEARCHarXiv CS.LG·23/04/2026

WorkflowGen:an adaptive workflow generation mechanism driven by trajectory experience

WorkflowGen s'attaque à la surcharge et à l'instabilité des agents LLM dans les tâches complexes en proposant un cadre adaptatif de génération de flux de travail, axé sur l'expérience de trajectoire. Il capture des trajectoires d'exécution complètes pour extraire des connaissances réutilisables et effectue une génération légère sur les nœuds variables, réduisant considérablement l'utilisation des tokens et améliorant l'efficacité.

28
DOCDEV.to AI·09/05/2026

Automating Film Festival Feedback with AI

Ce contenu décrit une méthode permettant aux festivals de cinéma d'automatiser 90% de leur processus de feedback en utilisant l'IA, en réservant 10% pour la curation humaine afin de maintenir une communication personnalisée. Il détaille les étapes pour structurer les données et utiliser des assistants IA pour transformer les scores de la grille en retours narratifs constructifs et non robotiques pour les cinéastes.

28