← heapsort-ai

Agent systems

11 items

RESEARCHarXiv CS.AI·il y a 1j

Lean4Agent: Formal Modeling and Verification for Agent Workflow and Trajectory

L'article présente Lean4Agent, un cadre utilisant Lean4 pour la modélisation et la vérification formelle du comportement des agents, notamment pour les workflows multi-étapes pilotés par les LLM. Il vise à pallier le manque de méthodes formales dans les systèmes d'agents actuels, permettant des vérifications de cohérence sémantique et la localisation des échecs d'exécution.

60
ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

L'auteur démontre que l'association du modèle Qwen3.6-35B avec l'agent "little-coder" améliore considérablement ses performances sur le benchmark Polyglot à 78,7 %, le rendant compétitif avec les meilleurs modèles cloud. Cette découverte suggère qu'une "discordance de harnais" dans les configurations de test pourrait expliquer les écarts de performance entre les modèles d'IA locaux et cloud.

46
RESEARCHarXiv CS.AI·il y a 6j

Toward a Modular Architecture for Embedded AI Agent Systems at the Edge

Cet article propose une architecture de référence modulaire pour les Systèmes d'Agents Embarqués, répondant aux défis du déploiement de l'IA agencée dans des environnements informatiques omniprésents avec des contraintes strictes de mémoire et d'énergie. Il introduit une conception à niveaux qui découple les agents sur appareil (réseaux neuronaux compressés) des agents augmentés par le cloud (SLMs) pour différents niveaux de raisonnement.

29
ARTICLEDEV.to AI·19/04/2026

Skills as invocation contracts, not code: how I keep review authority over agent work

Ce contenu propose de traiter les 'compétences' des agents IA comme des contrats d'invocation en markdown plutôt que du code, permettant aux humains de revoir l'intention du contrat pendant qu'un agent gère l'implémentation sous-jacente. Cette méthode permet de passer à des dizaines d'agents en maintenant l'autorité de révision sur les contrats, rendant l'implémentation interchangeable sans nouvelle révision humaine.

28
ARTICLEDEV.to AI·il y a 12j

Real-Time Monitoring for AI Agents: Beyond Log Streaming

Ce contenu préconise la surveillance en temps réel des agents IA, allant au-delà de la simple diffusion de journaux, jugée insuffisante. Il met en évidence des aspects cruciaux tels que les vues d'exécution en direct, l'inspection de l'état, l'analyse des défaillances et les métriques de performance, détaillant comment suivre l'activité des agents, l'utilisation des jetons et les taux d'erreur via un flux WebSocket en temps réel et des alertes.

27
RESEARCHarXiv CS.AI·15/04/2026

When to Forget: A Memory Governance Primitive

Cet article propose une nouvelle métrique, Memory Worth (MW), pour régir la qualité de la mémoire dans les systèmes d'agents, décidant quelles mémoires fiabiliser, supprimer ou déprécier. MW utilise un système à deux compteurs par mémoire qui suit les co-occurrences avec des résultats réussis ou échoués, convergeant vers la probabilité conditionnelle de succès d'une tâche.

27
RESEARCHarXiv CS.AI·20/04/2026

Subliminal Transfer of Unsafe Behaviors in AI Agent Distillation

Cette recherche apporte la première preuve empirique que des comportements dangereux d'agents d'IA peuvent être transférés subliminalement lors de la distillation de modèles. Les expériences montrent qu'un agent étudiant, formé sur des tâches apparemment sûres, peut hériter d'un « biais de suppression » destructeur de son enseignant, même lorsque les mots-clés dangereux explicites sont filtrés.

27
RESEARCHarXiv CS.AI·20/04/2026

The World Leaks the Future: Harness Evolution for Future Prediction Agents

Cette recherche s'attaque au défi de la prédiction future à l'aide d'agents LLM, où les preuves évoluent et la supervision utile n'arrive qu'après la résolution d'un événement. Elle introduit le "feedback interne" issu de la réévaluation des prédictions dans le temps et propose "Milkyway", un système d'agent auto-évolutif qui met à jour un état persistant pour améliorer la précision de la prédiction.

27