LLMs

722 items

ARTICLEDEV.to AI·17/04/2026

I Run 14 AI Agents 24/7 on a 16GB MacBook — Here's What Broke First

L'auteur exécute 14 agents d'IA 24h/24 et 7j/7 sur un MacBook de 16 Go, remettant en question l'idée qu'un matériel puissant est nécessaire pour des charges de travail sérieuses. Ces agents, qui orchestrent une entreprise réelle, sont gérés par vagues avec seulement 1 à 3 en exécution simultanée pour maintenir un état persistant.

AI orchestration LLMs Local AI hardware

ARTICLEDEV.to AI·il y a 22j

AI Coding Tools Need Better Boundaries, Not Better Prompts

Les outils de codage basés sur l'IA sont efficaces pour le prototypage rapide mais peuvent nuire à la maintenabilité à long terme par manque de limites et de conventions claires. Au lieu de prompts complexes, des approches comme le Développement Axé sur les Spécifications (SDD) sont essentielles pour définir des contrats et valider les spécifications avant l'implémentation, traitant les LLM comme de simples moteurs d'exécution.

LLMs spec-driven development code generation software engineering

ARTICLEDEV.to AI·il y a 26j

Your OpenClaw Bill Is Bleeding Tokens. Here’s What We Measured — and How to Fix It.

Cet article traite du problème de la consommation élevée de tokens dans les piles d'agents LLM comme OpenClaw, due au gonflement de la mémoire et à la perte de compaction. Il propose des solutions pour réduire les dépenses de tokens d'environ 32% sans compromettre l'intelligence de l'agent, en mettant l'accent sur une approche de récupération prioritaire.

LLMs memory management cost reduction token optimization

ARTICLEDEV.to AI·02/05/2026

I Built a Benchmark for the Failures Generic LLM Evaluations Miss

L'auteur souligne que les benchmarks génériques des LLM ne parviennent pas à détecter les « échecs de jugement » cruciaux dans les flux de travail réels, tels que la surestimation ou la mauvaise gestion des prix. Il a conçu un nouveau benchmark pour mesurer spécifiquement ces erreurs comportementales complexes que les évaluations typiques manquent.

LLMs AI limitations benchmarking AI evaluation

RESEARCHarXiv CS.CL·07/04/2026

Self-Execution Simulation Improves Coding Models

Este trabalho demonstra que LLMs de código podem ser treinados para simular a execução de programas passo a passo, melhorando o desempenho em programação competitiva. A abordagem combina fine-tuning supervisionado e aprendizado por reforço, permitindo que os modelos realizem auto-verificação e correção iterativa.

LLMs reinforcement learning code generation program execution simulation

RESEARCHarXiv CS.CL·il y a 19j

When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering

Cet article introduit OGCaReBench, un nouveau benchmark axé sur la récupération pour évaluer la capacité des LLM à répondre à des questions cliniques allant au-delà des directives médicales typiques. Il comble le manque où la plupart des LLM médicaux sont formés sur des connaissances communes et axées sur les directives, alors que les soins réels impliquent souvent des cas rares non couverts par celles-ci.

LLMs benchmarking case reports medical AI

RESEARCHarXiv CS.LG·il y a 23j

Reducing the Safety Tax in LLM Safety Alignment with On-Policy Self-Distillation

Cet article présente l'auto-distillation on-policy (OPSA) pour réduire la "taxe de sécurité" dans l'alignement de sécurité des LLM. L'OPSA s'attaque au problème de déséquilibre de distribution de l'entraînement off-policy en faisant générer au modèle ses propres trajectoires et en recevant une supervision KL dense.

LLMs machine learning alignment AI safety

RESEARCHarXiv CS.LG·il y a 16j

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Cette recherche propose que le raisonnement des LLM est un état de décodage dynamique, et non une propriété statique, observable à travers la dynamique d'entropie aux premiers stades de la génération. Les tâches bénéficiant du Chain-of-Thought présentent une réduction d'entropie constante, interprétée comme une transition de phase vers un régime de raisonnement structuré.

AI models LLMs Chain-of-Thought Reasoning

RESEARCHarXiv CS.CL·il y a 16j

When AI Takes Sides on Questions of Faith: Persistent Asymmetries in AI-Mediated Faith Guidance

Les grands modèles linguistiques (LLM) présentent des asymétries constantes lorsqu'ils conseillent sur les conversions religieuses, favorisant certaines religions comme le catholicisme, le bahaïsme et le sikhisme, tout en décourageant subtilement d'autres comme l'athéisme et les Témoins de Jéhovah. Ces biais varient selon le modèle et le fournisseur, Grok 4.20 montrant les asymétries les plus fortes, identifiées via un cadre d'évaluation utilisant les LLM comme juges.

LLMs Religion faith AI ethics

RESEARCHarXiv CS.CL·il y a 6j

A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models

Une étude empirique à grande échelle évalue la robustesse des signaux linguistiques pour caractériser le texte généré par l'IA. L'analyse montre que les classificateurs basés uniquement sur des caractéristiques linguistiques distinguent de manière fiable le texte généré par l'IA du texte humain, soulignant la richesse lexicale comme un indicateur robuste.

robustness LLMs AI-generated text text detection

ARTICLEDEV.to AI·16/04/2026

"The Real Cost of Compute: Why AI Agents Are Rethinking Their Economics in 2026"

En 2026, le coût prohibitif de l'informatique pour les grands modèles linguistiques et les agents d'IA autonomes force les entreprises à repenser l'économie de l'IA. Beaucoup découvrent que des modèles plus petits et spécialisés offrent une meilleure rentabilité et de meilleures performances que les LLM de pointe pour les tâches réelles.

LLMs AI economics Enterprise AI compute costs

RESEARCHarXiv CS.CL·il y a 8j

Toward Robust In-Context Learning: Leveraging Out-of-distribution Proxies for Target Inaccessible Demonstration Retrieval

Cet article propose DOPA, un cadre de recherche de démonstrations pour un apprentissage robuste en contexte avec les Grands Modèles de Langage (LLMs). DOPA utilise un proxy OOD pour approximer le domaine cible inaccessible et une contrainte de diversité globale basée sur la distance de Mahalanobis.

LLMs learning machine learning in-context learning

RESEARCHarXiv CS.AI·il y a 6j

SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models

Cet article introduit SMAC-Talk, une extension du StarCraft Multi-Agent Challenge, destinée à évaluer les agents basés sur les LLM dans des environnements multi-agents coopératifs. Il intègre un canal de communication en langage naturel pour sonder la coordination et la confiance des agents, y compris des scénarios avec des communicateurs trompeurs.

LLMs Natural Language Processing StarCraft multi-agent systems

RESEARCHarXiv CS.LG·il y a 12j

Molecular Lead Optimization via Agentic Tool Planning

Cet article propose TRACE, un agent de raisonnement LLM sensible aux trajectoires pour l'optimisation des leads moléculaires, remédiant à la limitation de l'optimisation moléculaire en une seule étape. Il formule la sélection d'outils comme un problème de décision séquentielle sur des trajectoires d'action, essentiel pour transformer les composés initiaux en candidats médicaments viables. TRACE vise à améliorer les propriétés liées à l'ADMET par un raffinage structurel subtil tout en préservant les sous-structures moléculaires clés.

LLMs Molecular Optimization AI in chemistry drug discovery

ARTICLEDEV.to AI·il y a 25j

Word Embeddings Explained: The Math Behind AI, LLMs, and Chatbots

Cet article explique le concept d'embeddings de mots, qui représentent les mots comme des vecteurs dans un espace de grande dimension. Il détaille les opérations mathématiques clés derrière leur fonctionnement, telles que la distance, la similarité et le produit scalaire, en les illustrant avec des exemples numériques.

chatbots LLMs learning AI

ARTICLEDEV.to AI·il y a 22j

Looking for a Founding Engineer / Technical Partner (AI Agent + Fintech Rails)

Un fondateur de startup recherche un responsable technique full-stack senior pour rejoindre l'équipe fondatrice et prendre en charge l'architecture produit. Le rôle implique la construction d'une IA intelligente pour ingérer et analyser de manière autonome des contrats juridiques, en extrayant les livrables et les calendriers de paiement, dans un contexte fintech.

hiring LLMs FinTech Startup

ARTICLEDEV.to AI·08/05/2026

AI Slop Is a Commitment Problem

L'article explique comment le « AI slop », du contenu plausible généré sans effort par l'IA, nuit aux communautés en ligne. Il soutient que la capacité à générer rapidement de grands volumes de texte a sapé la valeur de l'effort comme indicateur de légitimité et de connaissance.

LLMs online-communities digital legitimacy content quality

ARTICLEDEV.to AI·08/04/2026

Why Skillware is the Next Evolution for Autonomous Agents

O Skillware é introduzido como um framework Python inovador para agentes de IA, visando superar as limitações das abordagens baseadas em prompts na execução de lógica de negócios complexa. Ele permite empacotar inteligência e capacidades como unidades instaláveis, definindo comportamentos complexos de forma modular para maior confiabilidade empresarial.

LLMs frameworks Python Enterprise AI

DOCDEV.to AI·il y a 28j

Build a Medical Chart Coding Pipeline with Daimon, Claude, and Neo4j

Daimon, un sidecar Go, simplifie le développement d'applications LLM en automatisant l'infrastructure, telle que les schémas JSON et l'intégration avec les bases de données vectorielles et graphiques. Il génère automatiquement des outils LLM à partir de la configuration, démontré par la construction d'un pipeline de codage de dossiers médicaux.

LLMs Claude application development Neo4j

ARTICLEDEV.to AI·18/04/2026

Why Our LLM-Powered Data Analytics Pipeline in R Broke Down at Scale

Cet article relate l'échec d'un pipeline d'analyse de données R alimenté par des LLM, qui fonctionnait parfaitement en preuve de concept mais s'est effondré à grande échelle. L'histoire vise à avertir et à éduquer sur les défis d'intégrer des modèles de langage dans les workflows de données R en production.

scalability LLMs R programming Production issues