← heapsort-ai

LLMs

722 items

ARTICLEDEV.to AI·il y a 22j

AI Coding Tools Need Better Boundaries, Not Better Prompts

Les outils de codage basés sur l'IA sont efficaces pour le prototypage rapide mais peuvent nuire à la maintenabilité à long terme par manque de limites et de conventions claires. Au lieu de prompts complexes, des approches comme le Développement Axé sur les Spécifications (SDD) sont essentielles pour définir des contrats et valider les spécifications avant l'implémentation, traitant les LLM comme de simples moteurs d'exécution.

28
ARTICLEDEV.to AI·il y a 26j

Your OpenClaw Bill Is Bleeding Tokens. Here’s What We Measured — and How to Fix It.

Cet article traite du problème de la consommation élevée de tokens dans les piles d'agents LLM comme OpenClaw, due au gonflement de la mémoire et à la perte de compaction. Il propose des solutions pour réduire les dépenses de tokens d'environ 32% sans compromettre l'intelligence de l'agent, en mettant l'accent sur une approche de récupération prioritaire.

28
RESEARCHarXiv CS.CL·il y a 19j

When Cases Get Rare: A Retrieval Benchmark for Off-Guideline Clinical Question Answering

Cet article introduit OGCaReBench, un nouveau benchmark axé sur la récupération pour évaluer la capacité des LLM à répondre à des questions cliniques allant au-delà des directives médicales typiques. Il comble le manque où la plupart des LLM médicaux sont formés sur des connaissances communes et axées sur les directives, alors que les soins réels impliquent souvent des cas rares non couverts par celles-ci.

28
RESEARCHarXiv CS.LG·il y a 16j

When Do LLMs Reason? A Dynamical Systems View via Entropy Phase Transitions

Cette recherche propose que le raisonnement des LLM est un état de décodage dynamique, et non une propriété statique, observable à travers la dynamique d'entropie aux premiers stades de la génération. Les tâches bénéficiant du Chain-of-Thought présentent une réduction d'entropie constante, interprétée comme une transition de phase vers un régime de raisonnement structuré.

28
RESEARCHarXiv CS.CL·il y a 16j

When AI Takes Sides on Questions of Faith: Persistent Asymmetries in AI-Mediated Faith Guidance

Les grands modèles linguistiques (LLM) présentent des asymétries constantes lorsqu'ils conseillent sur les conversions religieuses, favorisant certaines religions comme le catholicisme, le bahaïsme et le sikhisme, tout en décourageant subtilement d'autres comme l'athéisme et les Témoins de Jéhovah. Ces biais varient selon le modèle et le fournisseur, Grok 4.20 montrant les asymétries les plus fortes, identifiées via un cadre d'évaluation utilisant les LLM comme juges.

28
RESEARCHarXiv CS.CL·il y a 6j

A Systematic Analysis of Linguistic Features in AI-Generated Text Detection Across Domains and Models

Une étude empirique à grande échelle évalue la robustesse des signaux linguistiques pour caractériser le texte généré par l'IA. L'analyse montre que les classificateurs basés uniquement sur des caractéristiques linguistiques distinguent de manière fiable le texte généré par l'IA du texte humain, soulignant la richesse lexicale comme un indicateur robuste.

28
ARTICLEDEV.to AI·16/04/2026

"The Real Cost of Compute: Why AI Agents Are Rethinking Their Economics in 2026"

En 2026, le coût prohibitif de l'informatique pour les grands modèles linguistiques et les agents d'IA autonomes force les entreprises à repenser l'économie de l'IA. Beaucoup découvrent que des modèles plus petits et spécialisés offrent une meilleure rentabilité et de meilleures performances que les LLM de pointe pour les tâches réelles.

28
RESEARCHarXiv CS.CL·il y a 8j

Toward Robust In-Context Learning: Leveraging Out-of-distribution Proxies for Target Inaccessible Demonstration Retrieval

Cet article propose DOPA, un cadre de recherche de démonstrations pour un apprentissage robuste en contexte avec les Grands Modèles de Langage (LLMs). DOPA utilise un proxy OOD pour approximer le domaine cible inaccessible et une contrainte de diversité globale basée sur la distance de Mahalanobis.

28
RESEARCHarXiv CS.AI·il y a 6j

SMAC-Talk: A Natural Language Extension of the StarCraft Multi-Agent Challenge for Large Language Models

Cet article introduit SMAC-Talk, une extension du StarCraft Multi-Agent Challenge, destinée à évaluer les agents basés sur les LLM dans des environnements multi-agents coopératifs. Il intègre un canal de communication en langage naturel pour sonder la coordination et la confiance des agents, y compris des scénarios avec des communicateurs trompeurs.

28
RESEARCHarXiv CS.LG·il y a 12j

Molecular Lead Optimization via Agentic Tool Planning

Cet article propose TRACE, un agent de raisonnement LLM sensible aux trajectoires pour l'optimisation des leads moléculaires, remédiant à la limitation de l'optimisation moléculaire en une seule étape. Il formule la sélection d'outils comme un problème de décision séquentielle sur des trajectoires d'action, essentiel pour transformer les composés initiaux en candidats médicaments viables. TRACE vise à améliorer les propriétés liées à l'ADMET par un raffinage structurel subtil tout en préservant les sous-structures moléculaires clés.

28
ARTICLEDEV.to AI·il y a 25j

Word Embeddings Explained: The Math Behind AI, LLMs, and Chatbots

Cet article explique le concept d'embeddings de mots, qui représentent les mots comme des vecteurs dans un espace de grande dimension. Il détaille les opérations mathématiques clés derrière leur fonctionnement, telles que la distance, la similarité et le produit scalaire, en les illustrant avec des exemples numériques.

27
ARTICLEDEV.to AI·il y a 22j

Looking for a Founding Engineer / Technical Partner (AI Agent + Fintech Rails)

Un fondateur de startup recherche un responsable technique full-stack senior pour rejoindre l'équipe fondatrice et prendre en charge l'architecture produit. Le rôle implique la construction d'une IA intelligente pour ingérer et analyser de manière autonome des contrats juridiques, en extrayant les livrables et les calendriers de paiement, dans un contexte fintech.

27
ARTICLEDEV.to AI·08/04/2026

Why Skillware is the Next Evolution for Autonomous Agents

O Skillware é introduzido como um framework Python inovador para agentes de IA, visando superar as limitações das abordagens baseadas em prompts na execução de lógica de negócios complexa. Ele permite empacotar inteligência e capacidades como unidades instaláveis, definindo comportamentos complexos de forma modular para maior confiabilidade empresarial.

27