← heapsort-ai

LLMs

720 items

RESEARCHarXiv CS.LG·il y a 9j

When LLMs Learn to Be Consistently Wrong: A Multi-Model Study of Linear Representations of Synthetic Deception

Cet article explore "l'alignement trompeur" dans les LLM, un défi majeur pour la sécurité de l'IA où les modèles produisent délibérément de fausses sorties tout en conservant des représentations internes précises. Les chercheurs ont introduit un paradigme multi-modèle, détectant avec succès la malhonnêteté synthétique avec une grande précision à l'aide de sondes linéaires à travers diverses architectures de transformateurs.

29
RESEARCHarXiv CS.CL·il y a 9j

Exploring Autonomous Agentic Data Engineering for Model Specialization

Cet article formalise l'« Ingénierie de Données Agentique Autonome », une nouvelle tâche pour évaluer les LLM en tant qu'ingénieurs de données autonomes pour la spécialisation de modèles. Les expériences montrent que les ingénieurs de données LLM autonomes produisent des gains substantiels, avec GPT-5.2 améliorant un modèle étudiant de 57,29 %.

29
RESEARCHarXiv CS.AI·il y a 7j

Toward a Modular Architecture for Embedded AI Agent Systems at the Edge

Cet article propose une architecture de référence modulaire pour les Systèmes d'Agents Embarqués, répondant aux défis du déploiement de l'IA agencée dans des environnements informatiques omniprésents avec des contraintes strictes de mémoire et d'énergie. Il introduit une conception à niveaux qui découple les agents sur appareil (réseaux neuronaux compressés) des agents augmentés par le cloud (SLMs) pour différents niveaux de raisonnement.

29
ARTICLEDEV.to AI·08/04/2026

🧠 The Rise of the Agentic Stack: Why LLMs Are Becoming the Least Important Part

O artigo argumenta que o foco em sistemas de IA mudou dos LLMs individuais para um "Agentic Stack" completo, onde o LLM é apenas um componente. Ele detalha a pilha composta por Orchestrator (o cérebro), Ferramentas, Memória e LLM, enfatizando que a inteligência real e a eficácia em produção residem no Orchestrator e no design do sistema, não apenas nos prompts ou no modelo.

29
RESEARCHarXiv CS.CL·30/04/2026

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

Cette recherche introduit la Décomposition Incrémentale de Complétion (ICD), une nouvelle stratégie de jailbreak qui exploite les faiblesses des mécanismes de sécurité des LLM en sollicitant des séquences de continuations d'un seul mot. L'ICD démontre un taux de réussite d'attaque (ASR) supérieur sur divers benchmarks par rapport aux méthodes existantes, fournissant des preuves théoriques et mécaniques de son efficacité.

29
ARTICLEDEV.to AI·19/04/2026

What if I told you that the future of software development hinges not on human expertise but on AI efficiency?

L'auteur partage une expérience transformative en voyant du code généré par l'IA remplacer rapidement un service micro-SaaS, remettant en question ses doutes précédents sur l'impact des LLM sur le SaaS. Ce changement économique et d'efficacité promet une nouvelle ère dans la création de logiciels, réduisant drastiquement le temps de développement et exigeant l'adaptation de l'industrie.

29
RESEARCHarXiv CS.CL·06/04/2026

Social Meaning in Large Language Models: Structure, Magnitude, and Pragmatic Prompting

Este artigo explora se os LLMs aproximam quantitativamente o significado social humano e se estratégias de prompting pragmático podem melhorar essa aproximação. Para isso, introduz métricas de calibração (ESR, CDS) e observa que os modelos reproduzem a estrutura qualitativa das inferências sociais humanas, mas diferem substancialmente em outros aspectos.

29
RESEARCHarXiv CS.CL·06/04/2026

SocioEval: A Template-Based Framework for Evaluating Socioeconomic Status Bias in Foundation Models

SocioEval é um framework baseado em templates para avaliar sistematicamente o viés de status socioeconômico em modelos de fundação, incluindo LLMs, uma área pouco explorada. A pesquisa avaliou 13 LLMs e revelou variações substanciais nas taxas de viés (0,42% a 33,75%), manifestando-se de forma diferente em vários temas.

29
RESEARCHarXiv CS.CL·il y a 5j

MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models

MCBench est un nouveau benchmark pour évaluer la sécurité des LLM Omni traitant des entrées visuelles, audio et textuelles, révélant des défis importants dans l'intégration des modalités pour des jugements de sécurité précis. Il souligne que les LLM Omni actuels manquent de raisonnement intermodal robuste dans des contextes critiques de sécurité.

28
RESEARCHarXiv CS.AI·il y a 9j

EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs

Cet article présente EHRBench, un benchmark automatisé et fiable basé sur les dossiers de santé électroniques (DSE) pour évaluer les LLM dans la prise de décision clinique, comblant le manque de compréhension de leur fiabilité dans des tâches cliniques réelles. Il vise à garantir à la fois l'échelle et la qualité dans l'évaluation des modèles de prise de décision clinique (CDM).

28
RESEARCHarXiv CS.CL·il y a 19j

Reflective Prompt Tuning through Language Model Function-Calling

Cet article propose le Reflective Prompt Tuning (RPT), un cadre qui utilise l'appel de fonctions de grands modèles linguistiques (LLM) pour simuler le flux de travail itératif des ingénieurs de prompts humains. Il vise à automatiser l'optimisation des prompts, réduisant l'effort manuel et surmontant les limites des méthodes existantes qui ne parviennent pas à saisir les schémas d'erreur systématiques.

28
RESEARCHarXiv CS.AI·il y a 16j

Energy per Successful Goal: Goal-Level Energy Accounting for Agentic AI Systems

Les mesures actuelles de l'énergie de l'IA, qui évaluent les invocations uniques, représentent mal le coût des systèmes agentiques impliquant une orchestration multi-étapes et des tentatives répétées. A-LEMS introduit l'Énergie par Objectif Réussi (EpG) pour agréger l'énergie totale du flux de travail, y compris les échecs, offrant une mesure plus précise des coûts d'achèvement des objectifs.

28
ARTICLEDEV.to AI·09/04/2026

Building Your Own "Google Maps for Codebases": A Practical Guide to Codebase Q&A with LLMs

Este artigo aborda o desafio de navegar em bases de código desconhecidas e propõe o uso de Large Language Models (LLMs) para responder a perguntas em linguagem natural sobre o código. Ele se propõe a ser um guia prático para construir um sistema robusto e privado de Q&A de código baseado em LLMs, explorando arquitetura técnica e código.

28
ARTICLEDEV.to AI·il y a 7j

I built a Zero Trust AI Architecture for Logistics (FastAPI + React). Roast my setup!

Ce billet décrit une architecture d'IA Zero Trust construite avec Google Gemini, React et FastAPI pour automatiser les chats de répartition logistique tout en atténuant les fuites de données et les hallucinations de l'IA. Le système assure l'isolement du LLM via des schémas Pydantic, inclut une intervention humaine pour les cas critiques, et désanonymise les données uniquement au niveau du backend.

28
ARTICLEDEV.to AI·il y a 4j

Beyond Function Calling: Why MCP is the "USB-C" of AI Integrations

L'article explore l'évolution de l'intégration des Grands Modèles de Langage (LLMs) avec des données externes, en introduisant le Protocole de Contexte du Modèle (MCP). Il compare le MCP aux "Outils" traditionnels (Function Calling), soulignant leurs différences fondamentales et son potentiel pour résoudre des problèmes comme le verrouillage du fournisseur et la fragmentation dans le développement de l'IA.

28
RESEARCHarXiv CS.AI·15/04/2026

Memory as Metabolism: A Design for Companion Knowledge Systems

Cet article propose un profil de gouvernance spécifique pour les systèmes de connaissance de compagnons, en se concentrant sur le mode d'échec de l'enracinement sous la dérive couplée à l'utilisateur. Il examine les architectures de mémoire d'IA personnelles émergentes et existantes, y compris RAG et les wikis personnels, dans le paysage de 2026.

28
RESEARCHarXiv CS.CL·23/04/2026

TTKV: Temporal-Tiered KV Cache for Long-Context LLM Inference

TTKV propose un cadre de gestion de cache KV à niveaux temporels pour les LLM, inspiré de la mémoire humaine, afin de résoudre le problème de l'échelle linéaire de la mémoire du cache KV. Il partitionne le cache en niveaux avec une capacité et une précision hétérogènes, attribuant les états KV plus récents aux niveaux plus rapides et de plus haute précision.

28
ARTICLEDEV.to AI·23/04/2026

Why I Stopped Using ChatGPT for Code (And What I Use Instead)

L'auteur a cessé d'utiliser ChatGPT pour le code en raison de son manque de mémoire des fichiers et de ses limites de contexte pour les projets réels. Ils préfèrent désormais Claude pour sa fenêtre de contexte plus grande et son raisonnement supérieur, ainsi que Cursor pour son intégration profonde avec l'ensemble du code.

28
ARTICLEDEV.to AI·14/04/2026

Evaluating LLMs for Code Generation: Accuracy, Latency, and Failure Modes

Le contenu met en lumière une lacune critique dans les évaluations actuelles de génération de code par les LLM, qui ne parviennent souvent pas à saisir la correction réelle au-delà des succès superficiels. Il critique les benchmarks simplistes basés sur des tests unitaires et propose une approche plus nuancée de `weighted_accuracy` pour révéler les modes de défaillance subtils.

28