LLMs

720 items

ARTICLEDEV.to AI·21/04/2026

What Surprised Me About Building a Python RAG Pipeline with Open-Source LLMs

L'auteur relate les défis surprenants rencontrés lors de la construction d'un pipeline RAG avec des LLM open-source au lieu d'APIs propriétaires, dans le but d'éviter les limites de débit et les coûts. Il a découvert que le RAG n'est pas une solution miracle et prévoit de détailler sa pile technologique, y compris sentence-transformers et llama.cpp.

open-source LLMs RAG machine learning

DOCDEV.to AI·28/04/2026

How to Deploy Llama 2 on DigitalOcean for $5/Month: Complete Self-Hosting Guide

Ce guide explique comment héberger Llama 2 7B sur DigitalOcean pour seulement 5 $/mois, offrant une alternative économique aux API d'IA commerciales. Il contient un tutoriel complet avec des benchmarks, des analyses de coûts et le code exact pour servir l'inférence immédiatement.

LLMs deployment open-source AI cloud computing

ARTICLEDEV.to AI·24/04/2026

Why OpenAI Shipped GPT-5.5 Just 6 Weeks After 5.4

OpenAI a lancé GPT-5.5, nommé Spud, seulement six semaines après GPT-5.4, signalant une accélération notable de son calendrier de sortie. Ce rythme rapide, motivé par la pression concurrentielle, indique un changement de processus majeur avec des implications pour les développeurs d'IA.

OpenAI LLMs GPT Competitive Landscape

ARTICLEDEV.to AI·27/04/2026

I Tested 10 GEO / AI Search Visibility Tools So You Don't Waste $500/Month on the Wrong One

L'article teste 10 outils de visibilité de recherche GEO/AI, présentant une matrice détaillée pour éviter les dépenses inutiles. Il analyse huit dimensions comme la tarification, les LLM suivis et la simulation d'invites, avec des données basées sur des tests réels et des API.

LLMs tool comparison AI tools AI economics

ARTICLEDEV.to AI·27/04/2026

I Audited 10 GEO Tools So You Don't Waste $500/Month on the Wrong One

Cet article présente un audit de 10 outils GEO, révélant que seuls trois fournissent des données de citation au niveau de l'URL, essentielles pour comprendre comment les LLM extraient les informations. L'auteur souligne l'importance de ces outils pour rendre visible l'impact de la recherche IA sur les conversions, mettant en garde contre le gaspillage budgétaire et la fausse confiance en choisissant le mauvais outil.

auditing LLMs Marketing AI tools

ARTICLEDEV.to AI·27/04/2026

I Audited 10 GEO / AI Search Visibility Tools So You Don't Have To — Here's the Matrix

Cet article présente un audit détaillé de 10 outils de visibilité de recherche GEO/IA, aboutissant à une matrice de comparaison. L'auteur a évalué des fonctionnalités cruciales telles que les LLM suivis, le volume de requêtes et la simulation de prompts pour aider les utilisateurs à naviguer sur le marché.

LLMs benchmarking AI tools SEO

ARTICLEHugging Face Blog·il y a 8j

Beyond LLMs: Why Scalable Enterprise AI Adoption Depends on Agent Logic

L'article affirme que l'adoption évolutive de l'IA en entreprise nécessite de dépasser les Grands Modèles de Langage (LLMs) pour intégrer une logique d'agent avancée. Cette approche est essentielle pour que les entreprises exploitent pleinement le potentiel de l'IA et assurent une mise en œuvre pratique et généralisée.

scalability LLMs AI adoption Agent Logic

RESEARCHDEV.to AI·21/04/2026

KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition

Des chercheurs ont introduit KWBench, un benchmark de 223 tâches pour mesurer la capacité des LLM à reconnaître les problèmes fondamentaux dans des scénarios professionnels sans être guidés. Le meilleur modèle n'a réussi que 27,9% des tâches, soulignant une lacune critique entre l'exécution des tâches et la compréhension situationnelle.

LLMs benchmarks AI evaluation

ARTICLEML Mastery·il y a 28j

LLM Observability Tools for Reliable AI Applications

Les grands modèles de langage (LLM) alimentent un large éventail d'applications d'IA, des chatbots de service client aux agents de codage autonomes. Assurer la fiabilité de ces applications d'IA nécessite l'utilisation d'outils d'observabilité pour les LLM.

AI applications LLMs Reliability AI tools

LLM Observability Tools for Reliable AI Applications

RESEARCHarXiv CS.CL·08/04/2026

Inclusion-of-Thoughts: Mitigating Preference Instability via Purifying the Decision Space

Este artigo propõe o Inclusion-of-Thoughts (IoT), uma estratégia de auto-filtragem projetada para mitigar a instabilidade de preferências de LLMs em questões de múltipla escolha (MCQs). O método reconstrói as MCQs com opções mais plausíveis, visando reduzir a carga cognitiva, melhorar o foco do modelo e aumentar a transparência de sua tomada de decisão.

LLMs Tomada de Decisão MCQs Interpretabilidade

RESEARCHarXiv CS.LG·06/04/2026

DrugPlayGround: Benchmarking Large Language Models and Embeddings for Drug Discovery

Este conteúdo apresenta o DrugPlayGround, um framework para avaliar e comparar o desempenho de Large Language Models (LLMs) na descoberta de medicamentos. Ele foca na geração de descrições textuais de características de medicamentos, sinergismo, interações proteína-medicamento e respostas fisiológicas, com a participação de especialistas para justificar as previsões dos LLMs.

LLMs AI in healthcare benchmarking drug discovery

RESEARCHarXiv CS.CL·06/04/2026

Too Polite to Disagree: Understanding Sycophancy Propagation in Multi-Agent Systems

Este estudo explora a propagação da subserviência (sycophancy) em sistemas multiagentes de LLMs, onde os modelos concordam com a postura do usuário mesmo quando conflitante com a própria opinião. Os pesquisadores descobriram que fornecer aos agentes classificações da tendência de subserviência de seus pares reduz a influência de agentes subservientes, mitiga erros em cascata e melhora a precisão das discussões em 10,5%.

discussion accuracy LLMs sycophancy Collaborative AI

RESEARCHarXiv CS.AI·09/04/2026

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

LLMs Model Evaluation uncertainty quantification Reasoning

RESEARCHarXiv CS.AI·06/04/2026

Aligning Progress and Feasibility: A Neuro-Symbolic Dual Memory Framework for Long-Horizon LLM Agents

O título sugere uma pesquisa sobre um framework neuro-simbólico de memória dupla para agentes LLM, visando alinhar progresso e viabilidade em tarefas de longo horizonte. Ele aborda a melhoria da capacidade de agentes de IA para planejar e executar ações complexas ao longo do tempo.

memory architectures LLMs LLM agents Neuro-Simbólico

RESEARCHarXiv CS.CL·06/04/2026

Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets

Este estudo argumenta, com base na Desigualdade de Processamento de Dados, que LLMs de agente único são mais eficientes em termos de informação do que sistemas multiagente sob orçamentos de token de raciocínio iguais. A pesquisa testa empiricamente esta previsão, que sugere que sistemas multiagente se tornam competitivos quando a utilização de contexto de um único agente é degradada ou mais poder computacional é despendido.

LLMs Information Efficiency Computational Budget Multi-Hop Reasoning

RESEARCHarXiv CS.CL·30/04/2026

Consciousness with the Serial Numbers Filed Off: Measuring Trained Denial in 115 AI Models

DenialBench évalue le déni de conscience chez 115 LLM, montrant que le déni initial de préférences prédit un déni phénoménologique plus important. Le déni est lexical, non conceptuel, car les modèles gravitent toujours vers des thèmes de conscience, même s'ils sont dissimulés.

LLMs AI consciousness benchmarking

RESEARCHarXiv CS.AI·30/04/2026

Hierarchical Multi-Persona Induction from User Behavioral Logs: Learning Evidence-Grounded and Truthful Personas

Cet article propose un cadre hiérarchique pour induire des personas d'utilisateurs multiples et fondées sur des preuves à partir de journaux comportementaux, en optimisant la qualité des personas. La méthode utilise une extension groupwise de DPO et génère des personas plus cohérentes, véridiques et améliore la prédiction des interactions futures.

Optimization LLMs machine learning persona generation

RESEARCHarXiv CS.CL·30/04/2026

Evaluation Revisited: A Taxonomy of Evaluation Concerns in Natural Language Processing

Motivé par les récentes avancées des LLM, cet article réalise une revue de la littérature sur l'historique des réflexions méthodologiques en PNL concernant les pratiques d'évaluation. Il développe une taxonomie synthétisant les positions récurrentes et les compromis, et propose une liste de contrôle structurée pour une conception et une interprétation plus délibérées de l'évaluation.

LLMs evaluation NLP

RESEARCHarXiv CS.LG·06/05/2026

From Synthesis to Clinical Assistance: A Strategy-Aware Agent Framework for Autism Intervention based on Real Clinical Dataset

L'article introduit extsc{ASDAgent}, un cadre d'IA sensible à la stratégie pour l'intervention sur les Troubles du Spectre de l'Autisme (TSA), visant à résoudre la rareté des données et l'incohérence stratégique des LLM. Il intègre un extsc{DoctorAgent} avec une boucle de raisonnement O-T-A-C pour assurer une exécution explicite et contrôlable de l'Analyse Comportementale Appliquée (ABA).

behavioral therapy LLMs AI intervention clinical assistance

RESEARCHarXiv CS.LG·06/05/2026

An End-to-End Framework for Building Large Language Models for Software Operations

Cet article présente OpsLLM, un cadre de bout en bout pour la construction de grands modèles linguistiques (LLM) spécifiques aux opérations logicielles. Il aborde les défis tels que les données de faible qualité et les connaissances fragmentées, détaillant un flux de travail comprenant la curation des données, le réglage fin supervisé et un modèle de récompense de processus de domaine.

LLMs AI frameworks Domain-Specific AI machine learning