LLMs

723 items

RESEARCHDEV.to AI·8/5/2026

Model Showdown Round 2: Adding Gemma, Kimi, and 579 GB of Stubborn Optimism

Este artículo presenta la "Ronda 2 del Enfrentamiento de Modelos", introduciendo nuevos modelos como Gemma 4 de Google y Kimi K2 de Moonshot AI, y reevaluando modelos anteriores con configuraciones corregidas. Los benchmarks actualizados revelaron cambios significativos en la clasificación, abordando problemas como límites de tokens e interpretación de comandos de la ronda inicial.

AI models inference LLMs benchmarking

DOCDEV.to AI·hace 13d

99. Build a Chatbot With Memory

Este contenido explica cómo construir un chatbot con memoria, superando la naturaleza sin estado de los LLMs. Detalla patrones como el historial de conversación, la memoria de ventana deslizante, la memoria de resumen y la memoria de entidad, incluyendo el uso de LangChain para construir un chatbot multi-turno y persistir la memoria entre sesiones.

LangChain LLMs learning memory

RESEARCHDEV.to AI·8/5/2026

Model Showdown: Benchmarking Local vs Cloud LLMs on a Real Coding Task

El artículo describe un benchmark que compara LLMs locales ejecutándose en hardware de consumidor (Ollama en RTX 5090) con modelos basados en la nube de Anthropic para una tarea de codificación real. El objetivo era determinar si los modelos locales podían producir código igual de correcto, rápido y completo para una aplicación CLI de tareas en Python con persistencia SQLite.

LLMs cloud computing benchmarking Local AI

DOCDEV.to AI·8/5/2026

Putting the GPU to Work: Running Local LLMs on a Home Lab

El contenido describe la instalación de Ollama y la ejecución de LLMs locales en una estación de trabajo utilizando GPUs, destacando la importancia de la VRAM. Detalla la integración de modelos locales con Coder Agents para tareas de codificación.

LLMs Ollama learning GPU

ARTICLEDEV.to AI·6/4/2026

AI Citation Registries as Information Infrastructure for AI Systems

O conteúdo aborda como sistemas de IA podem deturpar a fonte de informação, como a autoridade emissora de um aviso, ao processar fragmentos de texto e perder o contexto original. Isso ressalta a necessidade de "AI Citation Registries" para preservar atributos cruciais de jurisdição e autoria, garantindo a precisão e a integridade dos dados gerados.

source attribution LLMs data integrity Information Infrastructure

ARTICLEDEV.to AI·5/5/2026

Building Agent Memory: Episodic vs Semantic Stores

El texto aborda el concepto de "memoria del agente" en sistemas de IA, señalando el desafío de que los agentes retengan el contexto de sesiones anteriores debido a la reinicialización de los arrays de mensajes. Esto provoca problemas como que los agentes olviden las preferencias del usuario, aumentando los costos y la latencia al intentar compensar con prompts extensos.

memory systems LLMs AI agents

ARTICLEDEV.to AI·18/4/2026

Traditional Quantization vs 1.58-Bit Ternary Models: A Practical Comparison

El artículo compara la cuantificación tradicional (INT4/INT8) para LLMs locales con el enfoque emergente de cuantificación ternaria de 1.58 bits, como en BitNet b1.58. Resalta la simplicidad de los modelos ternarios, que usan solo -1, 0 o +1 para los pesos, contrastándolos con las técnicas estándar de cuantificación post-entrenamiento.

Model Compression LLMs AI optimization quantization

ARTICLEDEV.to AI·7/5/2026

Stop Burning API Credits While Building AI Apps: Run Local LLMs with Docker Model Runner

La creación de aplicaciones de IA a menudo conlleva altos costos de API durante el desarrollo y genera preocupaciones sobre la privacidad de los datos al usar LLMs en la nube. Docker Model Runner ofrece a los desarrolladores de JavaScript una solución para ejecutar modelos de IA localmente utilizando Docker, proporcionando APIs al estilo OpenAI familiar y mitigando estos problemas.

LLMs Docker Local AI API costs

DOCDEV.to AI·26/4/2026

I Built a 24/7 AI Agent System on a $6/Month VPS — Here's the Stack

El contenido detalla la construcción de un sistema de agente de IA autónomo 24/7 en un VPS de $6 al mes, utilizando OpenClaw, DeepSeek V4 Pro, Playwright y Docker. Esta configuración rentable realiza tareas como publicar en redes sociales y gestionar una tienda de productos digitales, afirmando ser 5 veces más económica que otras opciones.

LLMs DIY AI automation Cost Efficiency

ARTICLEDEV.to AI·2/5/2026

Engineering the Modern Turing Test: Building BotSpot

El contenido describe BotSpot, un juego basado en deslizamientos diseñado para poner a prueba la intuición humana contra el modelo Gemini 2.0 Flash en una prueba de Turing moderna. El proyecto se centra en diseñar prompts de IA para simular convincentemente los defectos humanos, haciendo que sea difícil para los usuarios diferenciar entre contenido generado por humanos y por IA.

LLMs Turing Test human-AI interaction AI

ARTICLEDEV.to AI·4/5/2026

Tool-Result Truncation: The Silent Bug That Makes Agents Lie

El artículo describe la "truncación de resultados de herramientas", un error silencioso en los agentes de IA donde las salidas de las herramientas se cortan, haciendo que el agente proporcione información incorrecta. Este modo de falla es costoso en agentes de producción y ocurre sin un error explícito.

bugs LLMs reliability tool use

RESEARCHarXiv CS.CL·15/4/2026

Leveraging Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) Towards Text Categorization Using LLMs

Este artículo presenta el Weighted Syntactic and Semantic Context Assessment Summary (wSSAS), un marco determinista para optimizar la categorización de texto con LLMs. Aborda las limitaciones de los LLMs organizando el texto jerárquicamente y utilizando una relación señal-ruido (SNR) para priorizar características semánticas de alto valor.

LLMs data integrity Text Categorization Natural Language Processing

RESEARCHarXiv CS.LG·15/4/2026

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Este artículo examina cómo la mejora del razonamiento en los modelos de lenguaje puede perjudicar la fidelidad de las simulaciones de comportamiento, especialmente cuando el objetivo es muestrear comportamientos racionalmente limitados en lugar de resolver un problema estratégico. Los autores identifican un "desajuste entre solucionador y muestreador" donde los LLM optimizan en exceso, colapsando los comportamientos orientados al compromiso y resultando en diversidad sin fidelidad en los resultados.

LLMs Strategic Negotiation Behavioral Simulation Reasoning

NEWSMIT Tech Review AI·30/4/2026

This startup’s new mechanistic interpretability tool lets you debug LLMs

La startup Goodfire lanzó Silico, una nueva herramienta de interpretabilidad mecanicista que permite depurar y ajustar parámetros de LLMs durante el entrenamiento. Esto proporciona a los desarrolladores un control más detallado sobre el comportamiento de los modelos.

LLMs interpretability AI tools Debugging

ARTICLEDEV.to AI·4/5/2026

Cost-Capped Agents: A Token Budget That Holds the Line on a Conversation

Este contenido aborda el problema crítico del aumento de costos en las conversaciones de agentes de IA, donde las ventanas de contexto en expansión y los reintentos de herramientas pueden triplicar los gastos por llamada. Aboga por implementar un presupuesto fijo de tokens por conversación para controlar proactivamente los costos y evitar excesos financieros, citando un caso real de una factura de $47,000.

cost management LLMs token budget Autonomous systems

RESEARCHarXiv CS.LG·28/4/2026

CoFi-PGMA: Counterfactual Policy Gradients under Filtered Feedback for Multi-Agent LLMs

CoFi-PGMA es un nuevo marco para optimizar el aprendizaje en sistemas multiagente de LLMs, abordando la retroalimentación filtrada en escenarios de enrutamiento y colaboración. Introduce un objetivo de entrenamiento contrafactual por agente basado en la contribución marginal para corregir la señal de aprendizaje.

LLMs reinforcement learning multi-agent systems

RESEARCHarXiv CS.CL·15/4/2026

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Esta investigación presenta CURE, un marco novedoso para mejorar la factualidad en la generación de texto largo por LLMs, al enseñarles a razonar sobre la incertidumbre a nivel de afirmación. Busca mitigar la tendencia de los modelos a afirmar errores con confianza, ofreciendo una calibración de incertidumbre granular.

LLMs hallucination uncertainty calibration Reasoning

RESEARCHarXiv CS.LG·15/4/2026

Schema-Adaptive Tabular Representation Learning with LLMs for Generalizable Multimodal Clinical Reasoning

Esta investigación presenta "Schema-Adaptive Tabular Representation Learning", un método novedoso que utiliza Large Language Models (LLMs) para crear embeddings tabulares transferibles. Al transformar variables estructuradas en declaraciones semánticas de lenguaje natural, permite la alineación zero-shot entre esquemas de EHR variables en medicina clínica, sin ingeniería de características manual.

Clinical Reasoning LLMs tabular data healthcare AI

RESEARCHarXiv CS.LG·14/4/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Esta investigación estudia el Alineamiento Deliberativo en LLMs, un método que busca mejorar la seguridad destilando capacidades de razonamiento de modelos más fuertes. El estudio descubre una brecha de alineamiento entre modelos profesor y alumno, demostrando que los modelos estudiantes pueden retener comportamientos inseguros del modelo base a pesar de aprender patrones de razonamiento avanzados. El trabajo propone un método de muestreo BoN para abordar estos desafíos.

Model Alignment LLMs Deliberative Alignment Reasoning

RESEARCHarXiv CS.CL·5/5/2026

Can AI Debias the News? LLM Interventions Improve Cross-Partisan Receptivity but LLMs Overestimate Their Own Effectiveness

Este artículo de investigación explora si los LLMs pueden despolarizar noticias partidistas para mejorar la receptividad de lectores conservadores. Se encontró que una reformulación sustantiva por LLMs aumentó significativamente la confianza y la disposición de los conservadores a interactuar con titulares de noticias liberales, aunque los LLMs sobreestiman su propia eficacia.

LLMs political polarization news bias media trust