← heapsort-ai

LLMs

723 items

RESEARCHDEV.to AI·8/5/2026

Model Showdown Round 2: Adding Gemma, Kimi, and 579 GB of Stubborn Optimism

Este artículo presenta la "Ronda 2 del Enfrentamiento de Modelos", introduciendo nuevos modelos como Gemma 4 de Google y Kimi K2 de Moonshot AI, y reevaluando modelos anteriores con configuraciones corregidas. Los benchmarks actualizados revelaron cambios significativos en la clasificación, abordando problemas como límites de tokens e interpretación de comandos de la ronda inicial.

27
DOCDEV.to AI·hace 13d

99. Build a Chatbot With Memory

Este contenido explica cómo construir un chatbot con memoria, superando la naturaleza sin estado de los LLMs. Detalla patrones como el historial de conversación, la memoria de ventana deslizante, la memoria de resumen y la memoria de entidad, incluyendo el uso de LangChain para construir un chatbot multi-turno y persistir la memoria entre sesiones.

27
RESEARCHDEV.to AI·8/5/2026

Model Showdown: Benchmarking Local vs Cloud LLMs on a Real Coding Task

El artículo describe un benchmark que compara LLMs locales ejecutándose en hardware de consumidor (Ollama en RTX 5090) con modelos basados en la nube de Anthropic para una tarea de codificación real. El objetivo era determinar si los modelos locales podían producir código igual de correcto, rápido y completo para una aplicación CLI de tareas en Python con persistencia SQLite.

27
ARTICLEDEV.to AI·6/4/2026

AI Citation Registries as Information Infrastructure for AI Systems

O conteúdo aborda como sistemas de IA podem deturpar a fonte de informação, como a autoridade emissora de um aviso, ao processar fragmentos de texto e perder o contexto original. Isso ressalta a necessidade de "AI Citation Registries" para preservar atributos cruciais de jurisdição e autoria, garantindo a precisão e a integridade dos dados gerados.

27
ARTICLEDEV.to AI·5/5/2026

Building Agent Memory: Episodic vs Semantic Stores

El texto aborda el concepto de "memoria del agente" en sistemas de IA, señalando el desafío de que los agentes retengan el contexto de sesiones anteriores debido a la reinicialización de los arrays de mensajes. Esto provoca problemas como que los agentes olviden las preferencias del usuario, aumentando los costos y la latencia al intentar compensar con prompts extensos.

27
ARTICLEDEV.to AI·7/5/2026

Stop Burning API Credits While Building AI Apps: Run Local LLMs with Docker Model Runner

La creación de aplicaciones de IA a menudo conlleva altos costos de API durante el desarrollo y genera preocupaciones sobre la privacidad de los datos al usar LLMs en la nube. Docker Model Runner ofrece a los desarrolladores de JavaScript una solución para ejecutar modelos de IA localmente utilizando Docker, proporcionando APIs al estilo OpenAI familiar y mitigando estos problemas.

27
ARTICLEDEV.to AI·2/5/2026

Engineering the Modern Turing Test: Building BotSpot

El contenido describe BotSpot, un juego basado en deslizamientos diseñado para poner a prueba la intuición humana contra el modelo Gemini 2.0 Flash en una prueba de Turing moderna. El proyecto se centra en diseñar prompts de IA para simular convincentemente los defectos humanos, haciendo que sea difícil para los usuarios diferenciar entre contenido generado por humanos y por IA.

27
RESEARCHarXiv CS.CL·15/4/2026

Leveraging Weighted Syntactic and Semantic Context Assessment Summary (wSSAS) Towards Text Categorization Using LLMs

Este artículo presenta el Weighted Syntactic and Semantic Context Assessment Summary (wSSAS), un marco determinista para optimizar la categorización de texto con LLMs. Aborda las limitaciones de los LLMs organizando el texto jerárquicamente y utilizando una relación señal-ruido (SNR) para priorizar características semánticas de alto valor.

27
RESEARCHarXiv CS.LG·15/4/2026

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Este artículo examina cómo la mejora del razonamiento en los modelos de lenguaje puede perjudicar la fidelidad de las simulaciones de comportamiento, especialmente cuando el objetivo es muestrear comportamientos racionalmente limitados en lugar de resolver un problema estratégico. Los autores identifican un "desajuste entre solucionador y muestreador" donde los LLM optimizan en exceso, colapsando los comportamientos orientados al compromiso y resultando en diversidad sin fidelidad en los resultados.

27
ARTICLEDEV.to AI·4/5/2026

Cost-Capped Agents: A Token Budget That Holds the Line on a Conversation

Este contenido aborda el problema crítico del aumento de costos en las conversaciones de agentes de IA, donde las ventanas de contexto en expansión y los reintentos de herramientas pueden triplicar los gastos por llamada. Aboga por implementar un presupuesto fijo de tokens por conversación para controlar proactivamente los costos y evitar excesos financieros, citando un caso real de una factura de $47,000.

27
RESEARCHarXiv CS.LG·15/4/2026

Schema-Adaptive Tabular Representation Learning with LLMs for Generalizable Multimodal Clinical Reasoning

Esta investigación presenta "Schema-Adaptive Tabular Representation Learning", un método novedoso que utiliza Large Language Models (LLMs) para crear embeddings tabulares transferibles. Al transformar variables estructuradas en declaraciones semánticas de lenguaje natural, permite la alineación zero-shot entre esquemas de EHR variables en medicina clínica, sin ingeniería de características manual.

27
RESEARCHarXiv CS.LG·14/4/2026

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Esta investigación estudia el Alineamiento Deliberativo en LLMs, un método que busca mejorar la seguridad destilando capacidades de razonamiento de modelos más fuertes. El estudio descubre una brecha de alineamiento entre modelos profesor y alumno, demostrando que los modelos estudiantes pueden retener comportamientos inseguros del modelo base a pesar de aprender patrones de razonamiento avanzados. El trabajo propone un método de muestreo BoN para abordar estos desafíos.

27
RESEARCHarXiv CS.CL·5/5/2026

Can AI Debias the News? LLM Interventions Improve Cross-Partisan Receptivity but LLMs Overestimate Their Own Effectiveness

Este artículo de investigación explora si los LLMs pueden despolarizar noticias partidistas para mejorar la receptividad de lectores conservadores. Se encontró que una reformulación sustantiva por LLMs aumentó significativamente la confianza y la disposición de los conservadores a interactuar con titulares de noticias liberales, aunque los LLMs sobreestiman su propia eficacia.

27