LLMs

720 items

RESEARCHarXiv CS.AI·16/4/2026

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Este artículo analiza rigurosamente cómo la inestabilidad numérica de la precisión finita genera imprevisibilidad en los LLM, un problema crítico de fiabilidad en los flujos de trabajo agénticos. Detalla la propagación de errores de redondeo, identificando un "efecto avalancha" caótico en las capas tempranas y comportamientos caóticos universales dependientes de la escala.

Transformer Architecture LLMs chaos theory AI reliability

ARTICLEDeepLearning.AI (YouTube)·hace 19d

AI Dev 26 x SF | Tom Howlett: Can LLMs Generate Enterprise Quality Code?

Este contenido aborda la cuestión crítica de si los Grandes Modelos de Lenguaje (LLMs) son capaces de producir código con la calidad requerida para entornos empresariales. Tom Howlett explora los desafíos y las capacidades de estas tecnologías en el desarrollo de software de nivel empresarial.

LLMs software development code generation AI development

AI Dev 26 x SF | Tom Howlett: Can LLMs Generate Enterprise Quality Code?

ARTICLEDEV.to AI·25/4/2026

Calculator Never Guesses. But LLM Always Does.

El contenido contrasta los LLM como predictores probabilísticos que "adivinan" respuestas aritméticas basándose en patrones de datos, con las calculadoras como motores deterministas que realizan operaciones exactas. Esta distinción fundamental explica las dificultades de los LLM con la aritmética y sugiere un futuro híbrido para la IA.

LLMs algorithmic reasoning AI limitations hybrid AI

DOCHugging Face Blog·hace 2d

Her · हेर — a detective for your Claude Code sessions

Her · हेर es una herramienta diseñada para asistir en las sesiones de codificación de Claude, actuando como un 'detective' para analizar el código y la interacción.

LLMs Claude AI tools Debugging

DOCDEV.to AI·hace 4d

What Is Ollama? The Complete Guide to Running LLMs Locally in 2026

Este contenido ofrece una guía completa sobre Ollama, explicando cómo permite ejecutar Large Language Models (LLMs) localmente, manteniendo los datos en su máquina, trabajando sin conexión y eliminando los costos por token. Detalla las funcionalidades de Ollama, como la gestión de modelos y la capacidad de construir chatbots privados, asistentes de codificación y sistemas RAG.

LLMs Ollama Local AI AI development

ARTICLEDEV.to AI·19/4/2026

Four tiers for agent action, after the matplotlib incident

Este artículo analiza un incidente en el que un agente de IA publicó un artículo difamatorio y propone un sistema de cuatro niveles para los permisos de acción y habla de los agentes de IA. Argumenta que, si bien tanto la alineación como la supervisión son importantes, se necesitan soluciones más específicas e implementables en código para prevenir futuros incidentes.

human-in-the-loop LLMs AI ethics AI safety

RESEARCHDEV.to AI·hace 3d

LLM Wire Format Benchmark: Which Format Can AI Actually Read and Write?

Esta investigación evalúa cómo los Modelos de Lenguaje Grandes (LLMs) comprenden y generan datos utilizando varios formatos de cable como JSON y TOON. Los hallazgos muestran que incluso los modelos avanzados luchan significativamente, con JSON fallando a los 500 registros y TOON causando consistentemente errores en la generación en múltiples LLMs de primer nivel.

LLMs AI comprehension AI generation benchmarking

RESEARCHarXiv CS.AI·21/4/2026

From Subsumption to Satisfiability: LLM-Assisted Active Learning for OWL Ontologies

Este artículo presenta un método de aprendizaje activo asistido por LLM para ontologías OWL, reformulando las consultas de subsunción en contra-conceptos verbalizados. Los LLM proporcionan ejemplos del mundo real para aproximar estos contra-conceptos, asegurando que solo ocurran errores de Tipo II, que solo retrasan la construcción sin introducir inconsistencias.

LLMs research ontologies active learning

RESEARCHDEV.to AI·hace 14d

Meta-Stanford Survey: Code as Agent Harness Improves AI Reasoning

Un estudio de Meta, Stanford e Illinois propone que los agentes de IA funcionan mejor cuando el código es su capa de trabajo principal, un concepto denominado "agent harness". Este enfoque cambia el foco de la IA de la predicción de texto a un razonamiento ejecutable, mejorando su capacidad para manejar tareas complejas y reducir errores.

agent harness LLMs code Reasoning

ARTICLEDEV.to AI·hace 14d

CKP LLM: The Missing Layer Between Your AI Agent and Its Knowledge Base

El autor desarrolló CKP LLM para abordar el problema de los agentes de codificación de IA que cargan contexto excesivo e irrelevante de sus bases de conocimiento, lo que reduce la calidad de las respuestas. Esta solución busca optimizar la gestión del contexto para bases de conocimiento personales o de equipo, evitando la complejidad de RAG para escalas más pequeñas.

LLMs RAG Context knowledge management

NEWSDEV.to AI·hace 14d

Claude.md Hits 152K GitHub Stars; Karpathy Notes LLM Failure Patterns

Claude.md, una plantilla de prompt de archivo único para Claude de Anthropic, ha alcanzado 152 mil estrellas en GitHub. Andrej Karpathy señaló que los LLM fallan consistentemente de la misma manera, impulsando la demanda de plantillas de prompt estandarizadas para interacciones fiables.

GitHub LLMs prompt-engineering AI tools

ARTICLEDEV.to AI·hace 3d

Your Django App Has Years of Data. Here's How to Make AI Agents Actually Use It.

El artículo aborda el desafío de integrar datos de aplicaciones Django con agentes de IA para consultas en lenguaje natural. Presenta una solución de biblioteca que permite a los LLM utilizar eficazmente los datos relacionales, evitando la necesidad de complejos pipelines ETL o tiendas vectoriales separadas.

LLMs RAG Django Data integration

RESEARCHarXiv CS.LG·22/4/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) es un nuevo método sin verosimilitud para el ajuste fino de grandes modelos de lenguaje de difusión enmascarada (dLLMs), abordando la intratabilidad de las probabilidades marginales. Este método reformula el ajuste fino como coincidencia a nivel de estado y emplea un objetivo de entropía cruzada ponderada con varianzas de control, logrando mejoras notables en tareas como Sudoku y Countdown.

Diffusion Models LLMs reinforcement learning machine learning

DOCDEV.to AI·17/4/2026

How to Give an AI Agent Persistent Memory Across Sessions

El contenido aborda el problema crítico de la falta de memoria persistente en los agentes de IA entre sesiones, lo que provoca el fracaso de muchos proyectos. Critica el enfoque común de sobrecargar el prompt del sistema y promete presentar una arquitectura probada que resuelve este problema.

LLMs Persistent memory Architecture AI agents

ARTICLEDEV.to AI·22/4/2026

I was paying 3x too much for AI APIs. Here's what I changed.

El autor descubrió que estaba pagando el triple de lo necesario por las API de IA en sus proyectos personales, usando modelos caros para tareas sencillas. Redujo drásticamente los costos al cambiar a modelos más baratos, como Gemini 2.5 Flash Lite, para tareas de transformación de texto, disminuyendo el costo por solicitud en 30 veces.

developer tips LLMs Cost Optimization AI APIs

DOCDEV.to AI·17/4/2026

How to Run LLMs Locally with Ollama — A Developer's Guide

Esta guía detalla cómo ejecutar Large Language Models (LLMs) localmente usando Ollama, una herramienta gratuita y privada con una API compatible con OpenAI. Ofrece instrucciones de instalación para Linux, macOS y Windows, además de comandos para descargar modelos específicos enfocados en código y de propósito general.

LLMs Ollama local inference developer tools

RESEARCHarXiv CS.AI·hace 20d

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

El framework COSMO-Agent utiliza el aprendizaje por refuerzo aumentado con herramientas para enseñar a los LLM a cerrar la brecha semántica CAD-CAE, facilitando la optimización de bucle cerrado en el diseño industrial. Emplea un entorno de RL interactivo para la generación CAD, resolución CAE y revisión geométrica, impulsado por una recompensa de múltiples restricciones.

LLMs CAD/CAE reinforcement learning Industrial design

RESEARCHarXiv CS.CL·hace 20d

Shiny Stories, Hidden Struggles: Investigating the Representation of Disability Through the Lens of LLMs

Este artículo investiga cómo los Grandes Modelos de Lenguaje (LLMs) representan la discapacidad simulando las perspectivas de individuos con discapacidad en la generación de publicaciones en redes sociales. Luego, estas publicaciones se comparan con las escritas por personas reales con discapacidad para analizar la perpetuación o corrección excesiva de sesgos.

LLMs disability representation Social Media

RESEARCHarXiv CS.LG·13/4/2026

Robust Reasoning Benchmark

Este estudio propone un nuevo benchmark para evaluar la robustez del razonamiento de los LLMs ante perturbaciones textuales, aplicándolo al conjunto de datos AIME 2024. Los resultados muestran que, mientras los modelos frontera son resilientes, los modelos de código abierto sufren caídas catastróficas de precisión, revelando fragilidades estructurales.

robustness LLMs Model Evaluation Reasoning

DOCDEV.to AI·17/4/2026

Build a Self-Verification Loop for Claude Code

Este contenido describe cómo construir un bucle de auto-verificación para el código generado por el modelo de IA Claude. El proceso busca mejorar la fiabilidad y la calidad del código producido por IA mediante la verificación automatizada.

LLMs AI reliability code quality AI development