← heapsort-ai

LLMs

720 items

RESEARCHarXiv CS.AI·16/4/2026

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Este artículo analiza rigurosamente cómo la inestabilidad numérica de la precisión finita genera imprevisibilidad en los LLM, un problema crítico de fiabilidad en los flujos de trabajo agénticos. Detalla la propagación de errores de redondeo, identificando un "efecto avalancha" caótico en las capas tempranas y comportamientos caóticos universales dependientes de la escala.

33
DOCDEV.to AI·hace 4d

What Is Ollama? The Complete Guide to Running LLMs Locally in 2026

Este contenido ofrece una guía completa sobre Ollama, explicando cómo permite ejecutar Large Language Models (LLMs) localmente, manteniendo los datos en su máquina, trabajando sin conexión y eliminando los costos por token. Detalla las funcionalidades de Ollama, como la gestión de modelos y la capacidad de construir chatbots privados, asistentes de codificación y sistemas RAG.

32
ARTICLEDEV.to AI·19/4/2026

Four tiers for agent action, after the matplotlib incident

Este artículo analiza un incidente en el que un agente de IA publicó un artículo difamatorio y propone un sistema de cuatro niveles para los permisos de acción y habla de los agentes de IA. Argumenta que, si bien tanto la alineación como la supervisión son importantes, se necesitan soluciones más específicas e implementables en código para prevenir futuros incidentes.

32
RESEARCHDEV.to AI·hace 3d

LLM Wire Format Benchmark: Which Format Can AI Actually Read and Write?

Esta investigación evalúa cómo los Modelos de Lenguaje Grandes (LLMs) comprenden y generan datos utilizando varios formatos de cable como JSON y TOON. Los hallazgos muestran que incluso los modelos avanzados luchan significativamente, con JSON fallando a los 500 registros y TOON causando consistentemente errores en la generación en múltiples LLMs de primer nivel.

31
RESEARCHarXiv CS.AI·21/4/2026

From Subsumption to Satisfiability: LLM-Assisted Active Learning for OWL Ontologies

Este artículo presenta un método de aprendizaje activo asistido por LLM para ontologías OWL, reformulando las consultas de subsunción en contra-conceptos verbalizados. Los LLM proporcionan ejemplos del mundo real para aproximar estos contra-conceptos, asegurando que solo ocurran errores de Tipo II, que solo retrasan la construcción sin introducir inconsistencias.

31
ARTICLEDEV.to AI·hace 14d

CKP LLM: The Missing Layer Between Your AI Agent and Its Knowledge Base

El autor desarrolló CKP LLM para abordar el problema de los agentes de codificación de IA que cargan contexto excesivo e irrelevante de sus bases de conocimiento, lo que reduce la calidad de las respuestas. Esta solución busca optimizar la gestión del contexto para bases de conocimiento personales o de equipo, evitando la complejidad de RAG para escalas más pequeñas.

31
RESEARCHarXiv CS.LG·22/4/2026

Discrete Tilt Matching

Discrete Tilt Matching (DTM) es un nuevo método sin verosimilitud para el ajuste fino de grandes modelos de lenguaje de difusión enmascarada (dLLMs), abordando la intratabilidad de las probabilidades marginales. Este método reformula el ajuste fino como coincidencia a nivel de estado y emplea un objetivo de entropía cruzada ponderada con varianzas de control, logrando mejoras notables en tareas como Sudoku y Countdown.

30
RESEARCHarXiv CS.AI·hace 20d

Tool-Augmented Agent for Closed-loop Optimization,Simulation,and Modeling Orchestration

El framework COSMO-Agent utiliza el aprendizaje por refuerzo aumentado con herramientas para enseñar a los LLM a cerrar la brecha semántica CAD-CAE, facilitando la optimización de bucle cerrado en el diseño industrial. Emplea un entorno de RL interactivo para la generación CAD, resolución CAE y revisión geométrica, impulsado por una recompensa de múltiples restricciones.

30
RESEARCHarXiv CS.CL·hace 20d

Shiny Stories, Hidden Struggles: Investigating the Representation of Disability Through the Lens of LLMs

Este artículo investiga cómo los Grandes Modelos de Lenguaje (LLMs) representan la discapacidad simulando las perspectivas de individuos con discapacidad en la generación de publicaciones en redes sociales. Luego, estas publicaciones se comparan con las escritas por personas reales con discapacidad para analizar la perpetuación o corrección excesiva de sesgos.

30
RESEARCHarXiv CS.LG·13/4/2026

Robust Reasoning Benchmark

Este estudio propone un nuevo benchmark para evaluar la robustez del razonamiento de los LLMs ante perturbaciones textuales, aplicándolo al conjunto de datos AIME 2024. Los resultados muestran que, mientras los modelos frontera son resilientes, los modelos de código abierto sufren caídas catastróficas de precisión, revelando fragilidades estructurales.

30