← heapsort-ai

LLMs

723 items

ARTICLEDEV.to AI·22/4/2026

Why LoRA? Understanding the representative PEFT

LoRA (Low-Rank Adaptation) se presenta como el principal método PEFT, permitiendo la adaptación eficiente de LLM masivos como Llama 3 sin necesidad de muchos recursos de hardware. El artículo promete explorar la intuición matemática de LoRA, el concepto de "dimensión intrínseca" y su impacto revolucionario para los ingenieros de IA.

27
ARTICLEDEV.to AI·12/4/2026

Serverless Memory DBs for AI Agents in 2025

El contenido aborda la falta de memoria en los agentes de IA como un problema arquitectónico, no de datos, destacando que la comunidad está creando soluciones. Propone bases de datos de memoria serverless para desacoplar el almacenamiento de la inferencia, permitiendo que los LLM se centren en el razonamiento y criticando la ineficacia de insertar contexto en los prompts.

27
ARTICLEDEV.to AI·9/5/2026

Future of AI Agents in Agentic AI

La IA Agentiva se refiere a sistemas de inteligencia artificial que pueden actuar de forma autónoma, tomar decisiones y realizar tareas sin la intervención humana constante. Impulsados por grandes modelos de lenguaje y marcos de uso de herramientas sofisticados, estos agentes de IA son considerados la próxima gran novedad en el campo.

27
ARTICLEDEV.to AI·21/4/2026

Amazon Is Betting $25 Billion More on Anthropic. Here's What That Really Means.

Amazon confirmó una inversión de hasta 25 mil millones de dólares en Anthropic, sumándose a los 8 mil millones ya aportados, para una asociación ampliada centrada en infraestructura de IA, con Anthropic comprometiéndose a usar las tecnologías de AWS por una década. Este acuerdo revela la dirección de la IA, la carrera por la infraestructura y el ascenso comercial de Anthropic.

27
RESEARCHarXiv CS.LG·20/4/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Esta investigación revela que el caché KV en la inferencia autorregresiva de transformadores, bajo precisión FP16 estándar, provoca una divergencia sistemática en las secuencias de tokens decodificadas debido a diferentes órdenes de acumulación de punto flotante. Se observó una tasa de divergencia del 100% en modelos como LLaMA-2-7B y Mistral-7B, con el caché-ON a menudo resultando en mayor precisión.

27
RESEARCHarXiv CS.LG·20/4/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Esta investigación introduce la compresión secuencial de KV, una novedosa arquitectura de dos capas para caches de clave-valor de transformadores que supera el límite de Shannon por vector. Aprovecha la naturaleza secuencial de los tokens del cache KV, utilizando la deduplicación probabilística de prefijos y la codificación delta predictiva para una compresión más eficiente.

27
RESEARCHarXiv CS.AI·15/4/2026

GoodPoint: Learning Constructive Scientific Paper Feedback from Author Responses

Esta investigación presenta GoodPoint, un método que utiliza LLMs y respuestas de autores para generar retroalimentación constructiva para artículos científicos. Desarrolla GoodPoint-ICLR, un conjunto de datos de artículos ICLR, y una receta de entrenamiento que emplea fine-tuning y optimización de preferencias para una retroalimentación válida y accionable.

27
RESEARCHarXiv CS.AI·16/4/2026

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Este trabajo presenta SciFi, un marco agéntico seguro, ligero y fácil de usar para la ejecución autónoma de tareas científicas. Combina un entorno aislado, un bucle de agente de tres capas y un mecanismo de auto-evaluación para asegurar una operación fiable, aprovechando los LLMs para automatizar cargas de trabajo científicas rutinarias y liberar a los investigadores para actividades creativas.

27
RESEARCHarXiv CS.AI·17/4/2026

GFT: From Imitation to Reward Fine-Tuning with Unbiased Group Advantages and Dynamic Coefficient Rectification

Este trabajo presenta el Group Fine-Tuning (GFT), un marco unificado de post-entrenamiento para grandes modelos de lenguaje. Aborda las limitaciones intrínsecas del ajuste fino supervisado (SFT), como la dependencia de una sola ruta y el colapso de la entropía, mediante el aprendizaje de ventajas de grupo y la rectificación dinámica de coeficientes.

27
ARTICLEDEV.to AI·22/4/2026

RAG: How AI Models Use Your Data Without Forgetting

Los grandes modelos de lenguaje son inherentemente sin estado, carecen de memoria de conversaciones anteriores o acceso a datos actualizados o privados. RAG (Retrieval Augmented Generation) aborda esto introduciendo un paso de recuperación, permitiendo que los modelos accedan a información externa y funcionen como un motor de razonamiento sobre esos datos.

27