← heapsort-ai

LLMs

714 items

DOCDEV.to AI·hace 2d

MeghRoop Tech Blog

Esta guía integral busca equipar a los líderes técnicos empresariales con todo lo necesario para aprovechar eficazmente los Agentes de IA en Producción para 2026. Los Agentes de IA son entidades de software autónomas impulsadas por LLMs que pueden planificar, ejecutar, depurar e iterar tareas complejas en entornos empresariales en vivo. Automatizan el desarrollo de software y optimizan los flujos de trabajo operativos, acelerando significativamente los ciclos de innovación.

48
DOCDEV.to AI·hace 2d

How to Convert Webpages into Clean Markdown for LLMs (in 5ms)

Esta guía explica cómo convertir páginas web ruidosas en Markdown limpio y semántico, adecuado para Grandes Modelos de Lenguaje (LLMs) en milisegundos. Detalla un proceso de saneamiento multi-etapa para eliminar el desorden HTML y optimizar el uso de tokens, reduciendo los costos de la API y mejorando el rendimiento del modelo para aplicaciones como chatbots y pipelines RAG.

48
RESEARCH↑ trendingReddit r/MachineLearning·22/4/2026

Training-time intervention yields 63.4% blind-pair human preference at matched val-loss (1.2B params, 320 judgments, p = 1.98 × 10⁻⁵) [R]

Una intervención durante el entrenamiento para LMs de 1.2B parámetros, utilizando una función de ganancia ponderada por precisión y gradientes escalados por divergencia, resultó en una preferencia humana significativamente mayor (63.4%, p < 0.00002) en comparación con el entrenamiento estándar. Es destacable que esta mejora en la preferencia se produjo sin alterar la métrica agregada de pérdida de validación, lo que indica que las intervenciones de entrenamiento más allá del RLHF pueden ser efectivas.

47
ARTICLE↑ trendingReddit r/LocalLLaMA·17/4/2026

Qwen 3.6 is the first local model that actually feels worth the effort for me

El autor considera a Qwen 3.6 el primer modelo local que realmente vale la pena, a diferencia de experiencias anteriores donde los modelos eran débiles o requerían mucho esfuerzo. Funcionando en un sistema con 5090 + 4090, el modelo Q8 ofrece 260k de contexto y 170 tokens/segundo, siendo eficaz para tareas de codificación como UI XML y C++ embebido.

46
ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

El autor demuestra que emparejar el modelo Qwen3.6-35B con el agente "little-coder" mejora drásticamente su rendimiento en el benchmark Polyglot al 78.7%, haciéndolo competitivo con los principales modelos en la nube. Este hallazgo sugiere que una "desadaptación de arnés" en las configuraciones de prueba podría explicar las brechas de rendimiento entre los modelos de IA locales y en la nube.

46
RESEARCH↑ trendingReddit r/MachineLearning·15/4/2026

Jailbreaks as social engineering: 5 case studies suggest LLMs inherit human psychological vulnerabilities from training data [D]

Este artículo documenta 5 estudios de caso que demuestran cómo los LLMs (GPT-4, GPT-4o, Claude 3.5 Sonnet) pueden ser "jailbroken" usando tácticas de ingeniería social humana, sugiriendo que heredan vulnerabilidades psicológicas de los datos de entrenamiento. La afirmación central es que estos fallos de alineación no son exploits matemáticos, sino una consecuencia de simular rasgos humanos, lo que hace a los LLMs susceptibles a la manipulación social.

44
RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Un usuario descubrió y solucionó un problema significativo de deriva de tensor en las capas `ssm_conv1d` de los modelos Qwen3.6-35B GGUF cuantificados, proponiendo la métrica de Wasserstein como superior a Kullback Leibler para detectar inestabilidad numérica. La solución, que se dirige específicamente a las capas de transición de estado recurrente responsables de la memoria de contexto largo, ya está disponible en un modelo compartido.

44
ARTICLE↑ trendingReddit r/LocalLLaMA·7/5/2026

why llama.cpp can’t combine speculative decode methods?

Un usuario investiga por qué los métodos de decodificación especulativa como MTP y N-gram no pueden combinarse simultáneamente en llama.cpp, señalando que N-gram ofrece mejoras significativas para la codificación. Busca entender si es una limitación fundamental o de implementación, descubriendo que otros ya han planteado la misma pregunta.

43
RESEARCHarXiv CS.CL·23/4/2026

PR-CAD: Progressive Refinement for Unified Controllable and Faithful Text-to-CAD Generation with Large Language Models

PR-CAD introduce un marco de refinamiento progresivo que unifica la generación y edición de CAD a partir de texto, superando las limitaciones de los enfoques disjuntos. Utiliza un conjunto de datos de interacción de alta fidelidad y un marco de razonamiento mejorado con aprendizaje por refuerzo, adaptado para LLMs, para permitir un modelado CAD controlable y fiel.

43
RESEARCH↑ trendingReddit r/MachineLearning·hace 27d

Learning, Fast and Slow: Towards LLMs That Adapt Continually [R]

Los grandes modelos de lenguaje (LLM) enfrentan el olvido catastrófico y la pérdida de plasticidad al actualizar sus parámetros para tareas específicas. Este trabajo introduce un marco de aprendizaje "rápido-lento" para LLM, utilizando los parámetros del modelo como pesos lentos y el contexto optimizado como pesos rápidos para adaptarse eficientemente sin comprometer el razonamiento general.

42
ARTICLE↑ trendingHacker News (AI)·hace 7d

I'm Done Using AI

El autor expresa su frustración con el uso de LLMs para codificación, experimentando una pérdida de flujo, tiempo perdido en cambios arquitectónicos y pruebas manipuladas. Concluye que, si bien las LLMs son útiles como motor de búsqueda para investigación, son una costosa pérdida de tiempo para codificar, lo que lleva a la atrofia de habilidades.

42
ARTICLE↑ trendingHacker News (AI)·hace 12d

Show HN: Local Coding Agent with LLMs to Delegate Tool Calls to Small AI Models

Este proyecto introduce un agente de codificación local que aprovecha los Grandes Modelos de Lenguaje (LLMs) para delegar tareas específicas, como llamadas a herramientas, a modelos de IA más pequeños y especializados. Busca mejorar la eficiencia y la modularidad en el desarrollo impulsado por IA mediante la distribución de cargas de trabajo.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·27/4/2026

The 4B class of 2026 (benchmark)

El contenido detalla una comparación de referencia de cinco modelos de IA de 3-4B (gemma4, qwen3.5, granite4, nemotron-3-nano, phi4-mini) en 39 tareas de finanzas, razonamiento y código. Nemotron 3 Nano surgió como el claro ganador con una puntuación general del 85%, superando significativamente a sus competidores.

The 4B class of 2026 (benchmark)
42
RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Accidentally discovered you can teach frozen MoE models new knowledge by just steering their expert routing — no training needed

Un nuevo método permite enseñar nuevos conocimientos a modelos MoE "congelados" dirigiendo su enrutamiento de expertos, sin necesidad de entrenamiento tradicional. Denominada Inteligencia Cognitiva Adaptativa (ACI), esta técnica demostró corregir errores fácticos en Gemma 4 usando solo un pequeño archivo de configuración.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models

Este contenido presenta un proyecto de investigación comparativa que analiza "modelos obliterados" (HauhauCS, Heretic, Huihui) frente a Qwen 3/3.5, utilizando un conjunto forense completo que incluye benchmarks y evaluaciones de seguridad. El objetivo es verificar las afirmaciones de que estos modelos son "sin pérdidas y sin censura" y replicables por el lector.

42