LLMs

714 items

NEWS↑ trendingReddit r/MachineLearning·22/4/2026

INT3 compression+fused metal kernels [R]

Un investigador y fundador solitario desarrolló compresión de modelos INT3 y una caché KV de 2 bits con kernels Metal personalizados para Mac (M-series). Qwen 7B está disponible en vista previa, y se planean optimizaciones adicionales y soporte para GPU.

Hardware Acceleration LLMs quantization model optimization

DOCDEV.to AI·hace 2d

MeghRoop Tech Blog

Esta guía integral busca equipar a los líderes técnicos empresariales con todo lo necesario para aprovechar eficazmente los Agentes de IA en Producción para 2026. Los Agentes de IA son entidades de software autónomas impulsadas por LLMs que pueden planificar, ejecutar, depurar e iterar tareas complejas en entornos empresariales en vivo. Automatizan el desarrollo de software y optimizan los flujos de trabajo operativos, acelerando significativamente los ciclos de innovación.

LLMs Software Development Enterprise AI automation

DOCDEV.to AI·hace 2d

How to Convert Webpages into Clean Markdown for LLMs (in 5ms)

Esta guía explica cómo convertir páginas web ruidosas en Markdown limpio y semántico, adecuado para Grandes Modelos de Lenguaje (LLMs) en milisegundos. Detalla un proceso de saneamiento multi-etapa para eliminar el desorden HTML y optimizar el uso de tokens, reduciendo los costos de la API y mejorando el rendimiento del modelo para aplicaciones como chatbots y pipelines RAG.

LLMs HTML cleanup data preprocessing markdown

RESEARCH↑ trendingReddit r/MachineLearning·22/4/2026

Training-time intervention yields 63.4% blind-pair human preference at matched val-loss (1.2B params, 320 judgments, p = 1.98 × 10⁻⁵) [R]

Una intervención durante el entrenamiento para LMs de 1.2B parámetros, utilizando una función de ganancia ponderada por precisión y gradientes escalados por divergencia, resultó en una preferencia humana significativamente mayor (63.4%, p < 0.00002) en comparación con el entrenamiento estándar. Es destacable que esta mejora en la preferencia se produjo sin alterar la métrica agregada de pérdida de validación, lo que indica que las intervenciones de entrenamiento más allá del RLHF pueden ser efectivas.

LLMs machine learning Human Preference training methods

ARTICLE↑ trendingReddit r/LocalLLaMA·17/4/2026

Qwen 3.6 is the first local model that actually feels worth the effort for me

El autor considera a Qwen 3.6 el primer modelo local que realmente vale la pena, a diferencia de experiencias anteriores donde los modelos eran débiles o requerían mucho esfuerzo. Funcionando en un sistema con 5090 + 4090, el modelo Q8 ofrece 260k de contexto y 170 tokens/segundo, siendo eficaz para tareas de codificación como UI XML y C++ embebido.

LLMs local models Qwen developer experience

ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

El autor demuestra que emparejar el modelo Qwen3.6-35B con el agente "little-coder" mejora drásticamente su rendimiento en el benchmark Polyglot al 78.7%, haciéndolo competitivo con los principales modelos en la nube. Este hallazgo sugiere que una "desadaptación de arnés" en las configuraciones de prueba podría explicar las brechas de rendimiento entre los modelos de IA locales y en la nube.

LLMs coding agents Benchmarking Agent systems

ARTICLEKDNuggets·hace 1d

Why Do LLMs Corrupt Your Documents When You Delegate?

Este contenido analiza varias razones por las que puede ocurrir una degradación estructural del contenido al delegar tareas complejas de edición de documentos a los Grandes Modelos de Lenguaje (LLM). Explora los desafíos y problemas inherentes a dicha delegación.

content editing LLMs AI limitations AI delegation

Why Do LLMs Corrupt Your Documents When You Delegate?

ARTICLEDEV.to AI·hace 2d

ChatGPT vs Claude in 2026: which AI assistant should you use?

Este artículo compara ChatGPT y Claude para 2026, centrándose en qué asistente de IA se adapta mejor a diferentes flujos de trabajo. Detalla los casos de uso ideales, ecosistemas, fortalezas y debilidades de cada uno para tareas como preguntas y respuestas generales, documentos largos y codificación.

LLMs Claude ChatGPT AI tools

RESEARCH↑ trendingReddit r/MachineLearning·15/4/2026

Jailbreaks as social engineering: 5 case studies suggest LLMs inherit human psychological vulnerabilities from training data [D]

Este artículo documenta 5 estudios de caso que demuestran cómo los LLMs (GPT-4, GPT-4o, Claude 3.5 Sonnet) pueden ser "jailbroken" usando tácticas de ingeniería social humana, sugiriendo que heredan vulnerabilidades psicológicas de los datos de entrenamiento. La afirmación central es que estos fallos de alineación no son exploits matemáticos, sino una consecuencia de simular rasgos humanos, lo que hace a los LLMs susceptibles a la manipulación social.

LLMs social engineering jailbreaks psychological vulnerabilities

RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Un usuario descubrió y solucionó un problema significativo de deriva de tensor en las capas `ssm_conv1d` de los modelos Qwen3.6-35B GGUF cuantificados, proponiendo la métrica de Wasserstein como superior a Kullback Leibler para detectar inestabilidad numérica. La solución, que se dirige específicamente a las capas de transición de estado recurrente responsables de la memoria de contexto largo, ya está disponible en un modelo compartido.

LLMs quantization GGUF model optimization

ARTICLE↑ trendingReddit r/LocalLLaMA·7/5/2026

why llama.cpp can’t combine speculative decode methods?

Un usuario investiga por qué los métodos de decodificación especulativa como MTP y N-gram no pueden combinarse simultáneamente en llama.cpp, señalando que N-gram ofrece mejoras significativas para la codificación. Busca entender si es una limitación fundamental o de implementación, descubriendo que otros ya han planteado la misma pregunta.

Optimization LLMs llama.cpp Qwen3.6

RESEARCHarXiv CS.CL·23/4/2026

PR-CAD: Progressive Refinement for Unified Controllable and Faithful Text-to-CAD Generation with Large Language Models

PR-CAD introduce un marco de refinamiento progresivo que unifica la generación y edición de CAD a partir de texto, superando las limitaciones de los enfoques disjuntos. Utiliza un conjunto de datos de interacción de alta fidelidad y un marco de razonamiento mejorado con aprendizaje por refuerzo, adaptado para LLMs, para permitir un modelado CAD controlable y fiel.

LLMs reinforcement learning CAD modeling text-to-CAD

RESEARCH↑ trendingReddit r/MachineLearning·hace 27d

Learning, Fast and Slow: Towards LLMs That Adapt Continually [R]

Los grandes modelos de lenguaje (LLM) enfrentan el olvido catastrófico y la pérdida de plasticidad al actualizar sus parámetros para tareas específicas. Este trabajo introduce un marco de aprendizaje "rápido-lento" para LLM, utilizando los parámetros del modelo como pesos lentos y el contexto optimizado como pesos rápidos para adaptarse eficientemente sin comprometer el razonamiento general.

LLMs learning Catastrophic Forgetting AI Research

ARTICLE↑ trendingHacker News (AI)·hace 7d

I'm Done Using AI

El autor expresa su frustración con el uso de LLMs para codificación, experimentando una pérdida de flujo, tiempo perdido en cambios arquitectónicos y pruebas manipuladas. Concluye que, si bien las LLMs son útiles como motor de búsqueda para investigación, son una costosa pérdida de tiempo para codificar, lo que lleva a la atrofia de habilidades.

LLMs AI limitations developer productivity Skill Atrophy

ARTICLE↑ trendingHacker News (AI)·hace 12d

Show HN: Local Coding Agent with LLMs to Delegate Tool Calls to Small AI Models

Este proyecto introduce un agente de codificación local que aprovecha los Grandes Modelos de Lenguaje (LLMs) para delegar tareas específicas, como llamadas a herramientas, a modelos de IA más pequeños y especializados. Busca mejorar la eficiencia y la modularidad en el desarrollo impulsado por IA mediante la distribución de cargas de trabajo.

Open Source AI models LLMs Software Development

ARTICLE↑ trendingReddit r/MachineLearning·12/4/2026

LLMs learn backwards, and the scaling hypothesis is bounded. [D]

Este contenido discute la perspectiva de que los Large Language Models (LLMs) aprenden de manera inversa y que la hipótesis de escalabilidad tiene límites inherentes.

LLMs deep learning scaling hypothesis modelos de linguagem

RESEARCH↑ trendingReddit r/LocalLLaMA·27/4/2026

The 4B class of 2026 (benchmark)

El contenido detalla una comparación de referencia de cinco modelos de IA de 3-4B (gemma4, qwen3.5, granite4, nemotron-3-nano, phi4-mini) en 39 tareas de finanzas, razonamiento y código. Nemotron 3 Nano surgió como el claro ganador con una puntuación general del 85%, superando significativamente a sus competidores.

AI models LLMs Benchmarking Generative AI

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 25d

Used over a million tokens in three separate sessions to test Qwen 3.6 35b (new Multi-token Prediction version)

El autor probó el modelo Qwen 3.6 35b MTP localmente, notando un aumento de 1.5x en la velocidad. Exploró el uso de una gran ventana de contexto, alcanzando 300k tokens con potencial para más.

LLMs Benchmarking Local AI Qwen

RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Accidentally discovered you can teach frozen MoE models new knowledge by just steering their expert routing — no training needed

Un nuevo método permite enseñar nuevos conocimientos a modelos MoE "congelados" dirigiendo su enrutamiento de expertos, sin necesidad de entrenamiento tradicional. Denominada Inteligencia Cognitiva Adaptativa (ACI), esta técnica demostró corregir errores fácticos en Gemma 4 usando solo un pequeño archivo de configuración.

model steering LLMs Gemma 4 Knowledge Injection

RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models

Este contenido presenta un proyecto de investigación comparativa que analiza "modelos obliterados" (HauhauCS, Heretic, Huihui) frente a Qwen 3/3.5, utilizando un conjunto forense completo que incluye benchmarks y evaluaciones de seguridad. El objetivo es verificar las afirmaciones de que estos modelos son "sin pérdidas y sin censura" y replicables por el lector.

AI models LLMs Model Evaluation Benchmarking