AI Model Optimization

2 items

DOC↑ trendingReddit r/LocalLLaMA·15/4/2026

Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s

El autor comparte una optimización exitosa para ejecutar el modelo Qwen3.5-35B-A3B-UD-Q4_K_L en una RTX 4060 Ti 16GB utilizando llama.cpp, logrando 40-60 tokens/s con 64k de contexto. La publicación detalla la configuración `models.ini` y el comando de inicio del servidor para replicar este rendimiento.

Hardware Acceleration AI Model Optimization llama.cpp local inference

RESEARCHDEV.to AI·hace 7d

Elemetry data: Running 284B MoE at 0.00 GB Active VRAM

Este contenido comparte datos de telemetría de hardware de una prueba arquitectónica que evalúa la ejecución de modelos a escala de frontera en hardware básico y restringido. Detalla la evaluación comparativa de una arquitectura Mixture-of-Experts (MoE) de 284B parámetros, logrando 0.00 GB de VRAM activa de GPU al desacoplar el almacenamiento físico de pesos de la asignación gráfica local activa.

Hardware Telemetry DeepSeek-V4-Flash AI Model Optimization VRAM Optimization