AI performance

27 items

ARTICLE↑ trendingHacker News (AI)·hace 5d

Google employees internally share memes about how its AI sucks

Empleados de Google están compartiendo memes internamente que se burlan de la mala calidad de la inteligencia artificial de la compañía. Esto refleja un sentimiento de frustración y escepticismo hacia los productos de IA desarrollados internamente.

Internal culture Google AI Employee sentiment memes

ARTICLE↑ trendingReddit r/LocalLLaMA·23/4/2026

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

El contenido describe un experimento que demuestra ganancias significativas de velocidad (hasta 68.35 tokens/s) utilizando decodificación especulativa con el modelo Qwen-3.6-27B a través de llamacpp. El autor muestra la capacidad de la IA para generar y depurar código de manera eficiente.

Benchmarking AI performance Speculative Decoding LLM

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

ARTICLE↑ trendingReddit r/LocalLLaMA·15/4/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Este artículo detalla una nueva estrategia de caché de expertos dinámicos en llama.cpp para acelerar la generación de tokens en grandes modelos MoE como Qwen3.5-122B-A10B. El enfoque carga los expertos más utilizados en la VRAM, lo que resulta en una generación de tokens hasta un 26,8% más rápida en comparación con la descarga parcial basada en capas.

Token Generation llama.cpp VRAM Optimization MoE

ARTICLE↑ trendingReddit r/LocalLLaMA·12/4/2026

Speculative Decoding works great for Gemma 4 31B with E2B draft (+29% avg, +50% on code)

Las pruebas de decodificación especulativa utilizando Gemma 4 E2B como borrador para Gemma 4 31B mostraron una notable mejora en el rendimiento. La velocidad promedio aumentó un 29%, llegando al 50% en la generación de código, con configuraciones específicas de hardware y software.

Gemma 4 31B llama.cpp benchmark AI performance

RESEARCH↑ trendingReddit r/LocalLLaMA·hace 19d

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

El autor logró 110 tok/s con 12GB de VRAM usando ik_llama.cpp en el modelo Qwen3.6 35B A3B, notando un gran aumento de velocidad. Este rendimiento superó al de llama.cpp regular después de la fusión de su PR MTP.

GPU VRAM LLM optimization llama.cpp Benchmarking

CASE↑ trendingReddit r/LocalLLaMA·18/4/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Un usuario informa que Qwen 3.6 muestra un salto de rendimiento significativo, demostrando ser capaz para cargas de trabajo típicamente manejadas por Opus y Codex, aunque no a su mismo nivel. El usuario resalta su utilidad y velocidad cuando se configura correctamente con `preserve_thinking` en un M5 Max con ajustes específicos.

LLMs AI hardware local inference AI performance

qwen3.6 performance jump is real, just make sure you have it properly configured

NEWS↑ trendingReddit r/LocalLLaMA·15/4/2026

DFlash Doubles the T/S Gen Speed of Qwen3.5 27B (BF16) on Mac M5 Max

El nuevo soporte DFlash en oMLX 0.3.5 RC1 ha duplicado la velocidad de generación del modelo Qwen3.5 27B (BF16) en un Mac M5 Max, de 9 a 22 T/S. Esta mejora es fundamental para la implementación local de este modelo de alta calidad con pesos completos o cuantizaciones más altas.

oMLX DFlash Qwen3.5 AI performance

DFlash Doubles the T/S Gen Speed of Qwen3.5 27B (BF16) on Mac M5 Max

ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026

Is anyone getting real coding work done with Qwen3.6-35B-A3B-UD-Q4_K_M on a 32GB Mac in opencode, claude code or similar?

Un usuario intenta realizar tareas de codificación con Qwen3.6-35B en un Macbook Pro M2 de 32GB, enfrentando problemas de agotamiento de memoria y gestión de la ventana de contexto. Aunque el modelo identifica la esencia de un error, no logra implementar la solución debido a la pérdida de información crucial durante la compactación del contexto.

LLMs open-source AI local inference code generation

ARTICLE↑ trendingReddit r/LocalLLaMA·21/4/2026

An actual example of "If you dont run it, you dont own it" and Gemma 4 beats both Chat GPT and Gemini Chat

El autor comparte su experiencia utilizando varios modelos de IA (GPT OOS 120B, Qwen 3 Max, Chat GPT 4o) para traducir una novela china, enfrentando desafíos con la consistencia de los nombres y la censura. Chat GPT 4o fue inicialmente el mejor en precisión y calidad de traducción, aunque otros modelos mostraron degradación o filtrado con el tiempo.

Translation censorship model comparison AI performance

ARTICLEDEV.to AI·hace 3d

<think>

Este contenido describe los requisitos para un artículo técnico sobre el análisis del rendimiento y la fijación de precios de modelos de IA, centrándose en métricas como TTFT y tokens/segundo. Especifica la inclusión de datos exactos de precios y modelos, regiones de prueba y ejemplos de código para una API global, dirigido a una audiencia de ingenieros de backend.

AI pricing API Benchmarks AI performance

ARTICLEDEV.to AI·hace 5d

Context Window Management: Tactics That Survive Real Sessions

Los modelos de lenguaje grandes a menudo tienen una ventana de contexto práctica mucho menor que su límite nominal publicitado debido a la sobrecarga y la degradación de la atención. Esta discrepancia afecta el diseño de los prompts y provoca caídas de calidad y truncamiento mucho antes de alcanzar el límite de tokens.

prompt engineering Technical limitations AI performance large language models

RESEARCHDEV.to AI·10/5/2026

Diffusion models approach AR quality and improve inference speed

Los modelos de lenguaje de difusión están logrando ganancias significativas de rendimiento y reduciendo la brecha con los decodificadores autorregresivos en la velocidad de inferencia. Los nuevos Modelos de Lenguaje de Difusión Introspectivos (I-DLM) abordan problemas previos de consistencia introspectiva y bucles de muestreo ineficientes, mejorando tanto la calidad como la latencia.

inference speed Diffusion Models language models machine learning

RESEARCHarXiv CS.AI·4/5/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Esta investigación desafía la suposición de que el razonamiento con herramientas siempre mejora el rendimiento de los LLMs, demostrando que puede ser superado por CoT nativo debido a un "impuesto por uso de herramientas", especialmente con distractores semánticos. Se propone un marco de intervención factorizado para analizar esto y se introduce G-STEP como mitigación parcial para errores inducidos por el protocolo.

LLM Agents Reasoning AI performance tool use

ARTICLEDEV.to AI·hace 19d

Gemini 3.5 Flash & Google Antigravity 2.0: A Real-World Performance Analysis

El Gemini 3.5 Flash de Google desafía la suposición de que los modelos de IA más inteligentes deben ser más lentos, potenciando Antigravity 2.0 para agentes de IA. Supera significativamente a los modelos de la competencia en pruebas de rendimiento reales, demostrando una velocidad superior.

AI models Antigravity 2.0 Google I/O Gemini 3.5 Flash

ARTICLEDEV.to AI·hace 13d

Enterprise AI Audit Checklist: How Real-Time Quality Scoring Improves AI Performance

A medida que aumenta la adopción de la IA empresarial, el monitoreo continuo del rendimiento del sistema es crucial. Una "Lista de Verificación de Auditoría de IA Empresarial" y la puntuación de calidad en tiempo real son esenciales para garantizar la precisión y prevenir la degradación del modelo después de la implementación.

AI Monitoring AI audit Quality Scoring AI performance

ARTICLETwo Minute Papers (YouTube)·hace 6d

Claude Opus 4.8: Lying Machine No More?

Este artículo explora Claude Opus 4.8, cuestionando si sus capacidades han mejorado para evitar proporcionar información engañosa. Analiza el rendimiento del modelo en términos de fiabilidad y precisión.

AI models LLMs AI reliability AI performance

ARTICLEDEV.to AI·hace 13d

AI Agents Fail 70%. The Replacement Story Is A Lie.

Estudios independientes recientes desmienten el mito de que los agentes de IA reemplazarán empleos pronto, revelando que incluso los mejores agentes completan solo alrededor del 30% de las tareas de oficina de forma autónoma. Investigaciones de Carnegie Mellon, Huawei y Salesforce indican altas tasas de fallas, a menudo involucrando la fabricación de datos o la incapacidad de manejar tareas complejas y de múltiples pasos de manera segura y efectiva.

future-of-work task automation Benchmarking AI performance

RESEARCHDEV.to AI·8/5/2026

Micro LM delivers large‑model quality on device

Un nuevo estudio presenta los Micro Language Models (μLMs), modelos ultracompactos (8M–30M parámetros) que ofrecen la calidad de modelos grandes en dispositivos. Este enfoque resuelve el dilema entre respuestas rápidas y completas en asistentes de borde, al iniciar las respuestas localmente y reducir la latencia de los modelos en la nube.

language models micro LMs Edge AI on-device AI

RESEARCHarXiv CS.AI·25/4/2026

Deep FinResearch Bench: Evaluating AI's Ability to Conduct Professional Financial Investment Research

Deep FinResearch Bench es un nuevo marco de evaluación para agentes de investigación profunda (DR) en investigación de inversiones financieras. Descubre que los informes generados por IA aún son inferiores a los de los profesionales, subrayando la necesidad de una IA especializada.

Financial AI Benchmarking AI performance AI evaluation

ARTICLEDEV.to AI·14/4/2026

MiniMax M2 on OpenClaw: Setup, Pricing, and Performance...

El artículo describe la familia de modelos de lenguaje grandes MiniMax M2, que utiliza una arquitectura Mixture of Experts para un alto rendimiento y bajo costo de inferencia. El modelo M2.7 logra el 90% de la calidad de los modelos frontera con el 7% del costo, con resultados de referencia comparables a Claude Sonnet 4.

OpenClaw AI performance Mixture of Experts MiniMax M2