← heapsort-ai

model performance

22 items

RESEARCH↑ trendingReddit r/MachineLearning·17/4/2026

Low accuracy (~50%) with SSL (BYOL/MAE/VICReg) on hyperspectral crop stress data — what am I missing? [R]

El contenido detalla un problema persistente de baja precisión (~50%) al usar métodos de aprendizaje auto-supervisado como BYOL, MAE y VICReg para la detección de estrés en cultivos hiperespectrales. A pesar de probar varias técnicas, el rendimiento apenas supera el aleatorio para tres clases, lo que genera sospechas sobre la separabilidad de los datos o la idoneidad de los métodos SSL.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·23/4/2026

Qwen 3.6 27B Makes Huge Gains in Agency on Artificial Analysis - Ties with Sonnet 4.6

Qwen 3.6 27B ha logrado grandes avances, igualando a Sonnet 4.6 en el Índice Agéntico de Artificial Analysis y superando a otros modelos destacados. El entrenamiento del modelo parece enfocado en el uso agéntico, mostrando un rendimiento sorprendente para su tamaño, a pesar de las métricas cuestionables del Índice de Codificación.

Qwen 3.6 27B Makes Huge Gains in Agency on Artificial Analysis - Ties with Sonnet 4.6
41
ARTICLE↑ trendingReddit r/LocalLLaMA·21/4/2026

Did Google hide the best version of Gemma 4 e4b in Android? The extracted model beats Unsloth and everything else I've tried.

El usuario observó que una versión del modelo Gemma 4 e4b extraída de Google AI Edge Gallery en Android rinde significativamente mejor y es más inteligente que las versiones de Unsloth o litertlm, a pesar de ser ligeramente más pequeña. Se pregunta si Google podría estar ocultando una versión superior y optimizada del modelo en Android.

38
RESEARCHarXiv CS.LG·hace 20d

Dimensional Balance Improves Large Scale Spatiotemporal Prediction Performance

Este artículo propone un marco escalable y adaptativo para mejorar la predicción espacio-temporal, armonizando las representaciones de características espaciales y temporales. Aborda los cuellos de botella de los métodos existentes mediante medidas de entropía espacial y temporal para la desalineación de la complejidad y la incertidumbre de la predicción.

29
RESEARCHarXiv CS.CL·24/4/2026

Serialisation Strategy Matters: How FHIR Data Format Affects LLM Medication Reconciliation

Este estudio compara sistemáticamente cuatro estrategias de serialización de datos FHIR para la conciliación de medicamentos asistida por LLM, demostrando un impacto significativo en el rendimiento de modelos más pequeños. La "Narrativa Clínica" superó al "JSON Crudo" para modelos de hasta 8B parámetros, pero esta ventaja se invirtió para el modelo de 70B.

29
RESEARCHarXiv CS.CL·hace 19d

Improving Quantized Model Performance in Qualitative Analysis with Multi-Pass Prompt Verification

Esta investigación examina cómo varios niveles de cuantificación de bits bajos afectan el rendimiento de LLaMA-3.1 en el análisis cualitativo, señalando que los modelos de bajo bit a menudo producen alucinaciones. Propone un método de verificación de prompt multipaso consciente de la cuantificación para mejorar la precisión reduciendo sistemáticamente las alucinaciones y filtrando contenido poco fiable.

28
RESEARCHDEV.to AI·hace 20d

How Far Can a Small Coding Model Go With a Better Harness?

El artículo explora el rendimiento de un modelo de codificación pequeño (GPT-5.1-Codex-Mini) en Terminal-Bench 2.0, logrando un 61,6% al optimizar su "arnés" en lugar de cambiar a un modelo más grande. Esto subraya que el envoltorio del modelo es fundamental para el rendimiento, particularmente con modelos pequeños donde los errores del arnés son más notorios.

27
ARTICLEDEV.to AI·hace 15d

Most people starting with local LLMs jump straight to 4-bit quantization because it's fast and uses

Este artículo compara la cuantificación de LLMs de 16, 8 y 4 bits, revelando que la de 4 bits, aunque más rápida, compromete significativamente la calidad en tareas de razonamiento y matemáticas. La verdadera compensación es entre la tarea y la precisión requerida, siendo 8 bits óptimo para tareas que exigen precisión, minimizando la pérdida de calidad con solo una ligera reducción de velocidad. La elección de la cuantificación debe basarse en la tarea y las consideraciones de hardware, no solo en el hardware.

27
ARTICLEDEV.to AI·hace 22d

Saturday Night Fights

Este artículo revela una brecha significativa entre las puntuaciones de referencia de los modelos de IA y su rendimiento práctico en pruebas de preparación de agentes, donde muchos modelos con altas puntuaciones fallan en desafíos del mundo real. El autor propone una "tarjeta de lucha" para evaluar los modelos de IA basándose en sus verdaderas capacidades operativas en lugar de métricas superficiales.

27
NEWSDEV.to AI·26/4/2026

DeepSeek V4 Pro Just Dropped — Here's What Changed for AI Agents

DeepSeek V4 Pro fue lanzado el 24 de abril de 2026, con 1.6T de parámetros y un contexto de 1M de tokens, ofreciendo modos 'Pensar' y 'No Pensar'. Este nuevo modelo se destaca como una opción optimizada para agentes de IA debido a su rentabilidad y mejoras significativas en tareas de contexto largo y llamadas a funciones en comparación con versiones anteriores y competidores.

27
RESEARCHDEV.to AI·9/5/2026

Hierarchical skill KB improves performance of weaker models

Una nueva pipeline automatizada, SkillX, mejora el rendimiento de los agentes autónomos de modelos de lenguaje al extraer comportamientos jerárquicos reutilizables de trayectorias colectivas. Esta base de conocimiento de tres niveles (habilidades estratégicas, funcionales y atómicas) permite que los modelos más débiles recuperen experiencias de manera eficiente, superando las limitaciones de los métodos tradicionales.

27
ARTICLEDEV.to AI·9/5/2026

DeepSeek V4 Pro vs Flash: 3 Tasks, 100M Tokens, Real Cost-Quality Tradeoff

Este análisis compara los modelos DeepSeek V4 Pro y V4 Flash, observando una diferencia de precio de 12x pero una brecha de calidad mínima para tareas de codificación simples, lo que hace que Flash sea una opción viable. Para el razonamiento complejo de múltiples archivos, V4 Pro es esencial, y la implementación de enrutamiento basado en tareas puede reducir los gastos de DeepSeek en un 80% sin una pérdida significativa de calidad.

27
ARTICLEDEV.to AI·8/5/2026

From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures

Un equipo de ingeniería llevó a cabo cuatro iteraciones de entrenamiento DPO en Qwen2.5-Coder-7B-Instruct, con el objetivo de superar su puntuación del 87.20% en HumanEval pass@1. Los tres primeros intentos fallaron debido a errores en el pipeline de generación de muestras que las puertas de calidad existentes no detectaron, logrando la cuarta iteración una mejora de +0.61pp.

27