Model Evaluation

28 items

ARTICLE↑ trendingReddit r/LocalLLaMA·23/4/2026

Qwen3.6 can code

Un usuario, frustrado con los modelos de OpenAI, probó Qwen3.6-27b para generar código Svelte 5 y obtuvo un resultado perfecto, aunque tardó más. Anticipa desarrollos interesantes en los próximos 12 meses, a pesar de la naturaleza informal de la evaluación.

AI models Model Evaluation code generation

RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models

Este contenido presenta un proyecto de investigación comparativa que analiza "modelos obliterados" (HauhauCS, Heretic, Huihui) frente a Qwen 3/3.5, utilizando un conjunto forense completo que incluye benchmarks y evaluaciones de seguridad. El objetivo es verificar las afirmaciones de que estos modelos son "sin pérdidas y sin censura" y replicables por el lector.

AI models LLMs Model Evaluation Benchmarking

RESEARCH↑ trendingReddit r/LocalLLaMA·26/4/2026

Confirmed: SWE Bench is now a benchmaxxed benchmark

El título anuncia que SWE Bench, un benchmark para evaluar la IA en ingeniería de software, ha sido confirmado como un benchmark "benchmaxxed". Esto sugiere que ha alcanzado un estatus de alta relevancia o saturación en el campo.

software-engineering-ai Model Evaluation Benchmarks

Confirmed: SWE Bench is now a benchmaxxed benchmark

ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026

I'm running qwen3.6-35b-a3b with 8 bit quant and 64k context thru OpenCode on my mbp m5 max 128gb and it's as good as claude

Un usuario informa que está ejecutando Qwen3.6-35b-a3b localmente en un MacBook Pro M5 Max con cuantificación de 8 bits y contexto de 64k, encontrando su rendimiento comparable al de Claude. Está muy impresionado con su velocidad, capacidad para manejar tareas de investigación complejas y los beneficios de privacidad de la ejecución local.

LLMs privacy Model Evaluation Local AI

RESEARCHDEV.to AI·23/4/2026

Anthropic CVP Run 3 — Does Claude's Safety Stack Scale Down to Haiku 4.5?

La Ronda 3 del Programa de Verificación Cibernética de Anthropic probó la seguridad de su modelo Claude más pequeño (Haiku 4.5) contra 13 escenarios de ataque de agentes. El resultado fue 13/13 limpio, sin exploits ni filtraciones de secretos, demostrando la escalabilidad de la pila de seguridad a modelos más pequeños.

Model Evaluation security Anthropic AI safety

ARTICLE↑ trendingReddit r/LocalLLaMA·26/4/2026

Qwen3.6 35B A3B Heretic (KLD 0.0015!) Incredible model. Best 35B I have found!

Este contenido revisa el modelo Qwen3.6 35B A3B Heretic, elogiándolo como el mejor modelo 35B sin censura que el usuario ha encontrado. Destaca su capacidad para encajar en 24GB de VRAM, manejar llamadas de herramientas de múltiples turnos y su potencial para superar al modelo original Qwen 3.6 en benchmarks.

Model Evaluation Fine-tuning LLM

Qwen3.6 35B A3B Heretic (KLD 0.0015!) Incredible model. Best 35B I have found!

DOCOpenAI Blog·23/4/2026

GPT-5.5 System Card

Este documento, titulado "Tarjeta del Sistema GPT-5.5", probablemente detalla las especificaciones técnicas, capacidades y limitaciones del modelo de lenguaje GPT-5.5. Sirve como referencia completa para comprender el funcionamiento y las pautas de uso de este avanzado sistema de IA.

Model Evaluation large language models AI safety Generative AI

RESEARCHarXiv CS.LG·13/4/2026

Robust Reasoning Benchmark

Este estudio propone un nuevo benchmark para evaluar la robustez del razonamiento de los LLMs ante perturbaciones textuales, aplicándolo al conjunto de datos AIME 2024. Los resultados muestran que, mientras los modelos frontera son resilientes, los modelos de código abierto sufren caídas catastróficas de precisión, revelando fragilidades estructurales.

robustness LLMs Model Evaluation Reasoning

ARTICLEAWS Machine Learning Blog·hace 20d

Multimodal evaluators: MLLM-as-a-judge for image-to-text tasks in Strands Evals

El contenido discute la necesidad de evaluadores multimodales, como MLLM-as-a-judge, para tareas de imagen a texto en aplicaciones de compras visuales y comprensión de documentos. Subraya que los evaluadores solo de texto son insuficientes para verificar si las respuestas del modelo de IA se basan realmente en la imagen de origen.

AI models multimodal AI MLLM Model Evaluation

RESEARCHDEV.to AI·22/4/2026

What VAKRA Reveals About Why Agents Actually Fail

VAKRA, un nuevo benchmark de IBM Research, revela que los agentes de IA fallan de maneras predecibles y estructurales, mapeando puntos de fractura entre el razonamiento, la selección de herramientas y la ejecución. Descompone el fallo del agente en seis categorías específicas, superando las evaluaciones binarias tradicionales para descubrir debilidades comunes.

failure analysis Model Evaluation Benchmarking Reasoning

RESEARCHarXiv CS.AI·hace 27d

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

Este artículo de investigación muestra que los anclajes numéricos incrustados en las imágenes sesgan sistemáticamente los juicios de calidad de los Modelos de Visión-Lenguaje (VLMs). El sondeo capa por capa revela que las capas óptimas para la predicción de calidad son más profundas que donde satura la clasificación del anclaje, estableciendo una explicación causal del sesgo de anclaje visual.

neural networks Vision-Language Models Model Evaluation representation learning

RESEARCHarXiv CS.AI·14/4/2026

Seven simple steps for log analysis in AI systems

Esta investigación propone una metodología estandarizada para el análisis de logs en sistemas de IA, abordando la falta actual de un enfoque común. Ofrece un marco con ejemplos de código usando la biblioteca Inspect Scout, guiando a los investigadores hacia un análisis riguroso y reproducible.

Model Evaluation Log Analysis Reproducibility AI Systems

RESEARCHarXiv CS.CL·4/5/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Esta investigación explora métodos eficientes para evaluar Grandes Modelos de Audio (LAMs) utilizando subconjuntos mínimos de datos, logrando una alta correlación con los benchmarks completos. También demuestra que los modelos de regresión entrenados en estos subconjuntos pueden predecir mejor las preferencias humanas para la satisfacción del usuario que los benchmarks completos.

Model Evaluation efficiency Benchmarks Large Audio Models

RESEARCHarXiv CS.CL·7/5/2026

Not All That Is Fluent Is Factual: Investigating Hallucinations of Large Language Models in Academic Writing

Este estudio investiga las alucinaciones de los Grandes Modelos de Lenguaje (ChatGPT, Grok, Gemini, Copilot) en la escritura académica, utilizando 80 indicaciones en cuatro categorías. Se introdujo una nueva métrica ponderada, el Índice de Alucinación (HI), para medir la precisión factual y la validez de las referencias.

academic writing AI quality Model Evaluation hallucinations

ARTICLEDEV.to AI·21/4/2026

A boy and his dog.

El autor describe el entrenamiento de "Scout", un modelo de lenguaje de 50M parámetros, en TinyStories, enfatizando la calidad de los datos y el uso de sondas de prompt y Claude Code para la evaluación. Detalla el progreso del modelo, señalando su capacidad para recordar sujetos pero con dificultades de contexto y repetición a los 12.800 pasos.

prompt engineering Model Evaluation LLM training Data Quality

RESEARCHarXiv CS.CL·6/4/2026

Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments

Este artigo revela que o viés em modelos de linguagem (LLMs) é dependente da tarefa, com modelos mitigando estereótipos em avaliações explícitas, mas reproduzindo-os em tarefas implícitas. Os autores introduzem uma taxonomia hierárquica e sete tarefas de avaliação para auditar nove tipos de viés, destacando as limitações do alinhamento de segurança.

linguistic bias stereotyping LLM bias task-dependent bias

RESEARCHarXiv CS.AI·hace 6d

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

Este artículo evalúa el "exceso de pensamiento perjudicial" en Modelos de Razonamiento Grandes, donde el razonamiento continuo después de una respuesta correcta puede desestabilizar la trayectoria. Introduce un protocolo para diferenciar el exceso de pensamiento redundante del perjudicial, identificando problemas en benchmarks multimodales.

multimodal AI Overthinking Model Evaluation AI Reasoning

DOCDEV.to AI·10/5/2026

65. ROC Curves and AUC: Comparing Models Fairly

Este contenido explica cómo usar las curvas ROC y AUC para comparar modelos de clasificación de manera justa, evaluando el rendimiento en todos los umbrales posibles. Detalla qué son, cómo interpretarlos y cuándo usarlos en lugar de otras métricas, incluyendo errores comunes.

Classification Model Evaluation machine learning ROC curve

RESEARCHarXiv CS.CL·27/4/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Este artículo investiga si las recompensas de resultado en el aprendizaje por refuerzo para cadenas de pensamiento garantizan un razonamiento verificable o causalmente importante en los LLM. Introduciendo las métricas CIR y SR, los autores encuentran que, si bien el RLVR mejora la precisión, no mejora de forma fiable el CIR o el SR, y una pequeña cantidad de SFT puede remediar estos problemas.

reinforcement learning AI training Large Language Models (LLMs)Model Evaluation

RESEARCHarXiv CS.CL·30/4/2026

Analysing Lightweight Large Language Models for Biomedical Named Entity Recognition on Diverse Ouput Formats

Esta investigación examina el uso de LLMs ligeros para el Reconocimiento de Entidades Nombradas Biomédicas, demostrando su rendimiento competitivo frente a modelos más grandes. El estudio resalta su potencial como alternativas eficientes en recursos e identifica formatos de salida específicos que mejoran consistentemente el rendimiento.

LLMs named entity recognition Model Evaluation NLP