← heapsort-ai

Model Evaluation

28 items

ARTICLE↑ trendingReddit r/LocalLLaMA·23/4/2026

Qwen3.6 can code

Un usuario, frustrado con los modelos de OpenAI, probó Qwen3.6-27b para generar código Svelte 5 y obtuvo un resultado perfecto, aunque tardó más. Anticipa desarrollos interesantes en los próximos 12 meses, a pesar de la naturaleza informal de la evaluación.

52
RESEARCH↑ trendingReddit r/LocalLLaMA·18/4/2026

Abliterlitics: Benchmark and Tensor Analysis Comparing Qwen 3/3.5 with HauhauCS / Heretic / Huihui models

Este contenido presenta un proyecto de investigación comparativa que analiza "modelos obliterados" (HauhauCS, Heretic, Huihui) frente a Qwen 3/3.5, utilizando un conjunto forense completo que incluye benchmarks y evaluaciones de seguridad. El objetivo es verificar las afirmaciones de que estos modelos son "sin pérdidas y sin censura" y replicables por el lector.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026

I'm running qwen3.6-35b-a3b with 8 bit quant and 64k context thru OpenCode on my mbp m5 max 128gb and it's as good as claude

Un usuario informa que está ejecutando Qwen3.6-35b-a3b localmente en un MacBook Pro M5 Max con cuantificación de 8 bits y contexto de 64k, encontrando su rendimiento comparable al de Claude. Está muy impresionado con su velocidad, capacidad para manejar tareas de investigación complejas y los beneficios de privacidad de la ejecución local.

42
DOCOpenAI Blog·23/4/2026

GPT-5.5 System Card

Este documento, titulado "Tarjeta del Sistema GPT-5.5", probablemente detalla las especificaciones técnicas, capacidades y limitaciones del modelo de lenguaje GPT-5.5. Sirve como referencia completa para comprender el funcionamiento y las pautas de uso de este avanzado sistema de IA.

32
RESEARCHarXiv CS.LG·13/4/2026

Robust Reasoning Benchmark

Este estudio propone un nuevo benchmark para evaluar la robustez del razonamiento de los LLMs ante perturbaciones textuales, aplicándolo al conjunto de datos AIME 2024. Los resultados muestran que, mientras los modelos frontera son resilientes, los modelos de código abierto sufren caídas catastróficas de precisión, revelando fragilidades estructurales.

30
RESEARCHarXiv CS.AI·hace 27d

Don't Look at the Numbers: Visual Anchoring Bias and Layer-wise Representation in VLMs

Este artículo de investigación muestra que los anclajes numéricos incrustados en las imágenes sesgan sistemáticamente los juicios de calidad de los Modelos de Visión-Lenguaje (VLMs). El sondeo capa por capa revela que las capas óptimas para la predicción de calidad son más profundas que donde satura la clasificación del anclaje, estableciendo una explicación causal del sesgo de anclaje visual.

29
RESEARCHarXiv CS.CL·4/5/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Esta investigación explora métodos eficientes para evaluar Grandes Modelos de Audio (LAMs) utilizando subconjuntos mínimos de datos, logrando una alta correlación con los benchmarks completos. También demuestra que los modelos de regresión entrenados en estos subconjuntos pueden predecir mejor las preferencias humanas para la satisfacción del usuario que los benchmarks completos.

28
RESEARCHarXiv CS.CL·7/5/2026

Not All That Is Fluent Is Factual: Investigating Hallucinations of Large Language Models in Academic Writing

Este estudio investiga las alucinaciones de los Grandes Modelos de Lenguaje (ChatGPT, Grok, Gemini, Copilot) en la escritura académica, utilizando 80 indicaciones en cuatro categorías. Se introdujo una nueva métrica ponderada, el Índice de Alucinación (HI), para medir la precisión factual y la validez de las referencias.

28
ARTICLEDEV.to AI·21/4/2026

A boy and his dog.

El autor describe el entrenamiento de "Scout", un modelo de lenguaje de 50M parámetros, en TinyStories, enfatizando la calidad de los datos y el uso de sondas de prompt y Claude Code para la evaluación. Detalla el progreso del modelo, señalando su capacidad para recordar sujetos pero con dificultades de contexto y repetición a los 12.800 pasos.

27
RESEARCHarXiv CS.CL·6/4/2026

Redirected, Not Removed: Task-Dependent Stereotyping Reveals the Limits of LLM Alignments

Este artigo revela que o viés em modelos de linguagem (LLMs) é dependente da tarefa, com modelos mitigando estereótipos em avaliações explícitas, mas reproduzindo-os em tarefas implícitas. Os autores introduzem uma taxonomia hierárquica e sete tarefas de avaliação para auditar nove tipos de viés, destacando as limitações do alinhamento de segurança.

27
RESEARCHarXiv CS.AI·hace 6d

Thinking Past the Answer: Evaluating Harmful Overthinking in Large Reasoning Models

Este artículo evalúa el "exceso de pensamiento perjudicial" en Modelos de Razonamiento Grandes, donde el razonamiento continuo después de una respuesta correcta puede desestabilizar la trayectoria. Introduce un protocolo para diferenciar el exceso de pensamiento redundante del perjudicial, identificando problemas en benchmarks multimodales.

27
RESEARCHarXiv CS.CL·27/4/2026

Outcome Rewards Do Not Guarantee Verifiable or Causally Important Reasoning

Este artículo investiga si las recompensas de resultado en el aprendizaje por refuerzo para cadenas de pensamiento garantizan un razonamiento verificable o causalmente importante en los LLM. Introduciendo las métricas CIR y SR, los autores encuentran que, si bien el RLVR mejora la precisión, no mejora de forma fiable el CIR o el SR, y una pequeña cantidad de SFT puede remediar estos problemas.

27
RESEARCHarXiv CS.CL·30/4/2026

Analysing Lightweight Large Language Models for Biomedical Named Entity Recognition on Diverse Ouput Formats

Esta investigación examina el uso de LLMs ligeros para el Reconocimiento de Entidades Nombradas Biomédicas, demostrando su rendimiento competitivo frente a modelos más grandes. El estudio resalta su potencial como alternativas eficientes en recursos e identifica formatos de salida específicos que mejoran consistentemente el rendimiento.

27