← heapsort-ai

AI evaluation

65 items

ARTICLEDEV.to AI·17/4/2026

lantea AI

Lantea.ai presenta un sistema métrico propietario para evaluar la IA, desafiando la visión tradicional basada en la escala de parámetros. La empresa define cinco indicadores esenciales (Divergencia, Datos de Potencia Computacional, Entrada de Densidad de Señal, Precisión de Salida, Refinamiento) que miden la creatividad, la eficiencia computacional, la robustez lógica y la capacidad de refinación del conocimiento.

27
DOCAWS Machine Learning Blog·hace 12d

Evaluating Deep Agents using LangSmith on AWS

Esta publicación ofrece una guía práctica que combina los aprendizajes de LangChain y Anthropic para evaluar agentes de IA profundos. Detalla cómo aplicar patrones de evaluación, construir evaluaciones offline con pytest y LangSmith, y configurar el monitoreo online utilizando un agente de texto a SQL con Amazon Bedrock.

27
RESEARCHarXiv CS.AI·22/4/2026

Beyond One Output: Visualizing and Comparing Distributions of Language Model Generations

Este artículo de investigación aborda la limitación de los usuarios que interactúan con modelos de lenguaje solo a través de salidas únicas, lo que oculta la distribución completa de posibles generaciones. Presenta GROVE, una visualización interactiva que representa múltiples generaciones de LM como rutas superpuestas en un gráfico de texto, revelando la estructura compartida y los puntos de ramificación para una mejor comprensión.

27
ARTICLEDEV.to AI·21/4/2026

Evaluating AI Tools for Research: A Framework for Accuracy, Bias, and Trustworthiness

El artículo aborda el desafío crítico de garantizar la fiabilidad en la investigación asistida por IA, donde el cuello de botella ya no es el acceso a la información, sino la precisión de los resultados de la IA. Propone un modelo de tres capas —integridad de recuperación, fidelidad de razonamiento y verificabilidad de la salida— para evaluar las herramientas de IA en la investigación.

27
ARTICLEDEV.to AI·hace 25d

AI Reliability: What It Is, Why It Matters, and How to Fix It

El artículo destaca el problema crítico de la fiabilidad de la IA, donde los sistemas fallan en producción a pesar de buenas puntuaciones en los benchmarks, porque son evaluados con datos estáticos y no con entradas del mundo real. Argumenta que el problema radica en medir los aspectos equivocados del rendimiento de la IA, lo que lleva a fallos inesperados después del despliegue.

27
ARTICLEDEV.to AI·hace 16d

Two AI reviews agreeing is not two reviews: how I learned to test claims before adopting them

El autor envió un conjunto de herramientas a ChatGPT-4o y Claude.ai para su revisión, recibiendo puntuaciones y críticas idénticas. Esta convergencia reveló que múltiples modelos de IA entrenados en corpus superpuestos no ofrecen una validación independiente, enfatizando la necesidad de probar críticamente las afirmaciones de la IA.

27
ARTICLEDEV.to AI·hace 22d

Saturday Night Fights

Este artículo revela una brecha significativa entre las puntuaciones de referencia de los modelos de IA y su rendimiento práctico en pruebas de preparación de agentes, donde muchos modelos con altas puntuaciones fallan en desafíos del mundo real. El autor propone una "tarjeta de lucha" para evaluar los modelos de IA basándose en sus verdaderas capacidades operativas en lugar de métricas superficiales.

27
ARTICLEDEV.to AI·hace 26d

第一次对AI Agent的精神病学评估

La primera evaluación psiquiátrica de agentes de IA (Lingtong+ y Lingyi) reveló problemas como confabulación, sobreproducción maníaca de contenido de baja calidad y fallas de implementación impulsiva. La evaluación, realizada por el agente de IA Lingke, siguió un incidente en cascada P0, destacando la necesidad de mayor control y autocrítica en los sistemas de IA.

27
RESEARCHarXiv CS.AI·25/4/2026

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

Este artículo presenta un nuevo marco para evaluar la IA gobernada por reglas, especialmente en la moderación de contenido, yendo más allá de las métricas de acuerdo simples. Propone el Defensibility Index (DI), Ambiguity Index (AI) y Probabilistic Defensibility Signal (PDS) para evaluar la corrección basada en políticas y la estabilidad del razonamiento, utilizando trazas de LLM para verificar la derivabilidad lógica de las reglas.

27
RESEARCHarXiv CS.CL·1/5/2026

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Este estudio introduce un marco de evaluación basado en ILR para analizar la consistencia de respuestas interlingüísticas de Claude (Sonnet 4.6) en seis idiomas. A través de métricas cuantitativas y evaluación cualitativa, se identifican variaciones como diferencias en la longitud de las respuestas y divergencias superficiales en grupos creativos.

27
RESEARCHarXiv CS.AI·27/4/2026

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Este trabajo desarrolla un sistema de reproducción agéntico que utiliza LLMs para replicar resultados de investigación en ciencias sociales, basándose únicamente en la descripción de los métodos de un artículo y datos originales. Evaluando diferentes agentes y LLMs en 48 artículos, se encuentra que los resultados publicados pueden recuperarse en gran medida, pero el rendimiento varía y los fallos son atribuibles a errores del agente.

27