← heapsort-ai

LLM evaluation

18 items

ARTICLEDEV.to AI·hace 3h

More eval traces will not stabilize your kappa. Stratify the ones you have

El contenido trata sobre la inestabilidad del acuerdo LLM como juez (kappa de Cohen) que fluctuaba semanalmente, incluso sin cambios en la rúbrica. Aumentar el tamaño de la muestra no lo estabilizó; la solución fue estratificar las 50 trazas existentes por clase de puntuación y dimensiones de falla, lo que redujo significativamente la variación y demostró que la composición era la clave, no el volumen.

62
ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

OpenSimula — open implementation of Simula-style mechanism design for synthetic data (in AfterImage) [P]

OpenSimula es una implementación experimental en Python del diseño de mecanismos Simula, añadida a la herramienta de conjuntos de datos de código abierto AfterImage. Aborda la necesidad de diversidad controlada en las configuraciones de SFT/evaluación de LLM, generando datos sintéticos variados mediante taxonomías construidas por LLM, muestreo ponderado y bucles críticos.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·13/4/2026

Best Local LLMs - Apr 2026

El artículo analiza los mejores LLMs locales en abril de 2026, destacando lanzamientos como Qwen3.5, Gemma4, GLM-5.1, Minimax-M2.7 y PrismML Bonsai. Invita a los usuarios a compartir sus experiencias detalladas con modelos de código abierto para ayudar en la evaluación.

42
ARTICLEDEV.to AI·hace 5d

How do you know your AI receptionist is actually following its instructions?

Este artículo aborda el problema de la inteligencia artificial de voz, específicamente los modelos de lenguaje grandes, que pueden inventar información en interacciones de servicio al cliente. Propone el uso de "evaluaciones" para probar y asegurar que los agentes de IA sigan sus instrucciones, evitando detalles incorrectos y la insatisfacción del cliente.

28
ARTICLEDEV.to AI·27/4/2026

Testing AI Systems in Production: From LLM Evals to Agent Reliability

El contenido critica los métodos actuales de prueba de LLM en producción, señalando que los despliegues "fluidos" a menudo ocultan alucinaciones sutiles que causan pérdidas financieras o de datos. Destaca la necesidad de evaluaciones basadas en la verdad, datos de mejor calidad y estrategias específicas para probar la fiabilidad de los agentes de IA y evitar fallos destructivos.

27
ARTICLEDEV.to AI·hace 22d

LLM Evaluation for Indie Hackers: Stop Paying Braintrust and Build This Instead

El artículo presenta un sistema de evaluación de LLM basado en rúbricas y rentable para desarrolladores independientes, diseñado para ejecutarse en CI y prevenir problemas como datos alucinatorios en producción. Ofrece una alternativa a las costosas soluciones empresariales, definiendo la calidad a través de atributos concretos y conjuntos de datos "golden".

27
CASEDEV.to AI·19/4/2026

A Truth Filter for AI-Generated Ideas: An Experiment with Property-Based Testing

El autor utilizó pruebas basadas en propiedades para verificar la veracidad de las afirmaciones en un artículo generado por IA sobre la construcción de un "segundo cerebro". Aunque la mayoría de las afirmaciones se mantuvieron, un cuantificador universal fue falsificado, destacando la eficacia del método para descubrir requisitos estructurales sutiles.

27
RESEARCHarXiv CS.CL·5/5/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Este trabajo argumenta que los efectos observados del "prompting contrafactual" en LLMs no pueden atribuirse a un factor objetivo sin considerar modificaciones de texto que preserven el significado y establezcan la sensibilidad general del modelo. La investigación muestra que las tasas de cambio de predicción al modificar el género del paciente son indistinguibles de las tasas inducidas por simples paráfrasis, sugiriendo que no se puede concluir una sensibilidad especial al género del paciente.

27
RESEARCHarXiv CS.CL·9/4/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

27
RESEARCHarXiv CS.CL·hace 18d

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

Se presenta RankJudge como un generador de puntos de referencia para evaluar LLM-as-a-judge en conversaciones de varias interacciones, abordando la complejidad que los puntos de referencia existentes centrados en preguntas y respuestas no capturan. Crea pares de conversaciones con defectos inyectados, lo que permite un etiquetado inequívoco y un aislamiento preciso para los desarrolladores de modelos que dependen de la auto-evaluación.

27
RESEARCHarXiv CS.CL·hace 12d

Modeling Community Attitude through Reaction Tone: A Human-AI Collaborative Framework for Evaluating LLM Alignment with Linguistic Behaviors in Online Communities

Este estudio introduce CARE (Community-Aware Reaction Evaluation), un marco para comparar la simulación de discurso de los LLM con las respuestas auténticas y contingentes de comunidades a noticias del mundo real. A través de la colaboración humano-IA, la investigación identifica una "brecha de realismo", demostrando que las indicaciones explícitas de la comunidad no mejoran inherentemente la fidelidad de la simulación.

27