LLM evaluation

18 items

ARTICLEDEV.to AI·hace 3h

More eval traces will not stabilize your kappa. Stratify the ones you have

El contenido trata sobre la inestabilidad del acuerdo LLM como juez (kappa de Cohen) que fluctuaba semanalmente, incluso sin cambios en la rúbrica. Aumentar el tamaño de la muestra no lo estabilizó; la solución fue estratificar las 50 trazas existentes por clase de puntuación y dimensiones de falla, lo que redujo significativamente la variación y demostró que la composición era la clave, no el volumen.

AI metrics sampling strategy Cohen's Kappa LLM evaluation

RESEARCHDEV.to AI·hace 9h

Aligning with Human Judgement: The Role of Pairwise Preference in Large LanguageModel Evaluators

Este contenido explora el papel crítico de la preferencia por pares en la evaluación de Grandes Modelos de Lenguaje (LLM). Discute cómo este método puede ayudar a alinear el rendimiento de los LLM de manera más efectiva con el juicio humano.

Human Alignment Pairwise Preference natural language processing AI Research

ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

OpenSimula — open implementation of Simula-style mechanism design for synthetic data (in AfterImage) [P]

OpenSimula es una implementación experimental en Python del diseño de mecanismos Simula, añadida a la herramienta de conjuntos de datos de código abierto AfterImage. Aborda la necesidad de diversidad controlada en las configuraciones de SFT/evaluación de LLM, generando datos sintéticos variados mediante taxonomías construidas por LLM, muestreo ponderado y bucles críticos.

synthetic data mechanism-design open-source-tool LLM evaluation

ARTICLE↑ trendingReddit r/LocalLLaMA·13/4/2026

Best Local LLMs - Apr 2026

El artículo analiza los mejores LLMs locales en abril de 2026, destacando lanzamientos como Qwen3.5, Gemma4, GLM-5.1, Minimax-M2.7 y PrismML Bonsai. Invita a los usuarios a compartir sus experiencias detalladas con modelos de código abierto para ayudar en la evaluación.

AI models open-source AI Local LLMs generative AI

ARTICLEDEV.to AI·hace 21d

Building an Evaluation Harness for Financial RAG: What I Learned About LLM-as-Judge Calibration

El autor desarrolló un sistema RAG para preguntas y respuestas financieras, utilizando documentos de la SEC y el benchmark FinanceBench. Descubrió una discrepancia significativa entre las evaluaciones de un LLM como juez y el rendimiento real, obteniendo lecciones sobre la calibración de LLMs para la evaluación.

Financial AI Benchmarking GPT-4o-mini RAG system

RESEARCHarXiv CS.CL·7/4/2026

Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation

QIMMA é uma nova plataforma de avaliação de LLMs em árabe que prioriza a qualidade, realizando validação sistemática de benchmarks. Ela resolve problemas de qualidade em benchmarks existentes através de revisão automatizada e humana, resultando em um conjunto de avaliação reprodutível e multi-tarefa com mais de 52 mil amostras.

Arabic LLM NLP Benchmarks Quality Assurance

ARTICLEDEV.to AI·hace 5d

How do you know your AI receptionist is actually following its instructions?

Este artículo aborda el problema de la inteligencia artificial de voz, específicamente los modelos de lenguaje grandes, que pueden inventar información en interacciones de servicio al cliente. Propone el uso de "evaluaciones" para probar y asegurar que los agentes de IA sigan sus instrucciones, evitando detalles incorrectos y la insatisfacción del cliente.

AI hallucinations customer service AI AI reliability LLM evaluation

ARTICLEDEV.to AI·27/4/2026

Testing AI Systems in Production: From LLM Evals to Agent Reliability

El contenido critica los métodos actuales de prueba de LLM en producción, señalando que los despliegues "fluidos" a menudo ocultan alucinaciones sutiles que causan pérdidas financieras o de datos. Destaca la necesidad de evaluaciones basadas en la verdad, datos de mejor calidad y estrategias específicas para probar la fiabilidad de los agentes de IA y evitar fallos destructivos.

AI reliability AI testing AI agents LLM evaluation

ARTICLEDEV.to AI·14/4/2026

AI Search Showdown: Perplexity vs SearchGPT vs Claude 3.5 Sonnet (2026)

Este contenido presenta un análisis comparativo de herramientas de búsqueda de IA: Perplexity AI, OpenAI SearchGPT y Claude 3.5 Sonnet. Detalla una evaluación práctica utilizando tres prompts complejos distintos para medir su rendimiento en precisión, velocidad, citas y capacidades multimodales.

AI comparison Perplexity AI Claude 3.5 Sonnet OpenAI SearchGPT

DOCDEV.to AI·hace 22d

LLM Evaluation for Indie Hackers: Build a £0.20/Run System That Catches Real Bugs

Este contenido enseña a los indie hackers cómo construir un sistema de evaluación de LLM de bajo costo (£0.20/ejecución) para detectar errores reales en producción. El sistema utiliza un conjunto de datos dorado, un LLM para puntuar las salidas y una puerta CI para bloquear fusiones.

indie hackers CI/CD Software Development Testing

ARTICLEDEV.to AI·hace 22d

LLM Evaluation for Indie Hackers: Stop Paying Braintrust and Build This Instead

El artículo presenta un sistema de evaluación de LLM basado en rúbricas y rentable para desarrolladores independientes, diseñado para ejecutarse en CI y prevenir problemas como datos alucinatorios en producción. Ofrece una alternativa a las costosas soluciones empresariales, definiendo la calidad a través de atributos concretos y conjuntos de datos "golden".

indie hackers CI/CD Testing cost-effective solutions

CASEDEV.to AI·19/4/2026

A Truth Filter for AI-Generated Ideas: An Experiment with Property-Based Testing

El autor utilizó pruebas basadas en propiedades para verificar la veracidad de las afirmaciones en un artículo generado por IA sobre la construcción de un "segundo cerebro". Aunque la mayoría de las afirmaciones se mantuvieron, un cuantificador universal fue falsificado, destacando la eficacia del método para descubrir requisitos estructurales sutiles.

AI Verification AI Content Generation property-based testing LLM evaluation

RESEARCHarXiv CS.CL·5/5/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Este trabajo argumenta que los efectos observados del "prompting contrafactual" en LLMs no pueden atribuirse a un factor objetivo sin considerar modificaciones de texto que preserven el significado y establezcan la sensibilidad general del modelo. La investigación muestra que las tasas de cambio de predicción al modificar el género del paciente son indistinguibles de las tasas inducidas por simples paráfrasis, sugiriendo que no se puede concluir una sensibilidad especial al género del paciente.

counterfactual prompting model robustness AI bias natural language processing

RESEARCHarXiv CS.CL·9/4/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

hallucination Abstention Architectures large language models AI safety

RESEARCHarXiv CS.CL·hace 18d

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

Se presenta RankJudge como un generador de puntos de referencia para evaluar LLM-as-a-judge en conversaciones de varias interacciones, abordando la complejidad que los puntos de referencia existentes centrados en preguntas y respuestas no capturan. Crea pares de conversaciones con defectos inyectados, lo que permite un etiquetado inequívoco y un aislamiento preciso para los desarrolladores de modelos que dependen de la auto-evaluación.

Multi-turn conversations LLM-as-a-judge Benchmarking generative AI

RESEARCHarXiv CS.CL·hace 12d

Modeling Community Attitude through Reaction Tone: A Human-AI Collaborative Framework for Evaluating LLM Alignment with Linguistic Behaviors in Online Communities

Este estudio introduce CARE (Community-Aware Reaction Evaluation), un marco para comparar la simulación de discurso de los LLM con las respuestas auténticas y contingentes de comunidades a noticias del mundo real. A través de la colaboración humano-IA, la investigación identifica una "brecha de realismo", demostrando que las indicaciones explícitas de la comunidad no mejoran inherentemente la fidelidad de la simulación.

linguistic behavior AI alignment computational social science LLM evaluation

RESEARCHarXiv CS.CL·hace 28d

Sanity Checks for Long-Form Hallucination Detection

Este trabajo de investigación presenta una metodología de invariancia controlada para la detección de alucinaciones en grandes modelos de lenguaje. Mediante pruebas de oráculo como extsc{Force} y extsc{Remove}, se explora si los métodos evalúan el razonamiento o solo correlatos superficiales de la respuesta final.

hallucination detection Chain-of-Thought large language models LLM evaluation

ARTICLEDEV.to AI·14/4/2026

I added a local eval loop to my personal AI assistant — here's what 800 scored interactions taught me

El autor integró un bucle de evaluación local con un modelo Ollama en su asistente de IA personal para calificar interacciones según precisión y relevancia. Después de 800 interacciones, encontró que las respuestas más cortas y directas obtenían puntuaciones consistentemente mejores.

AI assistant self-hosted AI Ollama DSPy