LLM testing

5 items

DOCDEV.to AI·hace 17h

Integrate CometAPI with Promptfoo: All You Need to Kow

La guía explica cómo integrar Promptfoo, una herramienta CLI de código abierto para probar LLMs, con CometAPI, una API unificada compatible con OpenAI. Esta integración permite a los desarrolladores probar más de 500 modelos desde una única clave, a menudo con un coste menor.

Open Source Promptfoo API LLM testing

ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026

I tested 8 LLMs as tabletop GMs - a 27B model beat the 405B on narrative quality

El autor desarrolló un GM de RPG de mesa agnóstico y con agentes, probando 8 LLM para evaluar la calidad narrativa. Sorprendentemente, un modelo de 27B superó a uno de 405B en la generación de atmósfera y narración deseable para el juego.

narrative quality Benchmarking Agentic AI LLM testing

I tested 8 LLMs as tabletop GMs - a 27B model beat the 405B on narrative quality

ARTICLEDEV.to AI·22/4/2026

Eval workflow for agentic builders: fork any prompt through baseline vs scaffolded agents, blind third-party judge.

Un fundador en solitario creó un flujo de trabajo de evaluación n8n para agentes de IA, realizando pruebas A/B de prompts con GPT-4o puro versus GPT-4o con un andamiaje de razonamiento, utilizando un evaluador Gemini ciego. Esta herramienta permite a los desarrolladores probar el rendimiento de los agentes en sus propias tareas, centrándose en cómo el andamiaje afecta la profundidad, la adulación y los procedimientos de diagnóstico.

prompt engineering agent development LLM testing AI evaluation

DOCDEV.to AI·8/4/2026

Test Your LLM Like You Test Your UI

Este conteúdo apresenta o `@llmassert/playwright`, uma ferramenta que adiciona matchers baseados em LLM ao Playwright para testar chatbots. Ela permite verificar a qualidade das respostas, detectando alucinações, PII, tom, formato e precisão semântica, indo além dos testes tradicionais para garantir respostas corretas.

hallucination detection Chatbot Testing AI quality Playwright

ARTICLEDEV.to AI·24/4/2026

A QA engineer's first AI testing project - FastAPI + local LLM + pytest

Un ingeniero de automatización comparte su primer proyecto de pruebas de IA, construyendo un servicio FastAPI con un LLM local (Ollama/llama3.2) y una suite pytest, motivado por una oferta de trabajo. El objetivo era comprender los matices de las pruebas de IA/LLM en comparación con las pruebas tradicionales de UI/API, siendo el éxito inicial de la suite un desafío para el aprendizaje.

pytest Ollama FastAPI LLM testing