← heapsort-ai

LLM testing

5 items

ARTICLEDEV.to AI·22/4/2026

Eval workflow for agentic builders: fork any prompt through baseline vs scaffolded agents, blind third-party judge.

Un fundador en solitario creó un flujo de trabajo de evaluación n8n para agentes de IA, realizando pruebas A/B de prompts con GPT-4o puro versus GPT-4o con un andamiaje de razonamiento, utilizando un evaluador Gemini ciego. Esta herramienta permite a los desarrolladores probar el rendimiento de los agentes en sus propias tareas, centrándose en cómo el andamiaje afecta la profundidad, la adulación y los procedimientos de diagnóstico.

35
ARTICLEDEV.to AI·24/4/2026

A QA engineer's first AI testing project - FastAPI + local LLM + pytest

Un ingeniero de automatización comparte su primer proyecto de pruebas de IA, construyendo un servicio FastAPI con un LLM local (Ollama/llama3.2) y una suite pytest, motivado por una oferta de trabajo. El objetivo era comprender los matices de las pruebas de IA/LLM en comparación con las pruebas tradicionales de UI/API, siendo el éxito inicial de la suite un desafío para el aprendizaje.

26