← heapsort-ai

model reliability

2 items

ARTICLEDEV.to AI·hace 20d

Context Kit vs Forge Guardrails: Two Ways to Pull a Small Model Up to Frontier Reliability

El artículo compara dos enfoques para mejorar la fiabilidad de los modelos pequeños de IA en flujos de trabajo agénticos: Forge Guardrails, que utiliza barreras de tiempo de ejecución, y Context Kit, que emplea ingeniería de contexto. Ambas soluciones tienen como objetivo aumentar el rendimiento de los modelos pequeños, con Forge reportando un salto del 53% al 99% y el Context Kit elevando a Gemma 4 del 75% al ​​92% de paridad con Claude Opus. El texto explora cómo estas diferentes metodologías chocan y cómo una combinación hipotética podría funcionar para resolver el problema de los modelos pequeños que fallan en bucles de varios pasos.

27
RESEARCHarXiv CS.CL·hace 28d

A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering

Esta investigación introduce Sem-ECE, un novedoso marco de muestreo semántico para evaluar la calibración en la respuesta a preguntas abiertas de grandes modelos de lenguaje. Aborda las limitaciones de los métodos de evaluación existentes al agrupar las respuestas muestreadas en clases semánticas, crucial para el despliegue fiable de los LLMs.

27