← heapsort-ai

model reliability

2 items

ARTICLEDEV.to AI·il y a 20j

Context Kit vs Forge Guardrails: Two Ways to Pull a Small Model Up to Frontier Reliability

L'article compare deux approches pour améliorer la fiabilité des petits modèles d'IA dans les flux de travail agentiques : Forge Guardrails, qui utilise des garde-fous d'exécution, et Context Kit, qui emploie l'ingénierie de contexte. Les deux solutions visent à améliorer les performances des petits modèles, Forge rapportant une augmentation de 53% à 99% et le Context Kit élevant Gemma 4 de 75% à 92% de parité avec Claude Opus. Le texte explore comment ces différentes méthodologies se recoupent et comment une combinaison hypothétique pourrait fonctionner pour résoudre le problème des petits modèles échouant dans les boucles multi-étapes.

27
RESEARCHarXiv CS.CL·il y a 28j

A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering

Cette recherche introduit Sem-ECE, un nouveau cadre d'échantillonnage sémantique pour évaluer la calibration dans la réponse aux questions ouvertes des grands modèles de langage. Il aborde les limites des méthodes d'évaluation existantes en regroupant les réponses échantillonnées en classes sémantiques, essentiel pour le déploiement fiable des LLMs.

27