← heapsort-ai

model reliability

2 items

ARTICLEDEV.to AI·20d atrás

Context Kit vs Forge Guardrails: Two Ways to Pull a Small Model Up to Frontier Reliability

O artigo compara duas abordagens para melhorar a fiabilidade de pequenos modelos de IA em fluxos de trabalho agenticos: Forge Guardrails, que usa barreiras de tempo de execução, e Context Kit, que emprega engenharia de contexto. Ambas as soluções visam aumentar o desempenho de modelos pequenos, com Forge reportando um salto de 53% para 99% e o Context Kit elevando a Gemma 4 de 75% para 92% de paridade com Claude Opus. O texto explora como essas diferentes metodologias colidem e como uma combinação hipotética poderia funcionar para resolver o problema de modelos pequenos falharem em laços de múltiplos passos.

27
RESEARCHarXiv CS.CL·29d atrás

A Semantic-Sampling Framework for Evaluating Calibration in Open-Ended Question Answering

Esta pesquisa apresenta o Sem-ECE, uma nova estrutura de amostragem semântica para avaliar a calibração em respostas a perguntas abertas de grandes modelos de linguagem. Ele aborda as limitações dos métodos de avaliação existentes, agrupando as respostas amostradas em classes semânticas, o que é crucial para a implantação confiável de LLMs.

27