Calibration

6 items

ARTICLEKDNuggets·hace 4d

A Deep Dive into Calibration of Language Models: Platt Scaling, Isotonic Regression, Temperature Scaling

Este contenido explora tres métodos post-hoc, como Platt Scaling, Isotonic Regression y Temperature Scaling, diseñados para mejorar la calibración de los modelos de lenguaje. Estas técnicas buscan reducir la disparidad entre la confianza predicha por un modelo y su precisión real.

language models Calibration learning machine learning

A Deep Dive into Calibration of Language Models: Platt Scaling, Isotonic Regression, Temperature Scaling

ARTICLEDEV.to AI·hace 5d

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

El tamaño del conjunto de calibración etiquetado por humanos para validar un LLM-as-judge depende del equilibrio de las etiquetas. Cincuenta rastros son suficientes para criterios binarios equilibrados, pero se requieren 200 o más para categorías raras pero costosas, como las violaciones de seguridad, ya que la varianza de kappa está dominada por los ejemplos de la clase minoritaria.

LLM-as-judge Calibration evaluation sample size

DOCDEV.to AI·hace 21d

Nvidia Ising Quantum AI: Calibration Models Guide 2026

Esta guía trata los modelos de IA cuántica Ising de código abierto de Nvidia como servicios de producción, centrándose en su implementación, orquestación, salvaguardias y gobernanza dentro de los marcos de seguridad de IA existentes. Destaca la importancia crítica de la calibración para el rendimiento real de los solucionadores Ising inspirados en la cuántica, ya que los sistemas mal ajustados pueden provocar fallos de producción significativos.

Quantum Computing Calibration security AI deployment

RESEARCHarXiv CS.CL·14/4/2026

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Los grandes modelos de lenguaje suelen ser demasiado confiados, expresando alta certeza incluso cuando responden incorrectamente. Este trabajo presenta SECL, un método de entrenamiento en tiempo de prueba que aprovecha una señal de auto-supervisión para mejorar la calibración sin datos etiquetados.

Calibration self-supervision Overconfidence large language models

RESEARCHarXiv CS.CL·hace 27d

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Este estudio aborda la falta de diversidad en las salidas de los LLM, atribuyéndola a cómo los modelos asignan la masa de probabilidad entre continuaciones válidas e inválidas durante la decodificación. Introduce un marco de validez-diversidad que descompone el problema en dos formas complementarias de descalibración: calibración de orden y calibración de forma.

Calibration diversity LLMs decoding

RESEARCHarXiv CS.LG·hace 8d

Calibrated Preference Learning: The Case of Label Ranking

Este documento formaliza la calibración para la clasificación probabilística de etiquetas, introduciendo una jerarquía de nociones para clasificaciones completas, subclasificaciones y top-k. Empíricamente, los modelos populares de clasificación de etiquetas suelen estar mal calibrados, con implicaciones para los modelos de recompensa RLHF.

Calibration AI models ranking machine learning