Calibration

6 items

ARTICLEKDNuggets·il y a 4j

A Deep Dive into Calibration of Language Models: Platt Scaling, Isotonic Regression, Temperature Scaling

Ce contenu explore trois méthodes post-hoc – Platt Scaling, Isotonic Regression et Temperature Scaling – conçues pour améliorer la calibration des modèles de langage. Ces techniques visent à réduire l'écart entre la confiance prédite par un modèle et sa précision réelle.

language models Calibration learning machine learning

A Deep Dive into Calibration of Language Models: Platt Scaling, Isotonic Regression, Temperature Scaling

ARTICLEDEV.to AI·il y a 5j

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

La taille de l'ensemble de calibration étiqueté par des humains pour valider un LLM-as-judge dépend de l'équilibre des étiquettes. Cinquante traces sont suffisantes pour des critères binaires équilibrés, mais 200 ou plus sont nécessaires pour des catégories rares et coûteuses, comme les violations de sécurité, car la variance du kappa est dominée par les exemples de la classe minoritaire.

LLM-as-judge Calibration evaluation sample size

DOCDEV.to AI·il y a 21j

Nvidia Ising Quantum AI: Calibration Models Guide 2026

Ce guide traite les modèles d'IA quantique Ising open-source de Nvidia comme des services de production, en se concentrant sur leur déploiement, leur orchestration, leurs garde-fous et leur gouvernance au sein des cadres de sécurité IA existants. Il souligne l'importance critique de la calibration pour la performance réelle des solveurs Ising d'inspiration quantique, car des systèmes mal réglés peuvent entraîner des défaillances de production significatives.

Quantum Computing Calibration security AI deployment

RESEARCHarXiv CS.CL·14/04/2026

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Les grands modèles de langage sont souvent trop confiants, exprimant une grande certitude même lorsqu'ils sont incorrects. Cet article présente SECL, un pipeline d'entraînement en temps de test qui exploite un signal auto-supervisé pour améliorer la calibration sans nécessiter de données étiquetées.

Calibration self-supervision Overconfidence large language models

RESEARCHarXiv CS.CL·il y a 27j

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Cette recherche examine le manque de diversité dans les sorties des LLM, l'attribuant à la manière dont les modèles allouent la masse de probabilité entre les continuations valides et invalides lors du décodage. Elle introduit un cadre validité-diversité qui décompose le problème en deux formes complémentaires de défaut de calibration : la calibration d'ordre et la calibration de forme.

Calibration diversity LLMs decoding

RESEARCHarXiv CS.LG·il y a 8j

Calibrated Preference Learning: The Case of Label Ranking

Cet article formalise la calibration pour le classement probabiliste d'étiquettes, introduisant une hiérarchie de notions pour les classements complets, les sous-classements et les top-k. Empiriquement, les modèles populaires de classement d'étiquettes sont souvent mal calibrés, avec des implications pour les modèles de récompense RLHF.

Calibration AI models ranking machine learning