Model Evaluation

28 items

RESEARCHarXiv CS.CL·07/05/2026

Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa

Cet article évalue les grands modèles linguistiques (LLM) en source ouverte et adaptés au domaine pour la classification des événements de conflit en Afrique de l'Ouest. L'étude révèle que les modèles en source ouverte présentent un biais de "Fausse Illégitimation", tandis que les modèles adaptés au domaine atteignent une neutralité directionnelle mais conservent un biais de sélection basé sur les acteurs.

LLMs Model Evaluation Conflict Monitoring Humanitarian Accountability

RESEARCHarXiv CS.LG·il y a 22j

Privacy Evaluation of Generative Models for Trajectory Generation

Cette recherche évalue la confidentialité des modèles génératifs utilisés pour les données de trajectoire synthétiques, soulignant une lacune significative dans leur évaluation de la confidentialité. Elle démontre la faisabilité des attaques par inférence d'appartenance contre ces modèles.

privacy Model Evaluation security trajectory data

RESEARCHarXiv CS.LG·il y a 13j

ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling

Lorsque les modèles de langage utilisent l'échantillonnage en temps de test et le vote majoritaire, les trajectoires de raisonnement se concentrent en

language models Model Evaluation Reasoning AI Research

ARTICLEDEV.to AI·24/04/2026

DeepSeek v4 vs GPT-5.5 vs Claude 3.7: which one should you actually use for production?

L'auteur évalue les récents lancements des modèles DeepSeek v4, GPT-5.5 et Claude 3.7 pour un usage en production, critiquant la dépendance aux benchmarks qui ne reflètent pas les performances réelles sur des tâches spécifiques. Il souligne l'importance de la cohérence, de l'efficacité des tokens et du comportement sous charge pour les applications pratiques.

Model Evaluation AI application LLM

RESEARCHarXiv CS.AI·09/04/2026

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

LLMs Model Evaluation Uncertainty Quantification Reasoning

RESEARCHarXiv CS.CL·07/04/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

LLM-as-a-judge Constrained MLE Model Evaluation Failure Rate Estimation

RESEARCHarXiv CS.CL·06/04/2026

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

Long-Context Continual Pre-training Model Evaluation Pre-training Dynamics large language models

RESEARCHarXiv CS.CL·06/05/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Cette recherche étudie l'utilisation de la déviation géométrique des états cachés des LLM comme signal de pré-génération pour indiquer quand une requête dépasse les connaissances du modèle. Il a été constaté que ce signal fonctionne bien pour les requêtes mathématiques non répondables, mais pas pour les requêtes factuelles.

LLMs research Model Evaluation Reliability