← heapsort-ai

Model Evaluation

28 items

RESEARCHarXiv CS.CL·07/05/2026

Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa

Cet article évalue les grands modèles linguistiques (LLM) en source ouverte et adaptés au domaine pour la classification des événements de conflit en Afrique de l'Ouest. L'étude révèle que les modèles en source ouverte présentent un biais de "Fausse Illégitimation", tandis que les modèles adaptés au domaine atteignent une neutralité directionnelle mais conservent un biais de sélection basé sur les acteurs.

27
ARTICLEDEV.to AI·24/04/2026

DeepSeek v4 vs GPT-5.5 vs Claude 3.7: which one should you actually use for production?

L'auteur évalue les récents lancements des modèles DeepSeek v4, GPT-5.5 et Claude 3.7 pour un usage en production, critiquant la dépendance aux benchmarks qui ne reflètent pas les performances réelles sur des tâches spécifiques. Il souligne l'importance de la cohérence, de l'efficacité des tokens et du comportement sous charge pour les applications pratiques.

27
RESEARCHarXiv CS.AI·09/04/2026

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

27
RESEARCHarXiv CS.CL·07/04/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

27
RESEARCHarXiv CS.CL·06/04/2026

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

27
RESEARCHarXiv CS.CL·06/05/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Cette recherche étudie l'utilisation de la déviation géométrique des états cachés des LLM comme signal de pré-génération pour indiquer quand une requête dépasse les connaissances du modèle. Il a été constaté que ce signal fonctionne bien pour les requêtes mathématiques non répondables, mais pas pour les requêtes factuelles.

27