← heapsort-ai

Model Evaluation

28 items

RESEARCHarXiv CS.CL·5/7/2026

Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa

Dieser Artikel bewertet Open-Weight- und domänenangepasste große Sprachmodelle (LLMs) für die Klassifizierung von Konfliktereignissen in Westafrika. Die Studie zeigt, dass Open-Weight-Modelle eine "Falsche Illegitimations"-Voreingenommenheit aufweisen, während domänenangepasste Modelle eine nahezu direktionale Neutralität erreichen, aber eine akteurbezogene Auswahlvoreingenommenheit beibehalten.

27
ARTICLEDEV.to AI·4/24/2026

DeepSeek v4 vs GPT-5.5 vs Claude 3.7: which one should you actually use for production?

Der Autor bewertet die kürzlich veröffentlichten Modelle DeepSeek v4, GPT-5.5 und Claude 3.7 für den Produktionseinsatz und kritisiert die Abhängigkeit von Benchmarks, die die tatsächliche Leistung bei spezifischen Aufgaben nicht widerspiegeln. Er betont die Bedeutung von Konsistenz, Token-Effizienz und Verhalten unter Last für praktische Anwendungen.

27
RESEARCHarXiv CS.AI·4/9/2026

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

27
RESEARCHarXiv CS.CL·4/7/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

27
RESEARCHarXiv CS.CL·4/6/2026

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

27
RESEARCHarXiv CS.CL·5/6/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Diese Forschung untersucht die Verwendung geometrischer Abweichungen von LLM-Hidden-States als Vor-Generierungs-Signal, um anzuzeigen, wann eine Abfrage außerhalb des Wissensbereichs des Modells liegt. Es wurde festgestellt, dass dieses Signal bei unbeantwortbaren mathematischen Prompts gut funktioniert, jedoch nicht bei faktischen Prompts.

27