Model Evaluation

28 items

RESEARCHarXiv CS.CL·5/7/2026

Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa

This paper evaluates open-weight and domain-adapted Large Language Models (LLMs) for conflict event classification in West Africa. The study reveals that open-weight models exhibit a "False Illegitimation" bias, while domain-adapted models achieve directional neutrality but retain an actor-based selection bias.

LLMs Model Evaluation Conflict Monitoring Humanitarian Accountability

RESEARCHarXiv CS.LG·22d ago

Privacy Evaluation of Generative Models for Trajectory Generation

This research evaluates the privacy of generative models used for synthetic trajectory data, identifying a significant gap in their privacy evaluation. It demonstrates the feasibility of Membership Inference Attacks against these models.

privacy Model Evaluation security trajectory data

RESEARCHarXiv CS.LG·13d ago

ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling

When language models use test-time sampling and majority vote, reasoning trajectories concentrate into non-independent

language models Model Evaluation Reasoning AI Research

ARTICLEDEV.to AI·4/24/2026

DeepSeek v4 vs GPT-5.5 vs Claude 3.7: which one should you actually use for production?

The author evaluates the recent DeepSeek v4, GPT-5.5, and Claude 3.7 model launches for production use, critiquing reliance on benchmarks that don't reflect real-world performance on specific tasks. He emphasizes the importance of consistency, token efficiency, and behavior under load for practical applications.

Model Evaluation AI application LLM

RESEARCHarXiv CS.AI·4/9/2026

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

LLMs Model Evaluation Uncertainty Quantification Reasoning

RESEARCHarXiv CS.CL·4/7/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

LLM-as-a-judge Constrained MLE Model Evaluation Failure Rate Estimation

RESEARCHarXiv CS.CL·4/6/2026

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

Long-Context Continual Pre-training Model Evaluation Pre-training Dynamics large language models

RESEARCHarXiv CS.CL·5/6/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

This research explores using geometric deviation of LLM hidden states as a pre-generation signal to determine if a query is outside the model's knowledge, requiring no labeled failure data. Across various models and prompt forms, it finds that this signal effectively predicts unanswerable math prompts but not factual ones.

LLMs research Model Evaluation Reliability