Model Evaluation

28 items

RESEARCHarXiv CS.CL·5/7/2026

Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa

Dieser Artikel bewertet Open-Weight- und domänenangepasste große Sprachmodelle (LLMs) für die Klassifizierung von Konfliktereignissen in Westafrika. Die Studie zeigt, dass Open-Weight-Modelle eine "Falsche Illegitimations"-Voreingenommenheit aufweisen, während domänenangepasste Modelle eine nahezu direktionale Neutralität erreichen, aber eine akteurbezogene Auswahlvoreingenommenheit beibehalten.

LLMs Model Evaluation Conflict Monitoring Humanitarian Accountability

RESEARCHarXiv CS.LG·vor 22T

Privacy Evaluation of Generative Models for Trajectory Generation

Diese Forschung untersucht die Privatsphäre generativer Modelle zur Erzeugung synthetischer Trajektoriendaten und identifiziert eine erhebliche Lücke in deren Datenschutzevaluierung. Sie zeigt die Machbarkeit von Membership Inference Attacks gegen diese Modelle.

privacy Model Evaluation security trajectory data

RESEARCHarXiv CS.LG·vor 13T

ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling

Wenn Sprachmodelle Testzeit-Sampling und Mehrheitsentscheid nutzen, konzentrieren sich Denkpfade in nicht-unabhängigen

language models Model Evaluation Reasoning AI Research

ARTICLEDEV.to AI·4/24/2026

DeepSeek v4 vs GPT-5.5 vs Claude 3.7: which one should you actually use for production?

Der Autor bewertet die kürzlich veröffentlichten Modelle DeepSeek v4, GPT-5.5 und Claude 3.7 für den Produktionseinsatz und kritisiert die Abhängigkeit von Benchmarks, die die tatsächliche Leistung bei spezifischen Aufgaben nicht widerspiegeln. Er betont die Bedeutung von Konsistenz, Token-Effizienz und Verhalten unter Last für praktische Anwendungen.

Model Evaluation AI application LLM

RESEARCHarXiv CS.AI·4/9/2026

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

LLMs Model Evaluation Uncertainty Quantification Reasoning

RESEARCHarXiv CS.CL·4/7/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

LLM-as-a-judge Constrained MLE Model Evaluation Failure Rate Estimation

RESEARCHarXiv CS.CL·4/6/2026

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

Long-Context Continual Pre-training Model Evaluation Pre-training Dynamics large language models

RESEARCHarXiv CS.CL·5/6/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Diese Forschung untersucht die Verwendung geometrischer Abweichungen von LLM-Hidden-States als Vor-Generierungs-Signal, um anzuzeigen, wann eine Abfrage außerhalb des Wissensbereichs des Modells liegt. Es wurde festgestellt, dass dieses Signal bei unbeantwortbaren mathematischen Prompts gut funktioniert, jedoch nicht bei faktischen Prompts.

LLMs research Model Evaluation Reliability