Model Evaluation

28 items

RESEARCHarXiv CS.CL·7/5/2026

Are LLMs Ready for Conflict Monitoring? Empirical Evidence from West Africa

Este artículo evalúa modelos de lenguaje grandes (LLMs) de código abierto y adaptados al dominio para la clasificación de eventos de conflicto en África Occidental. La investigación revela que los modelos de código abierto exhiben un sesgo de "Ilegitimación Falsa", mientras que los modelos adaptados al dominio logran neutralidad direccional pero mantienen un sesgo de selección basado en actores.

LLMs Model Evaluation Conflict Monitoring Humanitarian Accountability

RESEARCHarXiv CS.LG·hace 23d

Privacy Evaluation of Generative Models for Trajectory Generation

Esta investigación evalúa la privacidad de los modelos generativos utilizados para datos de trayectoria sintéticos, identificando una brecha en su evaluación de privacidad. El estudio demuestra la viabilidad de ataques de inferencia de membresía contra estos modelos.

privacy Model Evaluation security trajectory data

RESEARCHarXiv CS.LG·hace 14d

ARBITER: Reasoning Trajectory Basins and Majority Vote Failures in Test-Time Sampling

Cuando los modelos de lenguaje usan muestreo en tiempo de prueba y voto mayoritario, las trayectorias de razonamiento se concentran en

language models Model Evaluation Reasoning AI research

ARTICLEDEV.to AI·24/4/2026

DeepSeek v4 vs GPT-5.5 vs Claude 3.7: which one should you actually use for production?

El autor evalúa los recientes lanzamientos de modelos DeepSeek v4, GPT-5.5 y Claude 3.7 para uso en producción, criticando la dependencia de benchmarks que no reflejan el rendimiento real en tareas específicas. Enfatiza la importancia de la consistencia, la eficiencia de tokens y el comportamiento bajo carga para aplicaciones prácticas.

Model Evaluation AI application LLM

RESEARCHarXiv CS.AI·9/4/2026

SELFDOUBT: Uncertainty Quantification for Reasoning LLMs via the Hedge-to-Verify Ratio

Este artigo propõe SELFDOUBT, uma estrutura de passagem única para quantificar a incerteza em LLMs de raciocínio, especialmente para APIs proprietárias. Utiliza o Hedge-to-Verify Ratio (HVR) para identificar marcadores de incerteza e autoavaliação diretamente do rastro de raciocínio, superando métodos caros de amostragem.

LLMs Model Evaluation uncertainty quantification Reasoning

RESEARCHarXiv CS.CL·7/4/2026

Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation

Este artigo propõe uma nova abordagem eficiente para estimar as taxas de falha de LLMs, essencial para sua implantação segura. O método utiliza estimação por máxima verossimilhança restrita, combinando dados humanos de calibração, anotações de LLM-judge e informações adicionais via restrições de domínio, sendo validado empiricamente contra métodos como PPI.

LLM-as-a-judge Constrained MLE Model Evaluation Failure Rate Estimation

RESEARCHarXiv CS.CL·6/4/2026

Revealing the Learning Dynamics of Long-Context Continual Pre-training

Este artigo investiga sistematicamente as dinâmicas de aprendizado do Pré-treinamento Contínuo de Contexto Longo (LCCP) usando o modelo industrial Hunyuan-A13B, rastreando sua evolução por 200 bilhões de tokens. Ele propõe uma estrutura hierárquica para analisar o LCCP em níveis comportamental, probabilístico e mecanicista, abordando as limitações das metodologias atuais de avaliação e pré-treinamento.

Long-Context Continual Pre-training Model Evaluation Pre-training Dynamics large language models

RESEARCHarXiv CS.CL·6/5/2026

Geometric Deviation as an Unsupervised Pre-Generation Reliability Signal: Probing LLM Representations for Answerability

Esta investigación explora el uso de la desviación geométrica de los estados ocultos de los LLM como una señal previa a la generación para indicar cuando una consulta está fuera del conocimiento del modelo. Se encontró que esta señal funciona bien para preguntas matemáticas sin respuesta, pero no para preguntas fácticas.

LLMs research Model Evaluation Reliability