Avaliação de IA

3 items

RESEARCHarXiv CS.CL·07/04/2026

Cultural Authenticity: Comparing LLM Cultural Representations to Native Human Expectations

Este artigo introduz um framework centrado no ser humano para avaliar o alinhamento das representações culturais de LLMs com as expectativas das populações nativas. Ele estabelece vetores de importância cultural a partir de pesquisas globais e os usa para computar e comparar vetores de representação de modelos como Gemini 2.5 Pro, GPT-4o e Claude 3.5 Haiku.

Representação Cultural Avaliação de IA Estudo Humano Diversidade

RESEARCHarXiv CS.AI·07/04/2026

Position: Science of AI Evaluation Requires Item-level Benchmark Data

Este artigo de posição argumenta que dados de benchmark em nível de item são essenciais para uma ciência rigorosa da avaliação de IA, abordando falhas de validade sistêmicas nas metodologias atuais. Ele propõe a análise em nível de item para diagnósticos detalhados e validação de benchmarks, baseando-se em conceitos da ciência da computação e psicometria.

Benchmarks de IA Avaliação de IA Dados em nível de item IA Generativa

NEWSGoogle DeepMind Blog·17/03/2026

Measuring progress toward AGI: A cognitive framework

Uma nova estrutura cognitiva está sendo introduzida para medir o progresso em direção à AGI. Para auxiliar no desenvolvimento das avaliações pertinentes, um hackathon no Kaggle será lançado.

framework Kaggle Avaliação de IA progresso de IA