randomness

3 items

RESEARCHarXiv CS.CL·1d atrás

UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs

Apresenta-se o UnpredictaBench, um novo benchmark para avaliar a capacidade de LLMs de capturar verdadeiras distribuições subjacentes, abordando a tendência de colapso para uma única resposta. Ele oferece 448 problemas e uma métrica KS@N para testar amostras de várias distribuições-alvo.

AI models LLMs evaluation Benchmarking

RESEARCHarXiv CS.AI·27/04/2026

Introducing Background Temperature to Characterise Hidden Randomness in Large Language Models

Este conteúdo introduz um novo conceito, 'Temperatura de Fundo', para caracterizar a aleatoriedade oculta em Grandes Modelos de Linguagem.

LLMs machine learning randomness large language models

ARTICLEDEV.to AI·15/04/2026

I Created a URL Shortener Challenge… And AI Generated Duplicate Links 🔗

O conteúdo descreve um desafio de encurtador de URL onde modelos de IA geraram links duplicados devido à falta de tratamento de colisões, resultando em sistemas não confiáveis. Ele destaca que a simples aleatoriedade não garante a exclusividade, um erro crítico nas soluções geradas por IA.

System Design randomness AI Collision Handling