← heapsort-ai

LLM evaluation

18 items

ARTICLEDEV.to AI·2h atrás

More eval traces will not stabilize your kappa. Stratify the ones you have

O conteúdo aborda a instabilidade do acordo de LLM como juiz (kappa de Cohen) que oscilava semanalmente, mesmo sem mudanças na rubrica. Aumentar o tamanho da amostra não resolveu; a solução foi estratificar as amostras existentes por classe de pontuação e dimensões de falha, o que reduziu drasticamente a variação, demonstrando que a composição da amostra, e não o volume, era crucial.

62
ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

OpenSimula — open implementation of Simula-style mechanism design for synthetic data (in AfterImage) [P]

OpenSimula é uma implementação experimental em Python do design de mecanismo Simula, adicionada à ferramenta de dataset open-source AfterImage. Ela visa gerar dados sintéticos diversos e controlados para configurações de SFT/avaliação de LLMs, utilizando taxonomias criadas por LLMs, amostragem ponderada e loops de crítica.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·13/04/2026

Best Local LLMs - Apr 2026

O artigo discute os melhores LLMs locais em abril de 2026, destacando lançamentos como Qwen3.5, Gemma4, GLM-5.1, Minimax-M2.7 e PrismML Bonsai. Solicita aos usuários que compartilhem suas experiências detalhadas com modelos de pesos abertos para auxiliar na avaliação.

42
ARTICLEDEV.to AI·5d atrás

How do you know your AI receptionist is actually following its instructions?

Este artigo discute o problema da inteligência artificial de voz, especialmente modelos de linguagem grandes, que podem fabricar informações durante interações de atendimento ao cliente. Ele propõe a utilização de "evals" (avaliações) para testar e garantir que os agentes de IA sigam suas instruções, evitando informações incorretas e insatisfação do cliente.

28
ARTICLEDEV.to AI·27/04/2026

Testing AI Systems in Production: From LLM Evals to Agent Reliability

O artigo critica os métodos atuais de teste de LLM em produção, onde implementações "suaves" frequentemente ocultam alucinações sutis que causam perdas financeiras ou de dados devido a avaliações inadequadas baseadas na verdade. Ele enfatiza a necessidade de pipelines robustos de avaliação de recuperação, dados de melhor qualidade e estratégias específicas para testar a confiabilidade de agentes de IA e prevenir falhas destrutivas.

27
ARTICLEDEV.to AI·22d atrás

LLM Evaluation for Indie Hackers: Stop Paying Braintrust and Build This Instead

O artigo descreve um sistema de avaliação de LLM baseado em rubricas e de baixo custo para desenvolvedores independentes, que pode ser executado em CI para evitar problemas como dados alucinados em produção. Ele propõe uma alternativa às soluções empresariais caras, focando na definição de qualidade através de atributos concretos e conjuntos de dados "golden".

27
CASEDEV.to AI·19/04/2026

A Truth Filter for AI-Generated Ideas: An Experiment with Property-Based Testing

O autor utilizou testes baseados em propriedades para verificar a veracidade das afirmações num artigo gerado por IA sobre a construção de um "segundo cérebro". Embora a maioria das afirmações se mantivesse, um quantificador universal foi falsificado, sublinhando a eficácia do método em revelar requisitos estruturais subtis.

27
RESEARCHarXiv CS.CL·05/05/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Este trabalho argumenta que os efeitos observados do "prompting contrafactual" em LLMs não podem ser atribuídos a um fator alvo sem considerar modificações de texto que preservem o significado e estabeleçam a sensibilidade geral do modelo. A pesquisa mostra que as taxas de mudança de previsão ao alterar o gênero do paciente são indistinguíveis das taxas induzidas por simples paráfrases, sugerindo que não se pode concluir uma sensibilidade especial ao gênero do paciente.

27
RESEARCHarXiv CS.CL·09/04/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

27
RESEARCHarXiv CS.CL·18d atrás

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

RankJudge é introduzido como um gerador de benchmark para avaliar LLM-as-a-judge em conversas multi-turno, abordando a complexidade que os benchmarks existentes focados em Q&A não capturam. Ele cria pares de conversas com falhas injetadas, permitindo rotulagem clara e isolamento preciso de problemas para desenvolvedores de modelos que utilizam autoavaliação.

27
RESEARCHarXiv CS.CL·12d atrás

Modeling Community Attitude through Reaction Tone: A Human-AI Collaborative Framework for Evaluating LLM Alignment with Linguistic Behaviors in Online Communities

Este estudo introduz o CARE (Community-Aware Reaction Evaluation), uma estrutura que compara a simulação de discurso por LLMs com as respostas autênticas de comunidades a notícias do mundo real. A pesquisa, que envolve colaboração humano-IA, revela uma "lacuna de realismo" onde prompts explícitos não melhoram intrinsecamente a fidelidade das simulações de LLMs.

27