LLM evaluation

18 items

ARTICLEDEV.to AI·2h atrás

More eval traces will not stabilize your kappa. Stratify the ones you have

O conteúdo aborda a instabilidade do acordo de LLM como juiz (kappa de Cohen) que oscilava semanalmente, mesmo sem mudanças na rubrica. Aumentar o tamanho da amostra não resolveu; a solução foi estratificar as amostras existentes por classe de pontuação e dimensões de falha, o que reduziu drasticamente a variação, demonstrando que a composição da amostra, e não o volume, era crucial.

AI metrics sampling strategy Cohen's Kappa LLM evaluation

RESEARCHDEV.to AI·8h atrás

Aligning with Human Judgement: The Role of Pairwise Preference in Large LanguageModel Evaluators

Este conteúdo explora o papel crucial da preferência pareada na avaliação de Grandes Modelos de Linguagem (LLMs). Ele discute como este método pode ajudar a alinhar o desempenho dos LLMs de forma mais eficaz com o julgamento humano.

Human Alignment Pairwise Preference natural language processing AI Research

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

OpenSimula — open implementation of Simula-style mechanism design for synthetic data (in AfterImage) [P]

OpenSimula é uma implementação experimental em Python do design de mecanismo Simula, adicionada à ferramenta de dataset open-source AfterImage. Ela visa gerar dados sintéticos diversos e controlados para configurações de SFT/avaliação de LLMs, utilizando taxonomias criadas por LLMs, amostragem ponderada e loops de crítica.

synthetic data mechanism-design open-source-tool LLM evaluation

ARTICLE↑ trendingReddit r/LocalLLaMA·13/04/2026

Best Local LLMs - Apr 2026

O artigo discute os melhores LLMs locais em abril de 2026, destacando lançamentos como Qwen3.5, Gemma4, GLM-5.1, Minimax-M2.7 e PrismML Bonsai. Solicita aos usuários que compartilhem suas experiências detalhadas com modelos de pesos abertos para auxiliar na avaliação.

AI models open-source AI Local LLMs generative AI

ARTICLEDEV.to AI·20d atrás

Building an Evaluation Harness for Financial RAG: What I Learned About LLM-as-Judge Calibration

O autor construiu um sistema RAG para perguntas e respostas financeiras, utilizando documentos da SEC e o benchmark FinanceBench. Descobriu uma grande discrepância entre a avaliação de um LLM como juiz e a performance real, levando a insights sobre a calibração de LLMs para avaliação.

Financial AI Benchmarking GPT-4o-mini RAG system

RESEARCHarXiv CS.CL·07/04/2026

Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation

QIMMA é uma nova plataforma de avaliação de LLMs em árabe que prioriza a qualidade, realizando validação sistemática de benchmarks. Ela resolve problemas de qualidade em benchmarks existentes através de revisão automatizada e humana, resultando em um conjunto de avaliação reprodutível e multi-tarefa com mais de 52 mil amostras.

Arabic LLM NLP Benchmarks Quality Assurance

ARTICLEDEV.to AI·5d atrás

How do you know your AI receptionist is actually following its instructions?

Este artigo discute o problema da inteligência artificial de voz, especialmente modelos de linguagem grandes, que podem fabricar informações durante interações de atendimento ao cliente. Ele propõe a utilização de "evals" (avaliações) para testar e garantir que os agentes de IA sigam suas instruções, evitando informações incorretas e insatisfação do cliente.

AI hallucinations customer service AI AI reliability LLM evaluation

ARTICLEDEV.to AI·27/04/2026

Testing AI Systems in Production: From LLM Evals to Agent Reliability

O artigo critica os métodos atuais de teste de LLM em produção, onde implementações "suaves" frequentemente ocultam alucinações sutis que causam perdas financeiras ou de dados devido a avaliações inadequadas baseadas na verdade. Ele enfatiza a necessidade de pipelines robustos de avaliação de recuperação, dados de melhor qualidade e estratégias específicas para testar a confiabilidade de agentes de IA e prevenir falhas destrutivas.

AI reliability AI testing AI agents LLM evaluation

ARTICLEDEV.to AI·14/04/2026

AI Search Showdown: Perplexity vs SearchGPT vs Claude 3.5 Sonnet (2026)

Este conteúdo apresenta uma análise comparativa de ferramentas de busca de IA: Perplexity AI, OpenAI SearchGPT e Claude 3.5 Sonnet. Ele detalha uma avaliação prática usando três prompts complexos distintos para medir seu desempenho em precisão, velocidade, citações e capacidades multimodais.

AI comparison Perplexity AI Claude 3.5 Sonnet OpenAI SearchGPT

DOCDEV.to AI·22d atrás

LLM Evaluation for Indie Hackers: Build a £0.20/Run System That Catches Real Bugs

Este conteúdo ensina a indie hackers como construir um sistema de avaliação de LLM de baixo custo (£0.20/execução) para identificar bugs reais em produção. O sistema utiliza um conjunto de dados dourado, um LLM para pontuar saídas e um gate de CI para bloquear fusões.

indie hackers CI/CD Software Development Testing

ARTICLEDEV.to AI·22d atrás

LLM Evaluation for Indie Hackers: Stop Paying Braintrust and Build This Instead

O artigo descreve um sistema de avaliação de LLM baseado em rubricas e de baixo custo para desenvolvedores independentes, que pode ser executado em CI para evitar problemas como dados alucinados em produção. Ele propõe uma alternativa às soluções empresariais caras, focando na definição de qualidade através de atributos concretos e conjuntos de dados "golden".

indie hackers CI/CD Testing cost-effective solutions

CASEDEV.to AI·19/04/2026

A Truth Filter for AI-Generated Ideas: An Experiment with Property-Based Testing

O autor utilizou testes baseados em propriedades para verificar a veracidade das afirmações num artigo gerado por IA sobre a construção de um "segundo cérebro". Embora a maioria das afirmações se mantivesse, um quantificador universal foi falsificado, sublinhando a eficácia do método em revelar requisitos estruturais subtis.

AI Verification AI Content Generation property-based testing LLM evaluation

RESEARCHarXiv CS.CL·05/05/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Este trabalho argumenta que os efeitos observados do "prompting contrafactual" em LLMs não podem ser atribuídos a um fator alvo sem considerar modificações de texto que preservem o significado e estabeleçam a sensibilidade geral do modelo. A pesquisa mostra que as taxas de mudança de previsão ao alterar o gênero do paciente são indistinguíveis das taxas induzidas por simples paráfrases, sugerindo que não se pode concluir uma sensibilidade especial ao gênero do paciente.

counterfactual prompting model robustness AI bias natural language processing

RESEARCHarXiv CS.CL·09/04/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

hallucination Abstention Architectures large language models AI safety

RESEARCHarXiv CS.CL·18d atrás

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

RankJudge é introduzido como um gerador de benchmark para avaliar LLM-as-a-judge em conversas multi-turno, abordando a complexidade que os benchmarks existentes focados em Q&A não capturam. Ele cria pares de conversas com falhas injetadas, permitindo rotulagem clara e isolamento preciso de problemas para desenvolvedores de modelos que utilizam autoavaliação.

Multi-turn conversations LLM-as-a-judge Benchmarking generative AI

RESEARCHarXiv CS.CL·12d atrás

Modeling Community Attitude through Reaction Tone: A Human-AI Collaborative Framework for Evaluating LLM Alignment with Linguistic Behaviors in Online Communities

Este estudo introduz o CARE (Community-Aware Reaction Evaluation), uma estrutura que compara a simulação de discurso por LLMs com as respostas autênticas de comunidades a notícias do mundo real. A pesquisa, que envolve colaboração humano-IA, revela uma "lacuna de realismo" onde prompts explícitos não melhoram intrinsecamente a fidelidade das simulações de LLMs.

linguistic behavior AI alignment computational social science LLM evaluation

RESEARCHarXiv CS.CL·28d atrás

Sanity Checks for Long-Form Hallucination Detection

Este artigo de pesquisa introduz uma metodologia de invariância controlada para detecção de alucinações em modelos de linguagem grandes. Utilizando testes oracle como extsc{Force} e extsc{Remove}, a pesquisa investiga se os métodos avaliam o raciocínio ou apenas correlatos superficiais da resposta final.

hallucination detection Chain-of-Thought large language models LLM evaluation

ARTICLEDEV.to AI·14/04/2026

I added a local eval loop to my personal AI assistant — here's what 800 scored interactions taught me

O autor adicionou um loop de avaliação local usando um modelo Ollama ao seu assistente de IA pessoal para pontuar interações com base em precisão e relevância. Após 800 interações, ele descobriu que respostas mais curtas e diretas obtiveram consistentemente pontuações melhores.

AI assistant self-hosted AI Ollama DSPy