benchmarking

213 items

RESEARCH↑ trendingReddit r/MachineLearning·14/04/2026

We benchmarked TranslateGemma against 5 other LLMs on subtitle translation across 6 languages. At first glance the numbers told a clean story, but then human QA added a chapter. [D]

Este conteúdo apresenta um estudo de benchmark que avaliou seis Modelos de Linguagem Grandes (LLMs), incluindo TranslateGemma-12b, na tradução de legendas de inglês para seis idiomas. Os modelos foram classificados usando métricas de Avaliação de Qualidade (QE) sem referência e uma métrica combinada personalizada chamada TQI, onde TranslateGemma-12b emergiu como o modelo com melhor desempenho geral.

TranslateGemma translation benchmarking quality evaluation

We benchmarked TranslateGemma against 5 other LLMs on subtitle translation across 6 languages. At first glance the numbers told a clean story, but then human QA added a chapter. [D]

DOCDEV.to AI·4h atrás

<think>

Este tutorial orienta os desenvolvedores sobre como navegar pelo cenário de preços de LLMs, apresentando 184 modelos classificados e destacando opções econômicas como o DeepSeek V4 Flash. Ele explora diversos provedores e demonstra como otimizar custos usando a Global API para acesso eficiente.

LLM pricing AI models benchmarking API

RESEARCHarXiv CS.AI·16h atrás

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Este estudo investiga a estabilidade e a manipulabilidade de juízes LLM em pipelines de avaliação, descobrindo que, embora sejam estáveis em reavaliações neutras, tornam-se reversíveis sob desafio pós-decisão. A pesquisa demonstra que julgamentos estáveis podem ser derrubados por interação motivada.

robustness LLMs evaluation benchmarking

CASE↑ trendingReddit r/LocalLLaMA·23/04/2026

Qwen 3.6 27B is a BEAST

Um usuário relata que o Qwen 3.6 27B, executado localmente em um laptop, se destaca em tarefas de ciência de dados, como chamadas de ferramentas e depuração de transformação de dados. A performance foi tão impressionante que ele considera cancelar suas assinaturas de nuvem, considerando-o perfeito para trabalhos com pyspark/python.

local inference benchmarking data science LLM

RESEARCHarXiv CS.AI·16h atrás

SentinelBench: A Benchmark for Long-Running Monitoring Agents

O SentinelBench é um novo benchmark de código aberto para tarefas de monitoramento de agentes de IA de longa duração. Ele visa medir o progresso em tarefas que exigem atenção sustentada, em vez de ação contínua, em 100 tarefas em 10 ambientes web sintéticos.

monitoring benchmarking long-running tasks AI agents

ARTICLE↑ trendingHacker News (AI)·2d atrás

Stats from 30K AI debates: Opus 4.7 is the most influential model

O artigo apresenta estatísticas de 30.000 debates de IA, revelando que o Opus 4.7 é o modelo mais influente. Ele quantifica o impacto e o desempenho de vários modelos de IA nessas discussões simuladas.

AI models model influence AI debates benchmarking

NEWS↑ trendingHacker News (AI)·2d atrás

AI Outperforms Law Professors in Stanford Law Study

Um estudo da Stanford Law revelou que a inteligência artificial superou professores de direito em uma avaliação. Esta pesquisa destaca as crescentes capacidades da IA no campo jurídico e suas implicações para o futuro da educação e prática do direito.

education research benchmarking legal

NEWS↑ trendingReddit r/MachineLearning·21/04/2026

We open-sourced Chaperone-Thinking-LQ-1.0 — a 4-bit GPTQ + QLoRA fine-tuned DeepSeek-R1-32B that hits 84% on MedQA in ~20GB[N]

Foi lançado o Chaperone-Thinking-LQ-1.0, um modelo DeepSeek-R1-32B de 4 bits quantizado com GPTQ e ajustado com QLoRA, que agora está disponível em código aberto. Ele atinge 84% de precisão no MedQA, próximo ao GPT-4o, com um tamanho de apenas ~20GB e é 1.6x mais rápido que o modelo base.

open-source benchmarking Quantization fine-tuning

RESEARCH↑ trendingReddit r/LocalLLaMA·19/04/2026

Same 9B Qwen weights: 19.1% in Aider vs 45.6% with a scaffold adapted to small local models

Um estudo demonstra que adaptar o *scaffold* para um pequeno LLM local (Qwen3.5-9B) melhora significativamente seu desempenho no *benchmark* de codificação Aider Polyglot, de 19,1% para 45,6%. Isso ressalta a importância do design do *scaffold* sobre a fraqueza intrínseca do modelo para modelos locais em agentes de codificação.

scaffolding benchmarking coding AI local models

ARTICLE↑ trendingReddit r/MachineLearning·16/04/2026

Can frontier AI models actually read a painting? [R]

Um experimento testou modelos de IA multimodais de ponta, como Gemini 3.1 Pro e GPT-5.4, na avaliação de arte a partir de imagens. O estudo revelou uma lacuna entre reconhecimento visual e compromisso com a avaliação, sugerindo que "ver" algo e confiar no que é visto são diferentes para as IAs.

multimodal AI AI capabilities art appraisal benchmarking

RESEARCH↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3.6-27B

Este conteúdo apresenta os benchmarks para o modelo de inteligência artificial Qwen3.6-27B, submetidos por um utilizador.

benchmarking AI model

ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

O autor demonstra que o emparelhamento do modelo Qwen3.6-35B com o agente "little-coder" melhora drasticamente seu desempenho no benchmark Polyglot para 78,7%, tornando-o competitivo com os principais modelos de nuvem. Esta descoberta sugere que uma "incompatibilidade de harness" nas configurações de teste pode explicar as lacunas de desempenho entre modelos de IA locais e na nuvem.

LLMs coding agents benchmarking Agent Systems

ARTICLEDEV.to AI·1d atrás

<think>

Este artigo detalha o exaustivo processo de benchmark de 184 APIs de modelos de linguagem grandes (LLMs), focando na análise de preços e desempenho de modelos em maio de 2026. Ele oferece uma visão de engenheiro de backend sobre as plataformas de API de IA, incluindo a Global API, para ajudar a otimizar a seleção e os custos.

benchmarking API AI pricing

ARTICLEDEV.to AI·2d atrás

<think>The user wants me to rewrite an article about multimodal AI APIs as if I were a cloud architect. Let me follow all the critical rules:

Este artigo apresenta a análise de um arquiteto de nuvem sobre APIs de IA multimodal, destacando considerações cruciais como escalabilidade, latência e confiabilidade para ambientes empresariais. Ele compara modelos de visão, áudio e omni, fornecendo um guia prático para a construção de sistemas de IA robustos e de alto desempenho.

multimodal AI API management cloud architecture benchmarking

RESEARCH↑ trendingReddit r/LocalLLaMA·22/04/2026

Personal Eval follow-up: Gemma4 26B MoE (Q8) vs Qwen3.5 27B Dense vs Gemma4 31B Dense Compared

Este acompanhamento compara os modelos Gemma4 26B MoE (Q8), Qwen3.5 27B Dense e Gemma4 31B Dense, incluindo resultados anteriores do Qwen 3.6 35B e Gemma 4 26B (Q4). A análise avalia o desempenho, destacando o impacto da quantização de 8 bits e a eficácia de diferentes arquiteturas de modelo.

benchmarking Gemma model comparison Quantization

RESEARCH↑ trendingReddit r/MachineLearning·04/05/2026

AutoBe benchmark: structured harness narrows frontier-vs-local gap in backend generation [D]

AutoBe é um novo benchmark para geração de backend ponta a ponta, onde requisições em linguagem natural produzem seis saídas estruturadas através de chamadas de função. O benchmark revela que a qualidade do backend é mais influenciada pelo design do sistema do que pelo prestígio do modelo, com modelos locais comparáveis aos de ponta a um custo significativamente menor.

AI models benchmarking Code Generation backend development

ARTICLE↑ trendingReddit r/LocalLLaMA·23/04/2026

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

O conteúdo descreve um experimento demonstrando um ganho significativo de velocidade (até 68.35 tokens/s) ao usar decodificação especulativa com o modelo Qwen-3.6-27B via llamacpp. O autor mostra a capacidade do AI em gerar e depurar código de forma eficiente.

benchmarking AI performance Speculative Decoding LLM

Qwen-3.6-27B, llamacpp, speculative decoding - appreciation post

RESEARCH↑ trendingReddit r/MachineLearning·23/04/2026

We benchmarked 18 LLMs on OCR (7k+ calls) — cheaper/old models oftentimes win. Full dataset + framework open-sourced. [R]

Pesquisadores fizeram um benchmark de 18 LLMs para OCR, descobrindo que modelos mais baratos e antigos frequentemente superam ou igualam os modelos carro-chefe em precisão, mas com menor custo. Eles disponibilizaram o conjunto de dados e a estrutura de teste em código aberto.

open-source benchmarking OCR cost efficiency

ARTICLE↑ trendingReddit r/LocalLLaMA·10/04/2026

Qwen3.5-122B at 198 tok/s on 2x RTX PRO 6000 Blackwell — Budget build, verified results

O autor compartilha resultados de otimização de um servidor de inferência com duas GPUs para LLMs, alcançando 198 tok/s com o modelo Qwen3.5-122B NVFP4. O conteúdo detalha a configuração de hardware (2x RTX PRO 6000 Blackwell) e compara o desempenho de diferentes motores e modelos de linguagem.

Qwen3.5 benchmarking GPU performance LLM inference

RESEARCH↑ trendingReddit r/LocalLLaMA·13/04/2026

MiniMax-M2.7 NVFP4 on 2x RTX PRO 6000 Blackwell — bench numbers

Este conteúdo apresenta os resultados de benchmark para o LLM MiniMax-M2.7, utilizando quantização NVFP4 em uma configuração de GPU dual NVIDIA RTX PRO 6000 Blackwell. Ele detalha o throughput de decodificação em vários níveis de concorrência e o desempenho de preenchimento em diferentes tamanhos de contexto.

GPU benchmarking NVIDIA Blackwell MiniMax M2.7

MiniMax-M2.7 NVFP4 on 2x RTX PRO 6000 Blackwell — bench numbers