← heapsort-ai

benchmarking

213 items

RESEARCH↑ trendingReddit r/MachineLearning·14/04/2026

We benchmarked TranslateGemma against 5 other LLMs on subtitle translation across 6 languages. At first glance the numbers told a clean story, but then human QA added a chapter. [D]

Este conteúdo apresenta um estudo de benchmark que avaliou seis Modelos de Linguagem Grandes (LLMs), incluindo TranslateGemma-12b, na tradução de legendas de inglês para seis idiomas. Os modelos foram classificados usando métricas de Avaliação de Qualidade (QE) sem referência e uma métrica combinada personalizada chamada TQI, onde TranslateGemma-12b emergiu como o modelo com melhor desempenho geral.

We benchmarked TranslateGemma against 5 other LLMs on subtitle translation across 6 languages. At first glance the numbers told a clean story, but then human QA added a chapter. [D]
70
DOCDEV.to AI·4h atrás

<think>

Este tutorial orienta os desenvolvedores sobre como navegar pelo cenário de preços de LLMs, apresentando 184 modelos classificados e destacando opções econômicas como o DeepSeek V4 Flash. Ele explora diversos provedores e demonstra como otimizar custos usando a Global API para acesso eficiente.

62
CASE↑ trendingReddit r/LocalLLaMA·23/04/2026

Qwen 3.6 27B is a BEAST

Um usuário relata que o Qwen 3.6 27B, executado localmente em um laptop, se destaca em tarefas de ciência de dados, como chamadas de ferramentas e depuração de transformação de dados. A performance foi tão impressionante que ele considera cancelar suas assinaturas de nuvem, considerando-o perfeito para trabalhos com pyspark/python.

56
NEWS↑ trendingReddit r/MachineLearning·21/04/2026

We open-sourced Chaperone-Thinking-LQ-1.0 — a 4-bit GPTQ + QLoRA fine-tuned DeepSeek-R1-32B that hits 84% on MedQA in ~20GB[N]

Foi lançado o Chaperone-Thinking-LQ-1.0, um modelo DeepSeek-R1-32B de 4 bits quantizado com GPTQ e ajustado com QLoRA, que agora está disponível em código aberto. Ele atinge 84% de precisão no MedQA, próximo ao GPT-4o, com um tamanho de apenas ~20GB e é 1.6x mais rápido que o modelo base.

48
RESEARCH↑ trendingReddit r/LocalLLaMA·19/04/2026

Same 9B Qwen weights: 19.1% in Aider vs 45.6% with a scaffold adapted to small local models

Um estudo demonstra que adaptar o *scaffold* para um pequeno LLM local (Qwen3.5-9B) melhora significativamente seu desempenho no *benchmark* de codificação Aider Polyglot, de 19,1% para 45,6%. Isso ressalta a importância do design do *scaffold* sobre a fraqueza intrínseca do modelo para modelos locais em agentes de codificação.

47
RESEARCH↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3.6-27B

Este conteúdo apresenta os benchmarks para o modelo de inteligência artificial Qwen3.6-27B, submetidos por um utilizador.

Qwen3.6-27B
46
ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

O autor demonstra que o emparelhamento do modelo Qwen3.6-35B com o agente "little-coder" melhora drasticamente seu desempenho no benchmark Polyglot para 78,7%, tornando-o competitivo com os principais modelos de nuvem. Esta descoberta sugere que uma "incompatibilidade de harness" nas configurações de teste pode explicar as lacunas de desempenho entre modelos de IA locais e na nuvem.

46
ARTICLEDEV.to AI·1d atrás

<think>

Este artigo detalha o exaustivo processo de benchmark de 184 APIs de modelos de linguagem grandes (LLMs), focando na análise de preços e desempenho de modelos em maio de 2026. Ele oferece uma visão de engenheiro de backend sobre as plataformas de API de IA, incluindo a Global API, para ajudar a otimizar a seleção e os custos.

45
ARTICLEDEV.to AI·2d atrás

<think>The user wants me to rewrite an article about multimodal AI APIs as if I were a cloud architect. Let me follow all the critical rules:

Este artigo apresenta a análise de um arquiteto de nuvem sobre APIs de IA multimodal, destacando considerações cruciais como escalabilidade, latência e confiabilidade para ambientes empresariais. Ele compara modelos de visão, áudio e omni, fornecendo um guia prático para a construção de sistemas de IA robustos e de alto desempenho.

45
RESEARCH↑ trendingReddit r/MachineLearning·04/05/2026

AutoBe benchmark: structured harness narrows frontier-vs-local gap in backend generation [D]

AutoBe é um novo benchmark para geração de backend ponta a ponta, onde requisições em linguagem natural produzem seis saídas estruturadas através de chamadas de função. O benchmark revela que a qualidade do backend é mais influenciada pelo design do sistema do que pelo prestígio do modelo, com modelos locais comparáveis aos de ponta a um custo significativamente menor.

43