model optimization

26 items

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

O usuário está otimizando um modelo Transformer para tamanho e velocidade de inferência, mas atingiu um platô após FP16 e ONNX, com poda e otimizações de grafo não trazendo ganhos significativos. Ele busca orientação sobre próximas etapas como fatoração de baixo posto, quantização agressiva ou destilação de conhecimento para melhorias reais.

Pruning inference Transformer quantization

NEWS↑ trendingReddit r/MachineLearning·22/04/2026

INT3 compression+fused metal kernels [R]

Um pesquisador e fundador solo desenvolveu compressão de modelos INT3 e um cache KV de 2 bits com kernels Metal customizados para Mac (M-series). Qwen 7B está disponível em prévia, e otimizações adicionais e suporte a GPU estão planejados.

Hardware Acceleration LLMs quantization model optimization

ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

O autor demonstra que o emparelhamento do modelo Qwen3.6-35B com o agente "little-coder" melhora drasticamente seu desempenho no benchmark Polyglot para 78,7%, tornando-o competitivo com os principais modelos de nuvem. Esta descoberta sugere que uma "incompatibilidade de harness" nas configurações de teste pode explicar as lacunas de desempenho entre modelos de IA locais e na nuvem.

LLMs coding agents Benchmarking Agent systems

RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Um usuário identificou e corrigiu um problema significativo de desvio de tensor nas camadas `ssm_conv1d` de modelos Qwen3.6-35B GGUF quantizados, sugerindo a métrica de Wasserstein como superior à Kullback Leibler para detectar instabilidade numérica. A correção, que visa especificamente as camadas de transição de estado recorrente responsáveis pela memória de longo contexto, está agora disponível em um modelo compartilhado.

LLMs quantization GGUF model optimization

ARTICLE↑ trendingReddit r/LocalLLaMA·16/04/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

O Qwen 3.6 agora inclui uma nova flag `preserve_thinking` que resolve o problema de invalidação do cache KV ao manter o contexto de raciocínio do modelo. Esta funcionalidade é particularmente benéfica para cenários de agentes, melhorando a consistência das decisões e otimizando o consumo de tokens e a utilização do cache KV.

large language models model optimization Qwen AI agents

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

DOC↑ trendingReddit r/MachineLearning·22/04/2026

Need Info on quality benchmarks to run on DeepSeek V3.2 different quant levels [D]

Um usuário busca conselhos sobre quais benchmarks de qualidade executar para medir a degradação de desempenho ao aplicar quantização em tempo de execução ao modelo de linguagem grande DeepSeek V3.2. O objetivo é comparar a perda de qualidade com a versão não quantizada.

Benchmarking quantization model optimization AI evaluation

RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos lançou ResBM, uma nova arquitetura de transformador para treinamento pipeline-paralelo de baixa largura de banda. Ela alcança uma compressão de ativação de 128x, mantendo a convergência sem perdas significativas.

distributed training machine learning architecture model optimization Transformers

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

2b or not 2b ? Custom LLM Scheduling Competition [P]

Foi lançada uma competição no Kaggle focada em otimizar o custo de tokens para respostas de LLMs, desafiando os participantes a decidir entre usar um modelo pequeno ou pular a pergunta. O objetivo é minimizar o custo ponderado, considerando os custos de computação, falha e pular uma resposta correta.

Kaggle Benchmarking model optimization resource management

CASE↑ trendingReddit r/MachineLearning·27/04/2026

INT8 quantization gives me better accuracy than FP16 ! [D]

Um usuário observou que a quantização INT8 em seu modelo de deep learning resultou em melhor precisão de inferência do que FP16, o que foi inesperado. Ele busca explicações para o desempenho superior do INT8 em relação ao FP16.

inference ONNX deep learning quantization

RESEARCHarXiv CS.LG·16/04/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Este artigo apresenta uma condição necessária para o design de algoritmos de aprendizagem intragrupal em Reinforcement Learning, exigindo que os objetivos mantenham a intercambialidade de gradientes para evitar desvios irrelevantes. Ele propõe transformações mínimas para restaurar essa estrutura de cancelamento, o que estabiliza o treinamento e melhora a eficiência da amostra.

reinforcement learning large language models gradient dynamics model optimization

RESEARCHDEV.to AI·20/04/2026

O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

O O1-Pruner introduz um método de ajuste fino (fine-tuning) que harmoniza o comprimento para aprimorar a capacidade de raciocínio através da poda de modelos. Essa técnica visa otimizar modelos para tarefas de raciocínio específicas do tipo O1.

Pruning Reasoning Fine-tuning model optimization

RESEARCHTogether AI Blog·15/04/2026

Parcae: Doing more with fewer parameters using stable looped models

Parcae é um modelo de linguagem estável com loop que iguala a qualidade de Transformers duas vezes maiores, utilizando menos parâmetros. Ele introduz as primeiras leis de escala para o looping, mostrando que o aumento da recorrência é um caminho computacionalmente eficiente para melhor desempenho.

language models deep learning efficiency model optimization

RESEARCHarXiv CS.LG·20/04/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Esta pesquisa apresenta a compressão sequencial de KV, uma nova arquitetura de duas camadas para caches de chave-valor de transformadores que supera o limite de Shannon por vetor. Ela explora a natureza sequencial dos tokens do cache KV, utilizando deduplicação probabilística de prefixos e codificação delta preditiva para compressão mais eficiente.

Transformer Architecture AI models LLMs data compression

RESEARCHarXiv CS.CL·07/04/2026

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

SoLA é um novo método de compressão sem treinamento para LLMs, que utiliza esparsidade de ativação suave e decomposição de baixo-rank. Ele identifica componentes cruciais para a inferência e comprime a maioria, visando reduzir parâmetros de modelos de linguagem grandes de forma eficiente e acessível.

Sparsity Low-Rank Decomposition LLM compression large language models

NEWSDEV.to AI·9d atrás

Bonsai Image 4B: difusión de 1 bit que corre en un iPhone

A PrismML lançou o Bonsai Image 4B, uma família de modelos de geração de imagens que usa pesos de 1 bit ou ternários para executar difusão de alta qualidade em dispositivos locais como iPhones. Esta inovação resulta numa compressão de 8,3x no modelo, reduzindo-o de 7,75 GB para 0,93 GB, mantendo até 95% da qualidade original.

Diffusion Models Edge AI image generation PrismML

RESEARCHDEV.to AI·20d atrás

AI/ML Research Digest — May 16, 2026

Novos avanços na pesquisa de IA/ML melhoram significativamente a eficiência do modelo e a velocidade de inferência em várias aplicações. Técnicas como destilação de conhecimento com adaptadores de baixa patente, destilação on-policy aprimorada, o otimizador Pion e métodos de poda-e-destilação estão a reduzir custos computacionais e a permitir a implantação mais ampla de modelos avançados de IA.

deep learning machine learning AI Efficiency video generation

RESEARCHarXiv CS.CL·27/04/2026

An End-to-End Ukrainian RAG for Local Deployment. Optimized Hybrid Search and Lightweight Generation

Este artigo apresenta um sistema eficiente de Geração Aumentada por Recuperação (RAG) para perguntas e respostas em documentos ucranianos, que obteve o 2º lugar na UNLP 2026 Shared Task. Ele emprega uma busca híbrida personalizada e um modelo de linguagem ucraniano otimizado e comprimido para implantação local em hardware com recursos limitados, mantendo alta qualidade.

Ukrainian language RAG Natural Language Processing Local AI

RESEARCHarXiv CS.LG·07/05/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Esta pesquisa apresenta EdgeRazor, uma estrutura leve para implantar Grandes Modelos de Linguagem em dispositivos com recursos limitados. Ele utiliza destilação com quantização consciente de precisão mista para converter modelos de precisão total em formatos de menor bit, superando as limitações dos métodos de quantização anteriores.

LLMs deep learning quantization model optimization

RESEARCHDEV.to AI·25/04/2026

PP-LCNet: A Lightweight CPU Convolutional Neural Network

PP-LCNet apresenta uma rede neural convolucional leve otimizada para desempenho eficiente em CPUs. Esta arquitetura foca em alcançar alta precisão mantendo demandas computacionais mínimas, ideal para ambientes com recursos limitados.

deep learning lightweight models computer vision Convolutional Neural Networks

RESEARCHarXiv CS.LG·27d atrás

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

Modelos de Linguagem de Difusão (dLLMs) enfrentam limites de escalabilidade no paralelismo devido a limiares de confiança excessivamente conservadores que restringem seu potencial de processamento altamente paralelo. Este artigo apresenta o LEAP, um método plug-and-play sem treinamento que melhora o paralelismo dos dLLMs detectando tokens de convergência precoce, acelerando assim a decodificação.

Diffusion Models Parallel Computing AI large language models