← heapsort-ai

model optimization

26 items

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

Optimizing Transformer model size & inference beyond FP16 + ONNX (pruning/graph opt didn’t help much) [P]

O usuário está otimizando um modelo Transformer para tamanho e velocidade de inferência, mas atingiu um platô após FP16 e ONNX, com poda e otimizações de grafo não trazendo ganhos significativos. Ele busca orientação sobre próximas etapas como fatoração de baixo posto, quantização agressiva ou destilação de conhecimento para melhorias reais.

50
ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen3.6-35B becomes competitive with cloud models when paired with the right agent

O autor demonstra que o emparelhamento do modelo Qwen3.6-35B com o agente "little-coder" melhora drasticamente seu desempenho no benchmark Polyglot para 78,7%, tornando-o competitivo com os principais modelos de nuvem. Esta descoberta sugere que uma "incompatibilidade de harness" nas configurações de teste pode explicar as lacunas de desempenho entre modelos de IA locais e na nuvem.

46
RESEARCH↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen3.6-35B-A3B-Uncensored-Wasserstein-GGUF

Um usuário identificou e corrigiu um problema significativo de desvio de tensor nas camadas `ssm_conv1d` de modelos Qwen3.6-35B GGUF quantizados, sugerindo a métrica de Wasserstein como superior à Kullback Leibler para detectar instabilidade numérica. A correção, que visa especificamente as camadas de transição de estado recorrente responsáveis pela memória de longo contexto, está agora disponível em um modelo compartilhado.

44
ARTICLE↑ trendingReddit r/LocalLLaMA·16/04/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

O Qwen 3.6 agora inclui uma nova flag `preserve_thinking` que resolve o problema de invalidação do cache KV ao manter o contexto de raciocínio do modelo. Esta funcionalidade é particularmente benéfica para cenários de agentes, melhorando a consistência das decisões e otimizando o consumo de tokens e a utilização do cache KV.

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.
43
RESEARCHarXiv CS.LG·16/04/2026

Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Este artigo apresenta uma condição necessária para o design de algoritmos de aprendizagem intragrupal em Reinforcement Learning, exigindo que os objetivos mantenham a intercambialidade de gradientes para evitar desvios irrelevantes. Ele propõe transformações mínimas para restaurar essa estrutura de cancelamento, o que estabiliza o treinamento e melhora a eficiência da amostra.

29
RESEARCHarXiv CS.LG·20/04/2026

Sequential KV Cache Compression via Probabilistic Language Tries: Beyond the Per-Vector Shannon Limit

Esta pesquisa apresenta a compressão sequencial de KV, uma nova arquitetura de duas camadas para caches de chave-valor de transformadores que supera o limite de Shannon por vetor. Ela explora a natureza sequencial dos tokens do cache KV, utilizando deduplicação probabilística de prefixos e codificação delta preditiva para compressão mais eficiente.

27
RESEARCHarXiv CS.CL·07/04/2026

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression

SoLA é um novo método de compressão sem treinamento para LLMs, que utiliza esparsidade de ativação suave e decomposição de baixo-rank. Ele identifica componentes cruciais para a inferência e comprime a maioria, visando reduzir parâmetros de modelos de linguagem grandes de forma eficiente e acessível.

27
RESEARCHDEV.to AI·20d atrás

AI/ML Research Digest — May 16, 2026

Novos avanços na pesquisa de IA/ML melhoram significativamente a eficiência do modelo e a velocidade de inferência em várias aplicações. Técnicas como destilação de conhecimento com adaptadores de baixa patente, destilação on-policy aprimorada, o otimizador Pion e métodos de poda-e-destilação estão a reduzir custos computacionais e a permitir a implantação mais ampla de modelos avançados de IA.

27
RESEARCHarXiv CS.CL·27/04/2026

An End-to-End Ukrainian RAG for Local Deployment. Optimized Hybrid Search and Lightweight Generation

Este artigo apresenta um sistema eficiente de Geração Aumentada por Recuperação (RAG) para perguntas e respostas em documentos ucranianos, que obteve o 2º lugar na UNLP 2026 Shared Task. Ele emprega uma busca híbrida personalizada e um modelo de linguagem ucraniano otimizado e comprimido para implantação local em hardware com recursos limitados, mantendo alta qualidade.

27
RESEARCHarXiv CS.LG·07/05/2026

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

Esta pesquisa apresenta EdgeRazor, uma estrutura leve para implantar Grandes Modelos de Linguagem em dispositivos com recursos limitados. Ele utiliza destilação com quantização consciente de precisão mista para converter modelos de precisão total em formatos de menor bit, superando as limitações dos métodos de quantização anteriores.

27
RESEARCHarXiv CS.LG·27d atrás

LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection

Modelos de Linguagem de Difusão (dLLMs) enfrentam limites de escalabilidade no paralelismo devido a limiares de confiança excessivamente conservadores que restringem seu potencial de processamento altamente paralelo. Este artigo apresenta o LEAP, um método plug-and-play sem treinamento que melhora o paralelismo dos dLLMs detectando tokens de convergência precoce, acelerando assim a decodificação.

27