LLMs learn backwards, and the scaling hypothesis is bounded. [D]
Este contenido discute la perspectiva de que los Large Language Models (LLMs) aprenden de manera inversa y que la hipótesis de escalabilidad tiene límites inherentes.
Este contenido discute la perspectiva de que los Large Language Models (LLMs) aprenden de manera inversa y que la hipótesis de escalabilidad tiene límites inherentes.
Um usuário com 16 GB de VRAM compartilha sua experiência positiva com o modelo Qwen 3.5 27b em quants IQ3 em uma RTX 4080, alcançando boa velocidade e contexto. Ele discute os desafios de otimizar modelos de IA localmente com essa quantidade de VRAM, ponderando entre qualidade e velocidade ao lidar com diferentes níveis de quantização.
Este trabalho propõe um modelo de linguagem de difusão com estrutura de árvore para otimizar o treinamento e reduzir o uso de parâmetros e memória em modelos de difusão discretos. Ele substitui a previsão de vocabulário completo pela exploração da estrutura inerente dos tokens através de uma árvore de vocabulário pré-construída, utilizando estados latentes intermediários.
Este conteúdo anuncia o lançamento dos modelos open-source Qwen2.5-1M (7B e 14B), que agora suportam um comprimento de contexto de até um milhão de tokens. Esta liberação expande as capacidades dos modelos Qwen para lidar com contextos extensos, seguindo a atualização da versão Turbo.
Qwen3-Coder é um novo modelo de código agêntico, com destaque para a variante 480B-A35B-Instruct, que oferece 480 bilhões de parâmetros e suporta contextos de até 1 milhão de tokens. Ele estabelece novos recordes de desempenho em codificação agêntica, uso de navegador e ferramentas, comparável ao Claude Sonnet 4.
Qwen3Guard é o primeiro modelo de proteção de segurança da família Qwen, projetado para garantir interações de IA responsáveis. Baseado nos modelos Qwen3, ele oferece detecção precisa de segurança em prompts e respostas, com níveis de risco e classificações para moderação, alcançando desempenho de ponta em benchmarks multilíngues.
O conteúdo explora a importância da escalabilidade contínua de dados e modelos (densos ou Mixture-of-Expert) para aprimorar a inteligência artificial, destacando a experiência limitada da comunidade na área. Menciona que detalhes críticos de escalabilidade foram recentemente divulgados pelo DeepSeek V3 e que o Qwen2 está em desenvolvimento.
Este artículo es una guía completa sobre cómo usar Ollama para ejecutar modelos de lenguaje grandes (LLMs) localmente, de forma gratuita y privada. Detalla el proceso de implementación de potentes asistentes de IA en su ordenador personal, incluyendo requisitos de hardware y comandos básicos.