LLMs learn backwards, and the scaling hypothesis is bounded. [D]
Ce contenu discute la perspective selon laquelle les Large Language Models (LLMs) apprennent à l'envers et que l'hypothèse de mise à l'échelle a des limites inhérentes.
Ce contenu discute la perspective selon laquelle les Large Language Models (LLMs) apprennent à l'envers et que l'hypothèse de mise à l'échelle a des limites inhérentes.
Um usuário com 16 GB de VRAM compartilha sua experiência positiva com o modelo Qwen 3.5 27b em quants IQ3 em uma RTX 4080, alcançando boa velocidade e contexto. Ele discute os desafios de otimizar modelos de IA localmente com essa quantidade de VRAM, ponderando entre qualidade e velocidade ao lidar com diferentes níveis de quantização.
Este trabalho propõe um modelo de linguagem de difusão com estrutura de árvore para otimizar o treinamento e reduzir o uso de parâmetros e memória em modelos de difusão discretos. Ele substitui a previsão de vocabulário completo pela exploração da estrutura inerente dos tokens através de uma árvore de vocabulário pré-construída, utilizando estados latentes intermediários.
Este conteúdo anuncia o lançamento dos modelos open-source Qwen2.5-1M (7B e 14B), que agora suportam um comprimento de contexto de até um milhão de tokens. Esta liberação expande as capacidades dos modelos Qwen para lidar com contextos extensos, seguindo a atualização da versão Turbo.
Qwen3-Coder é um novo modelo de código agêntico, com destaque para a variante 480B-A35B-Instruct, que oferece 480 bilhões de parâmetros e suporta contextos de até 1 milhão de tokens. Ele estabelece novos recordes de desempenho em codificação agêntica, uso de navegador e ferramentas, comparável ao Claude Sonnet 4.
Qwen3Guard é o primeiro modelo de proteção de segurança da família Qwen, projetado para garantir interações de IA responsáveis. Baseado nos modelos Qwen3, ele oferece detecção precisa de segurança em prompts e respostas, com níveis de risco e classificações para moderação, alcançando desempenho de ponta em benchmarks multilíngues.
O conteúdo explora a importância da escalabilidade contínua de dados e modelos (densos ou Mixture-of-Expert) para aprimorar a inteligência artificial, destacando a experiência limitada da comunidade na área. Menciona que detalhes críticos de escalabilidade foram recentemente divulgados pelo DeepSeek V3 e que o Qwen2 está em desenvolvimento.
Cet article est un guide complet sur l'utilisation d'Ollama pour exécuter des grands modèles linguistiques (LLM) localement, gratuitement et de manière privée. Il détaille le processus de déploiement d'assistants IA puissants sur votre ordinateur personnel, y compris les exigences matérielles et les commandes de base.