← heapsort-ai

large language models

262 items

RESEARCH↑ trendingReddit r/MachineLearning·07/05/2026

META Superintelligence Lab Presents: ProgramBench: Can SOTA AI Recreate Real Executable Programs(ffmpeg, SQLite, ripgrep) From Scratch Without The Internet?

Le Meta Superintelligence Lab présente ProgramBench, une initiative testant la capacité des IA avancées à recréer des programmes exécutables tels que ffmpeg et SQLite à partir de zéro, sans accès à Internet. Cette étude vise à explorer les limites de la génération de code par l'IA. La recherche se concentre sur l'évaluation de l'autonomie et de l'exhaustivité des modèles d'IA dans la synthèse de logiciels complexes.

42
RESEARCH↑ trendingHacker News (AI)·il y a 11j

AI Propaganda factories with language models

L'article examine le potentiel de l'IA, notamment des grands modèles de langage, à être exploitée dans la création de 'fabriques de propagande'. Il explore comment ces technologies pourraient automatiser et intensifier la génération de contenu trompeur, posant des défis significatifs à l'intégrité de l'information et au discours public.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 26j

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

Une expérience a montré qu'un petit modèle d'IA peut s'entraîner à coder en inventant des problèmes, en les résolvant et en s'affinant sur ses propres corrections. Le modèle a atteint 80% sur HumanEval et a surpassé GPT-3.5 en mathématiques, en utilisant seulement un interpréteur Python comme juge.

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math
42
ARTICLE↑ trendingReddit r/LocalLLaMA·14/04/2026

How to Distill from 100B+ to <4B Models

Ce contenu aborde le processus de distillation des modèles d'IA, en se concentrant sur la manière de réduire des modèles massifs de plus de 100 milliards de paramètres à des versions significativement plus petites, de moins de 4 milliards. L'objectif est d'améliorer l'efficacité et l'accessibilité des modèles d'IA complexes.

How to Distill from 100B+ to <4B Models
42
ARTICLE↑ trendingReddit r/MachineLearning·26/04/2026

Why do only big ML labs dominate widely-used models despite many open-source pretrained models smaller labs could do RL on? [D]

Le contenu s'interroge sur la raison pour laquelle les grands laboratoires d'IA dominent les modèles largement utilisés comme GPT et Claude, malgré l'existence de nombreux modèles pré-entraînés open source de même échelle. L'auteur suggère que le Reinforcement Learning from Human Feedback (RLHF) est la clé de la supériorité de ces modèles et se demande pourquoi il ne serait pas plus accessible aux petits laboratoires.

42
RESEARCH↑ trendingReddit r/MachineLearning·13/04/2026

I scaled a pure Spiking Neural Network (SNN) to 1.088B parameters from scratch. Ran out of budget, but here is what I found [R]

Un développeur indépendant de 18 ans a mis à l'échelle un Réseau Neuronal à Impulsions (SNN) pur jusqu'à 1,088 milliard de paramètres à partir de zéro pour la modélisation linguistique, obtenant la convergence de la perte malgré les problèmes de gradients évanescents. Les découvertes incluent une parcimonie massive de 93% et l'émergence inattendue de texte russe structurellement correct, bien que l'expérience ait été écourtée faute de budget.

42
RESEARCHarXiv CS.LG·il y a 1j

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

Les Modèles de Langage de Diffusion (dLLMs) sont confrontés à un "délai de stabilité" dû à l'engagement irréversible des tokens, un problème exacerbé par les erreurs de Quantification Post-Entraînement (PTQ). FAIR-Calib propose un cadre PTQ en deux étapes qui utilise un a priori de position et une calibration couche par couche pour protéger les états frontaliers fragiles, améliorant la quantification pour les dLLMs.

40
ARTICLE↑ trendingReddit r/LocalLLaMA·24/04/2026

Hard freakin' decision..Blackwell 96G or Mac Studio 256G

Un utilisateur a sollicité des conseils sur l'achat de matériel d'IA haut de gamme pour exécuter de grands modèles comme Gemma4s et Qwen3.6s, comparant une GPU Blackwell/RTX Pro 6000 96G et un Mac Studio M3 Ultra 256G. Ils ont finalement opté pour l'option Blackwell, citant sa capacité supérieure de traitement des tokens et une offre avantageuse.

Hard freakin' decision..Blackwell 96G or Mac Studio 256G
39
ARTICLE↑ trendingReddit r/LocalLLaMA·18/04/2026

Qwen3.6-35B-A3B solved coding problems Qwen3.5-27B couldn’t

L'auteur, initialement sceptique, a testé Qwen3.6-35B-A3B et a découvert qu'il pouvait résoudre des problèmes de codage que Qwen3.5-27B ne pouvait pas gérer. Cela s'est produit lors du développement d'une application de budgétisation personnalisée, où la version précédente introduisait de la dette technique.

37
ARTICLE↑ trendingReddit r/LocalLLaMA·06/05/2026

Bad news: Apple drops high-memory Mac Studio configs

Apple a discrètement interrompu les configurations de Mac Studio à haute mémoire, laissant la version M3 Ultra avec un maximum de 96 Go de RAM et le Mac mini à 48 Go. Ce changement est un revers majeur pour les utilisateurs souhaitant exécuter de grands modèles d'IA localement, car les options de haute mémoire étaient cruciales pour de telles tâches.

Bad news: Apple drops high-memory Mac Studio configs
36
ARTICLE↑ trendingReddit r/LocalLLaMA·27/04/2026

Anthropic's Claude remote uses GLM-4.7

Un utilisateur a découvert que l'environnement de code distant Claude d'Anthropic utilise par défaut le modèle GLM-4.7, et non un modèle propriétaire d'Anthropic. Cette observation soulève des questions sur l'utilisation de modèles open source par des entreprises d'IA possédant leurs propres modèles.

35
RESEARCHarXiv CS.LG·14/04/2026

Human-like Working Memory Interference in Large Language Models

Cette étude analyse les limitations de la mémoire de travail dans les Large Language Models (LLMs), mettant en évidence des signatures d'interférence similaires à celles observées chez l'homme. Les LLMs pré-entraînés montrent une dégradation des performances avec la charge de mémoire et un biais par la récence, bien que les transformateurs puissent être entraînés à résoudre ces tâches parfaitement.

35
RESEARCHarXiv CS.CL·il y a 18j

Broadening Access to Transportation Safety Data with Generative AI: A Schema-Grounded Framework for Spatial Natural Language Queries

Cet article présente une interface en langage naturel basée sur un schéma utilisant l'IA générative pour rendre les données de sécurité des transports plus accessibles. Il vise à combler le fossé pour les praticiens en traduisant les requêtes des utilisateurs en cadres sémantiques structurés pour une analyse fiable.

33
RESEARCHarXiv CS.LG·20/04/2026

Aletheia: Gradient-Guided Layer Selection for Efficient LoRA Fine-Tuning Across Architectures

Aletheia propose une méthode de sélection de couches guidée par le gradient pour l'ajustement fin de LoRA, ciblant les couches les plus pertinentes pour la tâche avec une allocation de rang asymétrique. Cette approche permet une accélération de l'entraînement de 15 à 28 % sur diverses architectures de modèles de langage, tout en conservant les performances.

32
DOCOpenAI Blog·23/04/2026

GPT-5.5 System Card

Ce document, intitulé "Fiche Système GPT-5.5", détaille probablement les spécifications techniques, les capacités et les limitations du modèle de langage GPT-5.5. Il est conçu comme une référence complète pour comprendre le fonctionnement et les directives d'utilisation de ce système d'IA avancé.

32
ARTICLEDEV.to AI·22/04/2026

AI এখন শুধু একটা টুল না থেকে ধীরে ধীরে intelligence এর দিকে যাচ্ছে

Des murmures récents dans la Silicon Valley concernent Mythos d'Anthropic, un modèle d'IA qui transcenderait la définition d'un simple outil pour s'approcher de l'intelligence. Des initiés suggèrent que Mythos peut analyser des systèmes complexes, comprendre des structures logicielles et détecter des vulnérabilités cachées, des capacités bien au-delà des modèles de langage standard.

31