large language models

262 items

RESEARCH↑ trendingReddit r/MachineLearning·7/5/2026

META Superintelligence Lab Presents: ProgramBench: Can SOTA AI Recreate Real Executable Programs(ffmpeg, SQLite, ripgrep) From Scratch Without The Internet?

El Meta Superintelligence Lab presenta ProgramBench, una iniciativa que prueba la capacidad de las IAs avanzadas para recrear programas ejecutables como ffmpeg y SQLite desde cero, sin acceso a internet. Este estudio busca explorar los límites de la generación de código por IA. La investigación se centra en evaluar la autonomía y la completitud de los modelos de IA en la síntesis de software complejo.

program synthesis code generation Benchmarks AI programming

RESEARCH↑ trendingHacker News (AI)·hace 11d

AI Propaganda factories with language models

El artículo discute el potencial de la IA, particularmente los grandes modelos de lenguaje, para ser explotada en la creación de 'fábricas de propaganda'. Explora cómo estas tecnologías podrían automatizar y escalar la generación de contenido engañoso, planteando desafíos significativos para la integridad de la información y el discurso público.

Societal impact propaganda AI ethics large language models

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 26d

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

Un experimento demostró que un pequeño modelo de IA puede entrenarse a sí mismo para programar, inventando problemas, resolviéndolos y afinando sus propias correcciones. El modelo alcanzó el 80% en HumanEval y superó a GPT-3.5 en matemáticas, utilizando solo un intérprete de Python como juez.

self-correction AI training Benchmarking code generation

I Let a Small Model Train on Its Own Mistakes. It Reached 80% on HumanEval and Beat GPT-3.5 on Math

ARTICLE↑ trendingReddit r/LocalLLaMA·14/4/2026

How to Distill from 100B+ to <4B Models

Este contenido trata sobre el proceso de destilación de modelos de IA, centrándose en cómo reducir modelos gigantes de más de 100 mil millones de parámetros a versiones significativamente más pequeñas, con menos de 4 mil millones. El objetivo es mejorar la eficiencia y accesibilidad de los modelos complejos.

Model Compression LLMs Model Distillation AI Efficiency

ARTICLE↑ trendingReddit r/MachineLearning·26/4/2026

Why do only big ML labs dominate widely-used models despite many open-source pretrained models smaller labs could do RL on? [D]

El contenido cuestiona por qué los grandes laboratorios de IA dominan los modelos más utilizados, como GPT y Claude, a pesar de la existencia de muchos modelos preentrenados de código abierto de escala similar. El autor sugiere que el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es clave para la superioridad de estos modelos y se pregunta por qué no sería más accesible para laboratorios más pequeños.

open-source AI RLHF AI industry large language models

ARTICLE↑ trendingReddit r/LocalLLaMA·23/4/2026

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

El título describe una optimización impresionante para el modelo Qwen3.6–27B, logrando 85 TPS y 125K de contexto con capacidades de visión en una sola RTX 3090. Esto es un logro técnico significativo para la implementación eficiente de LLMs.

Optimization multimodal AI GPU large language models

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

RESEARCH↑ trendingReddit r/MachineLearning·13/4/2026

I scaled a pure Spiking Neural Network (SNN) to 1.088B parameters from scratch. Ran out of budget, but here is what I found [R]

Un desarrollador independiente de 18 años escaló una Red Neuronal de Spiking (SNN) pura a 1.088 mil millones de parámetros desde cero para el modelado de lenguaje, logrando la convergencia de la pérdida a pesar de los problemas de gradientes evanescentes. Observó una escasez masiva del 93% y la aparición inesperada de texto ruso estructuralmente correcto, aunque el experimento fue interrumpido por falta de presupuesto.

Spiking Neural Networks AI scaling large language models Language modeling

RESEARCHarXiv CS.LG·hace 1d

FAIR-Calib: Frontier-Aware Instability-Reweighted Calibration for Post-Training Quantization of Diffusion Large Language Models

Los Modelos de Lenguaje Grandes de Difusión (dLLMs) experimentan un "retraso de estabilidad" debido a la confirmación irreversible de tokens, un problema agravado por errores de Cuantificación Post-Entrenamiento (PTQ). FAIR-Calib propone un marco PTQ de dos etapas que utiliza un prior de posición y calibración por capa para proteger estados de frontera frágiles, mejorando la cuantificación para dLLMs.

Diffusion Models post-training quantization quantization AI calibration

ARTICLE↑ trendingReddit r/LocalLLaMA·24/4/2026

Hard freakin' decision..Blackwell 96G or Mac Studio 256G

Un usuario buscó consejo sobre la compra de hardware de IA de alta gama para ejecutar modelos grandes como Gemma4s y Qwen3.6s, sopesando opciones entre una GPU Blackwell/RTX Pro 6000 96G y un Mac Studio M3 Ultra 256G. Finalmente se decidieron por la opción Blackwell, citando su capacidad superior de manejo de tokens y una oferta favorable.

AI applications GPU AI hardware large language models

Hard freakin' decision..Blackwell 96G or Mac Studio 256G

NEWS↑ trendingReddit r/LocalLLaMA·6/5/2026

ZAYA1-8B: Frontier intelligence density, trained on AMD

Se ha anunciado ZAYA1-8B, un nuevo modelo de IA que exhibe una densidad de inteligencia de vanguardia. Fue notablemente entrenado utilizando hardware de AMD.

AI training AMD AI model hardware

ZAYA1-8B: Frontier intelligence density, trained on AMD

ARTICLE↑ trendingReddit r/LocalLLaMA·18/4/2026

Qwen3.6-35B-A3B solved coding problems Qwen3.5-27B couldn’t

El autor, inicialmente escéptico, probó Qwen3.6-35B-A3B y descubrió que podía resolver problemas de codificación que Qwen3.5-27B simplemente no podía manejar. Esto sucedió mientras desarrollaba una aplicación de presupuesto personalizada, donde la versión anterior estaba introduciendo deuda técnica.

model performance App Development large language models coding assistance

RESEARCHDEV.to AI·22/4/2026

Towards Large Reasoning Models: A Survey of Reinforced Reasoning with LargeLanguage Models

Esta encuesta examina los modelos de razonamiento grandes, centrándose en la aplicación de técnicas de razonamiento reforzado a los grandes modelos de lenguaje. Ofrece una visión completa de los métodos actuales y progresos para mejorar las capacidades de razonamiento de los LLM.

Survey reinforced learning AI Reasoning large language models

ARTICLE↑ trendingReddit r/LocalLLaMA·24/4/2026

DeepSeek-v4 has a comical 384K max output capability

Un usuario se sorprende con la capacidad de salida de 384K de DeepSeek-v4, logrando generar un sistema operativo web completo en un solo archivo HTML de 100KB. Esta impresionante funcionalidad demuestra el potencial del modelo para la creación de contenido extenso y complejo.

DeepSeek AI models code generation large language models

DeepSeek-v4 has a comical 384K max output capability

ARTICLE↑ trendingReddit r/LocalLLaMA·6/5/2026

Bad news: Apple drops high-memory Mac Studio configs

Apple ha descontinuado silenciosamente las configuraciones de alta memoria para el Mac Studio, dejando la versión M3 Ultra con un máximo de 96GB de RAM y el Mac mini con 48GB. Este cambio es un revés significativo para los usuarios que desean ejecutar grandes modelos de IA localmente, ya que las opciones de alta memoria eran cruciales para dichas tareas.

Apple Mac Studio Local AI hardware

Bad news: Apple drops high-memory Mac Studio configs

ARTICLE↑ trendingReddit r/LocalLLaMA·27/4/2026

Anthropic's Claude remote uses GLM-4.7

Un usuario descubrió que el entorno de código remoto de Claude de Anthropic utiliza el modelo GLM-4.7 por defecto, no un modelo propietario de Anthropic. Esta observación plantea preguntas sobre el uso de modelos de código abierto por parte de empresas de IA con sus propios modelos.

AI models Anthropic large language models

RESEARCHarXiv CS.LG·14/4/2026

Human-like Working Memory Interference in Large Language Models

Este estudio examina las limitaciones de la memoria de trabajo en los Large Language Models (LLMs), revelando patrones de interferencia similares a los humanos. Los LLMs preentrenados muestran una degradación del rendimiento con la carga de memoria y un sesgo por recencia, a pesar de que los transformadores pueden ser entrenados para resolver estas tareas perfectamente.

LLMs AI limitations Working Memory human cognition

RESEARCHarXiv CS.CL·hace 18d

Broadening Access to Transportation Safety Data with Generative AI: A Schema-Grounded Framework for Spatial Natural Language Queries

Este documento presenta una interfaz de lenguaje natural basada en esquemas que utiliza IA Generativa para hacer que los datos de seguridad del transporte sean más accesibles. Su objetivo es cerrar la brecha para los profesionales al traducir las consultas de los usuarios en marcos semánticos estructurados para un análisis confiable.

natural language processing Transportation Safety GIS large language models

RESEARCHarXiv CS.LG·20/4/2026

Aletheia: Gradient-Guided Layer Selection for Efficient LoRA Fine-Tuning Across Architectures

Aletheia presenta un método de selección de capas guiado por gradiente para el ajuste fino de LoRA, que identifica las capas más relevantes para la tarea y aplica adaptadores de forma asimétrica. Este enfoque logra una aceleración de entrenamiento del 15-28% en diversos modelos de lenguaje grandes, manteniendo el comportamiento posterior.

Parameter-efficient fine-tuning efficiency large language models Fine-tuning

DOCOpenAI Blog·23/4/2026

GPT-5.5 System Card

Este documento, titulado "Tarjeta del Sistema GPT-5.5", probablemente detalla las especificaciones técnicas, capacidades y limitaciones del modelo de lenguaje GPT-5.5. Sirve como referencia completa para comprender el funcionamiento y las pautas de uso de este avanzado sistema de IA.

Model Evaluation large language models AI safety Generative AI

ARTICLEDEV.to AI·22/4/2026

AI এখন শুধু একটা টুল না থেকে ধীরে ধীরে intelligence এর দিকে যাচ্ছে

Recientes rumores en Silicon Valley apuntan a Mythos de Anthropic, un modelo de IA que se dice está trascendiendo la definición de una simple herramienta hacia la inteligencia. Se rumorea que Mythos puede analizar sistemas complejos, entender estructuras de software y detectar vulnerabilidades ocultas, capacidades que van más allá de los modelos de lenguaje estándar.

AI capabilities Mythos Anthropic AI