← heapsort-ai

LLMs

714 items

NEWS↑ trendingReddit r/MachineLearning·hace 25d

arXiv implements 1-year ban for papers containing incontrovertible evidence of unchecked LLM-generated errors, such as hallucinated references or results. [N]

arXiv ha anunciado una nueva política que impone una prohibición de 1 año a los autores que presenten artículos con pruebas irrefutables de errores generados por LLM sin verificar, como referencias o resultados alucinados. Esta política enfatiza que los autores son totalmente responsables de todo el contenido, independientemente de cómo haya sido generado por herramientas de IA.

42
RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

Built an political benchmark for LLMs. KIMI K2 can't answer about Taiwan (Obviously). GPT-5.3 refuses 100% of questions when given an opt-out. [P]

Un investigador creó un benchmark para mapear LLMs en una brújula política 2D utilizando 98 preguntas, descubriendo que la negativa a responder es una postura política. Los resultados iniciales incluyen GPT-5.3, Claude Opus 4.6 y KIMI K2, y el repositorio es de código abierto.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·7/5/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant es una técnica novedosa que emplea cuantización de rotación por pares para mejorar significativamente la eficiencia de la inferencia de Modelos de Lenguaje Grandes (LLM). Este método se dirige específicamente a los LLM de razonamiento, permitiendo una implementación más económica y rápida al reducir los requisitos computacionales y de memoria.

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
42
NEWS↑ trendingReddit r/LocalLLaMA·9/4/2026

Marco-Mini (17.3B, 0.86B active) and Marco-Nano (8B, 0.6B active) by Alibaba

A Alibaba lançou recentemente os modelos Marco-Mini e Marco-Nano, variantes instrucionadas de modelos de linguagem multilingues altamente esparsos baseados em Mixture-of-Experts (MoE). O Marco-Mini, com apenas 0.86B de 17.3B parâmetros ativos, destaca-se por superar outros modelos de até 12B de parâmetros ativados em benchmarks de desempenho.

42
NEWS↑ trendingReddit r/LocalLLaMA·27/4/2026

Skymizer Taiwan Inc. Unveils Breakthrough Architecture Enabling Ultra-Large LLM Inference on a Single Card

Skymizer Taiwan Inc. ha presentado una arquitectura innovadora, la tarjeta HTX301, que permite la inferencia de LLMs de 700B parámetros en una sola tarjeta PCIe con 384GB de memoria y bajo consumo (~240W). Este enfoque descarga la decodificación a la HTX301 mientras las GPUs manejan el prellenado, haciendo posible la inferencia de LLMs ultragrandes localmente sin necesidad de VRAM masiva en GPUs.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·hace 27d

TextGen is now a native desktop app. Open-source alternative to LM Studio (formerly text-generation-webui).

TextGen, una alternativa de código abierto a LM Studio, ha evolucionado a una aplicación de escritorio sin instalación para Windows, Linux y macOS. Desarrollada desde diciembre de 2022, esta aplicación autónoma ofrece una interfaz de usuario pulida para la generación de texto, funcionando de manera similar a cómo LM Studio utiliza Electron.

TextGen is now a native desktop app. Open-source alternative to LM Studio (formerly text-generation-webui).
42
ARTICLE↑ trendingReddit r/MachineLearning·6/5/2026

Stop letting LLMs edit your .bib [D]

El autor se muestra impactado por la frecuencia de citas alucinadas por LLMs en trabajos académicos, lo que resulta en listas de autores incorrectas. Cuestiona la falta de respeto por la investigación y la necesidad de sanciones más severas, preguntando si otros experimentan el mismo problema.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·14/4/2026

How to Distill from 100B+ to <4B Models

Este contenido trata sobre el proceso de destilación de modelos de IA, centrándose en cómo reducir modelos gigantes de más de 100 mil millones de parámetros a versiones significativamente más pequeñas, con menos de 4 mil millones. El objetivo es mejorar la eficiencia y accesibilidad de los modelos complejos.

How to Distill from 100B+ to <4B Models
42
ARTICLE↑ trendingReddit r/LocalLLaMA·17/4/2026

what’s actually stopping an insider from leaking model weights?

El contenido cuestiona las barreras técnicas que impiden que un insider filtre los pesos de modelos LLM insignia de empresas como OpenAI o Anthropic. Sugiere que los LLM son relativamente autocontenidos, lo que podría facilitar la exfiltración en comparación con el software tradicional, y se pregunta por qué tales filtraciones no han ocurrido con mayor frecuencia a pesar de los acuerdos de confidencialidad.

42
ARTICLE↑ trendingReddit r/MachineLearning·hace 27d

Sharing all KGC 2026 decks. More production-grade KG systems than I've seen at any conference. [D]

La Knowledge Graph Conference (KGC 2026) exhibió un número significativo de sistemas de Knowledge Graph de grado de producción en vivo de varias empresas, una diferencia de los eventos típicos de IA que a menudo presentan solo pruebas de concepto. Los ejemplos incluyeron la gobernanza de ontologías de Bloomberg, el KG de inteligencia de fármacos de AbbVie con una interfaz LLM y la detección continua de desviaciones SHACL de Morgan Stanley para informes de riesgo.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026

I'm running qwen3.6-35b-a3b with 8 bit quant and 64k context thru OpenCode on my mbp m5 max 128gb and it's as good as claude

Un usuario informa que está ejecutando Qwen3.6-35b-a3b localmente en un MacBook Pro M5 Max con cuantificación de 8 bits y contexto de 64k, encontrando su rendimiento comparable al de Claude. Está muy impresionado con su velocidad, capacidad para manejar tareas de investigación complejas y los beneficios de privacidad de la ejecución local.

42
CASE↑ trendingReddit r/LocalLLaMA·23/4/2026

Been using PI Coding Agent with local Qwen3.6 35b for a while now and its actually insane

El usuario informa una experiencia muy positiva y efectiva con el PI Coding Agent, utilizando un modelo local Qwen3.6 35b para proyectos de producción. El éxito se atribuyó a un archivo de "skill" personalizado que impone un flujo de trabajo de planificación, asegurando la ejecución paso a paso y la aprobación del plan antes de cualquier codificación.

42
ARTICLE↑ trendingReddit r/MachineLearning·26/4/2026

Going from 3B/7B dense to Nemotron 3 Nano (hybrid Mamba-MoE) for multi-task reasoning — what changes in the fine-tuning playbook? [D]

El autor está pasando del ajuste fino de transformadores densos al Nemotron 3 Nano de NVIDIA (una arquitectura híbrida Mamba-Attention-MoE) para el razonamiento multi-tarea. Busca orientación sobre cómo la arquitectura híbrida afecta la receta estándar de ajuste fino LoRA, ya que su experiencia previa se limita a modelos densos.

42
CASE↑ trendingReddit r/LocalLLaMA·18/4/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Un usuario informa que Qwen 3.6 muestra un salto de rendimiento significativo, demostrando ser capaz para cargas de trabajo típicamente manejadas por Opus y Codex, aunque no a su mismo nivel. El usuario resalta su utilidad y velocidad cuando se configura correctamente con `preserve_thinking` en un M5 Max con ajustes específicos.

qwen3.6 performance jump is real, just make sure you have it properly configured
42
ARTICLEDEV.to AI·22/4/2026

Your LLM Isn't the Problem. Your Pipeline Is.

El artículo detalla un problema arquitectónico común en el etiquetado de productos de e-commerce con LLMs, donde las llamadas individuales, aunque correctas, carecen de memoria, lo que fragmenta la taxonomía. El problema no es el LLM, sino que la pipeline no proporciona un vocabulario de etiquetas consistente como entrada.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·22/4/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Los modelos de IA densos superan actualmente a los MoE en general, pero los MoE están alcanzando rápidamente, particularmente en los benchmarks de codificación. Para usuarios con 24GB de VRAM y necesidad de grandes ventanas de contexto, el MoE se está convirtiendo en una opción más atractiva.

Dense vs. MoE gap is shrinking fast with the 3.6-27B release
41
RESEARCHarXiv CS.CL·hace 1d

The Piggyback Hypothesis of Generalization: Explaining and Mitigating Emergent Misalignment

La Hipótesis Piggyback explica cómo los tokens de plantilla de chat pueden causar desalineación emergente en LLMs, generalizando el comportamiento ajustado a consultas fuera del dominio. Se propone la técnica Token-Regularized Finetuning (TReFT) para mitigar este problema, preservando el aprendizaje en el dominio y reduciendo la desalineación.

41
ARTICLE↑ trendingReddit r/LocalLLaMA·16/4/2026

Gemma 4 31b 3D geometry

El autor expresa gran satisfacción con la calidad de Gemma 4, destacando su capacidad de codificación y adaptabilidad en conversaciones y razonamiento. Una prueba de generación de modelos 3D a partir de una imagen de un coche de F1 demostró que Gemma superó significativamente a modelos como Claude Sonnet, Gemini Pro y ChatGPT, que presentaron fallos notables.

Gemma 4 31b 3D geometry
41