← heapsort-ai

large language models

262 items

ARTICLEDEV.to AI·hace 2h

Claude Fable 5 dropped this morning. By noon, 13 of my 31 production skills were quietly obsolete.

Un desarrollador narra cómo el lanzamiento de Claude Fable 5 de Anthropic dejó obsoletas 13 de sus 31 habilidades de IA en producción debido a cambios en las directrices de prompting y el comportamiento de la API. Las instrucciones antiguas ahora degradan activamente la calidad de la salida del nuevo modelo, requiriendo una reevaluación completa de su flota de agentes autónomos.

62
RESEARCHarXiv CS.CL·hace 1d

Signal-Driven Observation for Long-Horizon Web Agents

Los agentes web de horizonte largo sufren una degradación progresiva del contexto al ingerir árboles DOM masivos en cada paso de acción, lo que erosiona el razonamiento. Se propone la Observación Dirigida por Señales (SDO), donde una subllamada dedicada lee el DOM completo pero devuelve solo elementos relevantes, reactivada por señales ligeras, para optimizar la observación y la compresión.

60
RESEARCHarXiv CS.CL·hace 19h

Evaluating Hallucinations in Domain-Adapted Large Language Models

Este estudio investiga las alucinaciones en Grandes Modelos de Lenguaje adaptados a dominios, centrándose en Llama-2 ajustado con el conjunto de datos Lamini. Se encontró que su capacidad para razonar y recordar nueva información específica del dominio es limitada, lo que lleva a instancias de alucinación y una tendencia a la sobregeneración.

55
RESEARCHarXiv CS.AI·hace 19h

Some hypotheses on how chatbots work in problem-solving-driven conversations. Large Language Models as confirmation of the Innovation Illusion

Este artículo examina la naturaleza de los chatbots, especialmente los Grandes Modelos de Lenguaje, como socios conversacionales en la resolución de problemas, basándose en la Lingüística Cognitiva y la Neuropsicología. Hipotetiza que los conjuntos de datos de entrenamiento de LLMs solo imitan parcialmente el pensamiento y la comprensión humanos, codificando propagaciones metafóricas artificiales de problemas.

54
RESEARCHarXiv CS.CL·hace 19h

Community-Specific Slang and Entity Detection via Semantic Shift in Fine-Tuned Language Models

Este estudio propone un método no supervisado para resolver argot y entidades únicas de comunidades en línea mediante el análisis de la magnitud del cambio semántico. El cambio semántico se define como la evolución de la representación codificada de una palabra tras el ajuste fino de un Gran Modelo de Lenguaje (LLM) preentrenado en un corpus de texto específico de la comunidad.

54
RESEARCHarXiv CS.CL·hace 19h

Implicit Causal Graph Construction in Text via Chain Discovery

Este artículo investiga la construcción de grafos causales implícitos a partir de texto, infiriendo eventos causales intermedios utilizando Grandes Modelos de Lenguaje (LLMs). Compara la construcción de grafos de extremo a extremo con métodos de descubrimiento de cadenas causales y evalúa la validez de las relaciones causales inferidas frente a una base de datos curada.

54
ARTICLEDEV.to AI·hace 1d

GEO (Generative Engine Optimization): How to Get ChatGPT, Perplexity, and Gemini to Recommend Your Business

Este artículo presenta la Optimización de Motores Generativos (GEO) como una nueva estrategia para que las empresas garanticen que su contenido sea recomendado por LLMs como ChatGPT, Perplexity y Gemini. Este cambio es crucial ya que los usuarios buscan respuestas inmediatas y sintetizadas de la IA conversacional, alejándose de la búsqueda tradicional.

45
DOC↑ trendingReddit r/LocalLLaMA·hace 27d

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face

Se presenta Ovis2.6-80B-A3B como el último avance en Modelos de Lenguaje Grandes Multimodales (MLLMs), mejorando a una arquitectura Mixture-of-Experts (MoE) para un rendimiento multimodal superior con costos de servicio reducidos. También incorpora mejoras importantes en la comprensión de contexto largo y alta resolución, el razonamiento visual y la comprensión de documentos densos en información.

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face
44
RESEARCH↑ trendingReddit r/LocalLLaMA·10/4/2026

National University of Singapore Presents "DMax": A New Paradigm For Diffusion Language Models (dLLMs) Enabling Aggressive Parallel Decoding.

DMax é um novo paradigma para modelos de linguagem de difusão (dLLMs) eficientes que mitiga o acúmulo de erros na decodificação paralela. Ele permite um paralelismo agressivo ao reformular a decodificação como um processo de auto-refinamento progressivo e introduzir uma estratégia de treinamento unificada.

44
DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Este contenido detalla la implementación de la Predicción Multitoken (MTP) con GGUF cuantificados para Qwen3-27B, utilizando cuantificaciones UD XL de Unsloth con capas MTP injertadas en Q8_0, lo que resulta en un aumento de rendimiento de 2,5x. El autor comparte archivos GGUF injertados, la fuente de la capa MTP y un script de conversión, junto con instrucciones de construcción para una versión personalizada de llama.cpp que incorpora soporte de decodificación especulativa de una PR no fusionada.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·16/4/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

Qwen 3.6 ahora incluye una nueva bandera `preserve_thinking` que soluciona el problema de invalidación de la caché KV al mantener el contexto de razonamiento completo del modelo. Esta funcionalidad es especialmente beneficiosa para escenarios de agentes, mejorando la consistencia de las decisiones y optimizando el consumo de tokens y la utilización de la caché KV.

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.
43
CASE↑ trendingReddit r/LocalLLaMA·1/5/2026

16x Spark Cluster (Build Update)

Esta actualización detalla la construcción exitosa de un clúster Nvidia DGX Spark de 16 nodos, configurado para tejido de alta velocidad y memoria unificada. La configuración incluyó el aprovisionamiento estándar de nodos y scripts personalizados para la optimización de la red, con el objetivo de maximizar la capacidad de memoria unificada para servir grandes modelos de lenguaje como GLM-5.1-NVFP4, DeepSeek y Kimi.

16x Spark Cluster (Build Update)
42