large language models

262 items

NEWS↑ trendingHacker News (AI)·hace 1d

Apple reveals new AI architecture built around Google Gemini models

Apple ha revelado una nueva arquitectura de IA construida alrededor de los modelos Gemini de Google, lo que representa una colaboración importante en inteligencia artificial. Este desarrollo tiene como objetivo mejorar las capacidades de IA en los dispositivos de Apple.

AI architecture Apple AI Google Gemini large language models

ARTICLEDEV.to AI·hace 2h

Claude Fable 5 dropped this morning. By noon, 13 of my 31 production skills were quietly obsolete.

Un desarrollador narra cómo el lanzamiento de Claude Fable 5 de Anthropic dejó obsoletas 13 de sus 31 habilidades de IA en producción debido a cambios en las directrices de prompting y el comportamiento de la API. Las instrucciones antiguas ahora degradan activamente la calidad de la salida del nuevo modelo, requiriendo una reevaluación completa de su flota de agentes autónomos.

prompt engineering model migration autonomous agents large language models

RESEARCHDEV.to AI·24/4/2026

Kimi K2.6 Benchmark: Results vs GPT-5.4, Claude, Gemini, and K2.5

Este contenido analiza los resultados del benchmark Kimi K2.6 en comparación con GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro y Kimi K2.5, utilizando una tabla de referencia estandarizada. K2.6 muestra un rendimiento sólido en codificación y tareas de agente, superando a su predecesor y acercándose a los modelos propietarios de vanguardia.

AI models Benchmarks Kimi large language models

RESEARCHarXiv CS.CL·hace 1d

Signal-Driven Observation for Long-Horizon Web Agents

Los agentes web de horizonte largo sufren una degradación progresiva del contexto al ingerir árboles DOM masivos en cada paso de acción, lo que erosiona el razonamiento. Se propone la Observación Dirigida por Señales (SDO), donde una subllamada dedicada lee el DOM completo pero devuelve solo elementos relevantes, reactivada por señales ligeras, para optimizar la observación y la compresión.

Observation compression large language models Context management AI agents

NEWSAnthropic (YouTube)·hace 6h

Introducing Claude Fable 5

Este contenido anuncia la introducción de Claude Fable 5. Los detalles sobre el nuevo modelo de IA se presentarían en este lanzamiento.

Claude Anthropic AI model large language models

RESEARCHarXiv CS.CL·hace 19h

Evaluating Hallucinations in Domain-Adapted Large Language Models

Este estudio investiga las alucinaciones en Grandes Modelos de Lenguaje adaptados a dominios, centrándose en Llama-2 ajustado con el conjunto de datos Lamini. Se encontró que su capacidad para razonar y recordar nueva información específica del dominio es limitada, lo que lleva a instancias de alucinación y una tendencia a la sobregeneración.

Llama-2 hallucinations Domain Adaptation large language models

RESEARCHarXiv CS.AI·hace 19h

Some hypotheses on how chatbots work in problem-solving-driven conversations. Large Language Models as confirmation of the Innovation Illusion

Este artículo examina la naturaleza de los chatbots, especialmente los Grandes Modelos de Lenguaje, como socios conversacionales en la resolución de problemas, basándose en la Lingüística Cognitiva y la Neuropsicología. Hipotetiza que los conjuntos de datos de entrenamiento de LLMs solo imitan parcialmente el pensamiento y la comprensión humanos, codificando propagaciones metafóricas artificiales de problemas.

chatbots cognitive science large language models linguistics

RESEARCHarXiv CS.CL·hace 19h

Community-Specific Slang and Entity Detection via Semantic Shift in Fine-Tuned Language Models

Este estudio propone un método no supervisado para resolver argot y entidades únicas de comunidades en línea mediante el análisis de la magnitud del cambio semántico. El cambio semántico se define como la evolución de la representación codificada de una palabra tras el ajuste fino de un Gran Modelo de Lenguaje (LLM) preentrenado en un corpus de texto específico de la comunidad.

online-communities semantic-shift natural language processing large language models

RESEARCHarXiv CS.CL·hace 19h

Implicit Causal Graph Construction in Text via Chain Discovery

Este artículo investiga la construcción de grafos causales implícitos a partir de texto, infiriendo eventos causales intermedios utilizando Grandes Modelos de Lenguaje (LLMs). Compara la construcción de grafos de extremo a extremo con métodos de descubrimiento de cadenas causales y evalúa la validez de las relaciones causales inferidas frente a una base de datos curada.

text analysis natural language processing graph theory large language models

ARTICLEDEV.to AI·hace 1d

GEO (Generative Engine Optimization): How to Get ChatGPT, Perplexity, and Gemini to Recommend Your Business

Este artículo presenta la Optimización de Motores Generativos (GEO) como una nueva estrategia para que las empresas garanticen que su contenido sea recomendado por LLMs como ChatGPT, Perplexity y Gemini. Este cambio es crucial ya que los usuarios buscan respuestas inmediatas y sintetizadas de la IA conversacional, alejándose de la búsqueda tradicional.

ChatGPT Generative Engine Optimization large language models SEO

DOC↑ trendingReddit r/LocalLLaMA·hace 27d

AIDC-AI/Ovis2.6-80B-A3B · Hugging Face

Se presenta Ovis2.6-80B-A3B como el último avance en Modelos de Lenguaje Grandes Multimodales (MLLMs), mejorando a una arquitectura Mixture-of-Experts (MoE) para un rendimiento multimodal superior con costos de servicio reducidos. También incorpora mejoras importantes en la comprensión de contexto largo y alta resolución, el razonamiento visual y la comprensión de documentos densos en información.

AI models multimodal AI Mixture of Experts large language models

RESEARCH↑ trendingReddit r/LocalLLaMA·22/4/2026

Personal Eval follow-up: Gemma4 26B MoE (Q8) vs Qwen3.5 27B Dense vs Gemma4 31B Dense Compared

Este seguimiento compara los modelos Gemma4 26B MoE (Q8), Qwen3.5 27B Dense y Gemma4 31B Dense, incluyendo resultados anteriores de Qwen 3.6 35B y Gemma 4 26B (Q4). El análisis evalúa su rendimiento, destacando el impacto de la cuantificación de 8 bits y la eficacia de diferentes arquitecturas de modelo.

Benchmarking Gemma model comparison quantization

RESEARCH↑ trendingReddit r/LocalLLaMA·10/4/2026

National University of Singapore Presents "DMax": A New Paradigm For Diffusion Language Models (dLLMs) Enabling Aggressive Parallel Decoding.

DMax é um novo paradigma para modelos de linguagem de difusão (dLLMs) eficientes que mitiga o acúmulo de erros na decodificação paralela. Ele permite um paralelismo agressivo ao reformular a decodificação como um processo de auto-refinamento progressivo e introduzir uma estratégia de treinamento unificada.

Diffusion Models Parallel Decoding natural language processing AI

NEWS↑ trendingReddit r/LocalLLaMA·24/4/2026

Deepseek V4 Flash and Non-Flash Out on HuggingFace

Deepseek AI ha anunciado el lanzamiento de las nuevas versiones Deepseek V4 Flash y Non-Flash de sus modelos en la plataforma HuggingFace. Esta colección ofrece acceso directo a los últimos modelos de Deepseek para la comunidad de IA.

AI models DeepSeek V4 large language models model release

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

Qwen3.6-27B with MTP grafted on Unsloth UD XL: 2.5x throughput via unmerged llama.cpp PR

Este contenido detalla la implementación de la Predicción Multitoken (MTP) con GGUF cuantificados para Qwen3-27B, utilizando cuantificaciones UD XL de Unsloth con capas MTP injertadas en Q8_0, lo que resulta en un aumento de rendimiento de 2,5x. El autor comparte archivos GGUF injertados, la fuente de la capa MTP y un script de conversión, junto con instrucciones de construcción para una versión personalizada de llama.cpp que incorpora soporte de decodificación especulativa de una PR no fusionada.

Multi-Token Prediction llama.cpp quantization large language models

ARTICLE↑ trendingReddit r/LocalLLaMA·16/4/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

Qwen 3.6 ahora incluye una nueva bandera `preserve_thinking` que soluciona el problema de invalidación de la caché KV al mantener el contexto de razonamiento completo del modelo. Esta funcionalidad es especialmente beneficiosa para escenarios de agentes, mejorando la consistencia de las decisiones y optimizando el consumo de tokens y la utilización de la caché KV.

large language models model optimization Qwen AI agents

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

ARTICLE↑ trendingHacker News (AI)·hace 11d

DeepSeek Slashes AI Costs to Cents

DeepSeek ha reducido drásticamente los costos de inferencia de IA, bajándolos a solo unos centavos. Este desarrollo hace que la tecnología de IA sea más accesible y económicamente viable para una gama más amplia de aplicaciones.

DeepSeek AI costs inference cost reduction

CASE↑ trendingReddit r/LocalLLaMA·1/5/2026

16x Spark Cluster (Build Update)

Esta actualización detalla la construcción exitosa de un clúster Nvidia DGX Spark de 16 nodos, configurado para tejido de alta velocidad y memoria unificada. La configuración incluyó el aprovisionamiento estándar de nodos y scripts personalizados para la optimización de la red, con el objetivo de maximizar la capacidad de memoria unificada para servir grandes modelos de lenguaje como GLM-5.1-NVFP4, DeepSeek y Kimi.

AI hardware unified memory cluster computing large language models

ARTICLE↑ trendingHacker News (AI)·hace 11d

Notes from the Mistral AI Now Summit in Paris

Este artículo ofrece notas clave e información del Mistral AI Now Summit, celebrado en París. Cubre los puntos destacados y los anuncios relevantes realizados durante el evento.

AI Events Mistral AI large language models AI Summit

ARTICLE↑ trendingHacker News (AI)·hace 11d

Liquid AI reveals 8B-A1B MoE trained on 38T

Liquid AI ha presentado su nuevo modelo 8B-A1B MoE, entrenado con 38 billones de tokens, lo que representa un avance significativo en el desarrollo de modelos de IA. Este lanzamiento muestra el progreso de la compañía en arquitecturas de IA avanzadas.

AI models Mixture of Experts large language models AI development