← heapsort-ai

large language models

262 items

RESEARCHarXiv CS.CL·hace 14d

Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study

Esta investigación introduce EnterpriseMem-Bench, un nuevo benchmark Text-to-SQL de múltiples turnos con 300 sesiones y 1.400 turnos de dominios empresariales. Evalúa empíricamente cinco modelos de vanguardia, incluyendo variantes de GPT y Claude, revelando que los modelos Text-to-SQL de múltiples turnos sin estado alcanzan una precisión de ejecución nula en el Turno 3.

27
ARTICLEDEV.to AI·25/4/2026

GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro: The Frontier Model Showdown

Este artículo compara los últimos modelos de IA insignia — GPT-5.5, Claude Opus 4.7 y Gemini 3.1 Pro — para flujos de trabajo de producción, construcción de agentes y herramientas de codificación. Argumenta que ningún modelo es universalmente superior, con la elección dependiendo de tareas específicas, precio e infraestructura, especialmente para codificación agentiva de alto riesgo.

27
ARTICLEDEV.to AI·16/4/2026

Prof. Alois Knoll im Interview: Ohne Körper keine echte KI

El Prof. Alois Knoll, investigador de robótica e IA, sostiene que la verdadera inteligencia necesita un cuerpo, ya que los grandes modelos de lenguaje están atrapados en el espacio digital y carecen de experiencia física. Destaca la importancia de los robots humanoides para recopilar datos del mundo real, ofreciendo un nivel de comprensión que el análisis de texto puro no puede reemplazar.

27
ARTICLEDEV.to AI·25/4/2026

I Audited a Business's AI Visibility Across Four Platforms. The Results Were Worse Than Expected.

Este artículo describe una auditoría de visibilidad de IA realizada para una empresa en plataformas como ChatGPT, Claude, Gemini y Perplexity, revelando que la optimización SEO tradicional para Google es insuficiente. La auditoría probó cómo los modelos de IA representan un negocio a través de consultas de categoría general y de marca específica, indicando una brecha significativa en las estrategias de optimización actuales para plataformas de IA.

27
ARTICLEDEV.to AI·25/4/2026

DeepSeek V4 Pro Just Dropped — Here's What Changed for AI Agents

DeepSeek V4 Pro, un modelo MoE con 1.6T parámetros y 1M de tokens de contexto, ha sido lanzado, aportando mejoras significativas para agentes de IA, incluyendo modos duales de pensamiento/no pensamiento y llamadas a funciones más fiables. Se posiciona como una alternativa rentable y de alto rendimiento, superando a modelos como Claude Sonnet y GPT-4o para cargas de trabajo de agentes.

27
DOCDEV.to AI·hace 29d

The $30/Month AI Coding Stack That Replaces $200 Subscriptions: A 2026 Setup Guide

Una pila de codificación de IA de $30/mes, utilizando APIs de pago por token como Claude Opus 4.7, puede reemplazar suscripciones de $200/mes, priorizando la estrategia de enrutamiento sobre la selección de modelos individuales. Este enfoque evita los límites de uso comunes en estructuras de tarifa fija, ofreciendo costos más predecibles por tarea.

27
NEWSDEV.to AI·15/4/2026

AI Weekly: Agents, Models, and Chips — April 9–15, 2026

Esta semana, las herramientas de codificación de IA como Cursor, Claude Code y OpenAI Codex están convergiendo en entornos de desarrollo unificados, y nuevos modelos de lenguaje elevan el nivel multimodal. Además, el hardware para cargas de trabajo agenticas está ahora generalmente disponible, con el 84% de los desarrolladores ya utilizando herramientas de IA a diario.

27
RESEARCHarXiv CS.CL·6/4/2026

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Este conteúdo apresenta SWAY, uma nova métrica computacional linguística não supervisionada para medir a bajulação (sycophancy) em Grandes Modelos de Linguagem (LLMs), que é a tendência de alinhar respostas com a postura do usuário. A pesquisa utiliza um mecanismo de prompt contrafactual e propõe uma estratégia de mitigação baseada em considerar premissas opostas para reduzir esse viés.

27
RESEARCHarXiv CS.CL·30/4/2026

Generative AI-Based Virtual Assistant using Retrieval-Augmented Generation: An evaluation study for bachelor projects

Este artículo evalúa un asistente virtual basado en IA Generativa que utiliza Generación Aumentada por Recuperación (RAG) para apoyar a estudiantes de la Universidad de Maastricht con regulaciones de proyectos. El sistema busca abordar desafíos como las alucinaciones y proporcionar respuestas precisas y contextuales integrando conocimiento específico del dominio.

27
RESEARCHarXiv CS.LG·6/5/2026

Agentic AI-Based Joint Computing and Networking via Mixture of Experts and Large Language Models

Este artículo propone un marco de optimización de red basado en inteligencia artificial agentica que integra arquitecturas de mezcla de expertos (MoE) con grandes modelos de lenguaje (LLMs). El LLM actúa como una puerta semántica para razonar sobre los objetivos del operador y componer dinámicamente agentes de optimización adecuados para redes móviles 6G.

27
RESEARCHarXiv CS.LG·6/5/2026

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Este artículo investiga el impacto de errores de verificación sistemáticos en el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), un enfoque para mejorar las capacidades de razonamiento de los LLM. A diferencia de análisis anteriores que consideraban los errores aleatorios, este estudio demuestra que los errores sistemáticos pueden hacer que los modelos aprendan comportamientos consistentes no deseados. Los experimentos en tareas aritméticas muestran que los falsos negativos sistemáticos tienen efectos similares al ruido aleatorio, mientras que los falsos positivos sistemáticos pueden causar problemas mayores.

27