large language models

262 items

RESEARCHarXiv CS.CL·hace 14d

Memory Architectures for Multi-Turn Text-to-SQL: A Benchmark and Empirical Study

Esta investigación introduce EnterpriseMem-Bench, un nuevo benchmark Text-to-SQL de múltiples turnos con 300 sesiones y 1.400 turnos de dominios empresariales. Evalúa empíricamente cinco modelos de vanguardia, incluyendo variantes de GPT y Claude, revelando que los modelos Text-to-SQL de múltiples turnos sin estado alcanzan una precisión de ejecución nula en el Turno 3.

memory architectures Text-to-SQL enterprise analytics benchmarking

ARTICLEDEV.to AI·25/4/2026

GPT-5.5 vs Claude Opus 4.7 vs Gemini 3.1 Pro: The Frontier Model Showdown

Este artículo compara los últimos modelos de IA insignia — GPT-5.5, Claude Opus 4.7 y Gemini 3.1 Pro — para flujos de trabajo de producción, construcción de agentes y herramientas de codificación. Argumenta que ningún modelo es universalmente superior, con la elección dependiendo de tareas específicas, precio e infraestructura, especialmente para codificación agentiva de alto riesgo.

AI models benchmarking coding tools large language models

ARTICLEDEV.to AI·16/4/2026

Prof. Alois Knoll im Interview: Ohne Körper keine echte KI

El Prof. Alois Knoll, investigador de robótica e IA, sostiene que la verdadera inteligencia necesita un cuerpo, ya que los grandes modelos de lenguaje están atrapados en el espacio digital y carecen de experiencia física. Destaca la importancia de los robots humanoides para recopilar datos del mundo real, ofreciendo un nivel de comprensión que el análisis de texto puro no puede reemplazar.

humanoid robots embodied AI AI large language models

NEWSDEV.to AI·25/4/2026

OpenAI Just Released GPT-5.5. Here's What It Actually Does (and What It Costs You)

OpenAI lanzó GPT-5.5, un modelo genuinamente diferente diseñado para manejar tareas complejas y de varias partes que requieren un razonamiento sostenido en múltiples pasos. Esta iteración busca reducir la necesidad de supervisión constante, permitiendo a los desarrolladores confiar en él para planificar y navegar por la ambigüedad.

AI models OpenAI GPT-5.5 large language models

ARTICLEDEV.to AI·25/4/2026

I Audited a Business's AI Visibility Across Four Platforms. The Results Were Worse Than Expected.

Este artículo describe una auditoría de visibilidad de IA realizada para una empresa en plataformas como ChatGPT, Claude, Gemini y Perplexity, revelando que la optimización SEO tradicional para Google es insuficiente. La auditoría probó cómo los modelos de IA representan un negocio a través de consultas de categoría general y de marca específica, indicando una brecha significativa en las estrategias de optimización actuales para plataformas de IA.

digital-marketing SEO for AI large language models AI visibility

RESEARCHDEV.to AI·18/4/2026

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

LlamaFactory se presenta como un framework unificado y eficiente diseñado para el fine-tuning de más de 100 modelos de lenguaje. Busca optimizar y simplificar el proceso de adaptación de una amplia gama de LLMs.

LLMs AI frameworks machine learning large language models

DOCDEV.to AI·26/4/2026

GPT-5.5 System Card

La GPT-5.5 System Card de OpenAI describe un modelo de lenguaje basado en transformadores, que se basa en GPT-3 con enfoque en escalado y ajuste fino. Su arquitectura es principalmente solo decodificador y utiliza mecanismos de autoatención y redes feed-forward.

AI architecture Natural Language Processing large language models

ARTICLEDEV.to AI·25/4/2026

DeepSeek V4 Pro Just Dropped — Here's What Changed for AI Agents

DeepSeek V4 Pro, un modelo MoE con 1.6T parámetros y 1M de tokens de contexto, ha sido lanzado, aportando mejoras significativas para agentes de IA, incluyendo modos duales de pensamiento/no pensamiento y llamadas a funciones más fiables. Se posiciona como una alternativa rentable y de alto rendimiento, superando a modelos como Claude Sonnet y GPT-4o para cargas de trabajo de agentes.

DeepSeek AI Model large language models performance

DOCDEV.to AI·hace 29d

The $30/Month AI Coding Stack That Replaces $200 Subscriptions: A 2026 Setup Guide

Una pila de codificación de IA de $30/mes, utilizando APIs de pago por token como Claude Opus 4.7, puede reemplazar suscripciones de $200/mes, priorizando la estrategia de enrutamiento sobre la selección de modelos individuales. Este enfoque evita los límites de uso comunes en estructuras de tarifa fija, ofreciendo costos más predecibles por tarea.

developer productivity Subscription models AI tools Cost Optimization

NEWSDEV.to AI·15/4/2026

AI Weekly: Agents, Models, and Chips — April 9–15, 2026

Esta semana, las herramientas de codificación de IA como Cursor, Claude Code y OpenAI Codex están convergiendo en entornos de desarrollo unificados, y nuevos modelos de lenguaje elevan el nivel multimodal. Además, el hardware para cargas de trabajo agenticas está ahora generalmente disponible, con el 84% de los desarrolladores ya utilizando herramientas de IA a diario.

AI coding tools large language models AI agents

ARTICLEDEV.to AI·14/4/2026

MiniMax M2 on OpenClaw: Setup, Pricing, and Performance...

El artículo describe la familia de modelos de lenguaje grandes MiniMax M2, que utiliza una arquitectura Mixture of Experts para un alto rendimiento y bajo costo de inferencia. El modelo M2.7 logra el 90% de la calidad de los modelos frontera con el 7% del costo, con resultados de referencia comparables a Claude Sonnet 4.

OpenClaw AI performance Mixture of Experts MiniMax M2

ARTICLEDEV.to AI·9/4/2026

Meta's New Model Has 16 Tools. Here's What They Do.

O novo modelo Muse Spark da Meta, competitivo com GPT-5.4 e Gemini 3.1 Pro, destaca-se por seu catálogo de 16 ferramentas integradas. Ele oferece um sandbox Python 3.9 com OpenCV e permite gerar e analisar imagens instantaneamente no mesmo ambiente, incorporando recursos como o Segment Anything.

Muse Spark Meta AI image generation AI tools

CASEDEV.to AI·21/4/2026

How we built real-time deposition analysis with Claude's streaming API

Este contenido describe la construcción de una herramienta de IA en tiempo real para abogados de negligencia médica para analizar declaraciones. El sistema utiliza Deepgram para la transcripción en vivo y Claude para analizar segmentos de 30 segundos, identificando admisiones e inconsistencias.

application development streaming-api large language models real-time AI

ARTICLEHugging Face Blog·24/4/2026

DeepSeek-V4: a million-token context that agents can actually use

DeepSeek-V4 presenta un nuevo modelo de lenguaje con una ventana de contexto de un millón de tokens, diseñada para ser utilizada eficazmente por agentes de IA. Esta innovación busca mejorar considerablemente la memoria y el razonamiento de los agentes.

AI models Context window large language models AI agents

RESEARCHarXiv CS.CL·6/4/2026

SWAY: A Counterfactual Computational Linguistic Approach to Measuring and Mitigating Sycophancy

Este conteúdo apresenta SWAY, uma nova métrica computacional linguística não supervisionada para medir a bajulação (sycophancy) em Grandes Modelos de Linguagem (LLMs), que é a tendência de alinhar respostas com a postura do usuário. A pesquisa utiliza um mecanismo de prompt contrafactual e propõe uma estratégia de mitigação baseada em considerar premissas opostas para reduzir esse viés.

counterfactual prompting computational linguistic sycophancy large language models

RESEARCHarXiv CS.LG·30/4/2026

Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective

Este trabajo replantea la eliminación de caché KV para LLMs utilizando un objetivo de información-teórico derivado del principio del Cuello de Botella de la Información. Introduce CapKV, un nuevo método consciente de la capacidad que preserva la información, superando las estrategias heurísticas existentes.

Memory Optimization machine learning large language models AI inference

RESEARCHarXiv CS.CL·30/4/2026

Generative AI-Based Virtual Assistant using Retrieval-Augmented Generation: An evaluation study for bachelor projects

Este artículo evalúa un asistente virtual basado en IA Generativa que utiliza Generación Aumentada por Recuperación (RAG) para apoyar a estudiantes de la Universidad de Maastricht con regulaciones de proyectos. El sistema busca abordar desafíos como las alucinaciones y proporcionar respuestas precisas y contextuales integrando conocimiento específico del dominio.

Retrieval Augmented Generation education Virtual Assistants large language models

RESEARCHarXiv CS.LG·6/5/2026

Agentic AI-Based Joint Computing and Networking via Mixture of Experts and Large Language Models

Este artículo propone un marco de optimización de red basado en inteligencia artificial agentica que integra arquitecturas de mezcla de expertos (MoE) con grandes modelos de lenguaje (LLMs). El LLM actúa como una puerta semántica para razonar sobre los objetivos del operador y componer dinámicamente agentes de optimización adecuados para redes móviles 6G.

Network Optimization 6G Networks Agentic AI Mixture of Experts

RESEARCHarXiv CS.LG·6/5/2026

Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR

Este artículo investiga el impacto de errores de verificación sistemáticos en el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR), un enfoque para mejorar las capacidades de razonamiento de los LLM. A diferencia de análisis anteriores que consideraban los errores aleatorios, este estudio demuestra que los errores sistemáticos pueden hacer que los modelos aprendan comportamientos consistentes no deseados. Los experimentos en tareas aritméticas muestran que los falsos negativos sistemáticos tienen efectos similares al ruido aleatorio, mientras que los falsos positivos sistemáticos pueden causar problemas mayores.

reinforcement learning AI Errors Verification large language models

RESEARCHarXiv CS.AI·hace 22d

From Prompts to Protocols: An AI Agent for Laboratory Automation

Este artículo presenta una arquitectura de agente de IA que integra grandes modelos de lenguaje con la orquestación de laboratorio. Permite a los científicos crear y monitorear protocolos de laboratorio automatizados de forma interactiva usando lenguaje natural.

Experiment Orchestration AI agent Natural Language Processing large language models