LLMs

720 items

RESEARCHarXiv CS.AI·hace 7d

Don't Gamble, GAMBLe: An Analytical Framework for AI-Driven Research Systems

Este artículo presenta GAMBLe, un marco analítico para Sistemas de Investigación Impulsados por IA (ADRS). Descompone el comportamiento de los ADRS en cuatro parámetros y un paisaje efectivo, revelando cómo distintos pares generador-evaluador influyen en los paisajes de optimización.

LLMs research frameworks AI

RESEARCHarXiv CS.LG·hace 9d

QASM-Eval: A Dataset to Train and Evaluate LLMs on OpenQASM-3 Beyond Quantum Circuits

QASM-Eval es un nuevo y completo conjunto de datos diseñado para entrenar y evaluar Grandes Modelos de Lenguaje (LLMs) en programas OpenQASM-3 que involucran características avanzadas orientadas al hardware. Aborda una brecha en la capacidad de los LLMs para manejar la programación de computación cuántica más allá de la especificación de circuitos de secuencia de puertas.

Quantum Computing LLMs datasets OpenQASM-3

RESEARCHarXiv CS.LG·hace 15d

LLM-AutoSciLab: Closed-Loop Scientific Discovery via Active Experimentation with LLMs

LLM-AutoSciLab propone un marco de ciclo cerrado para el descubrimiento científico, superando la inferencia estática al acoplar activamente la generación de hipótesis con la selección de experimentos y el refinamiento de mecanismos. Sugiere iterativamente hipótesis, elige experimentos informativos para distinguirlas o refinarlas y actualiza su estado basándose en la evidencia resultante.

LLMs research active experimentation Scientific Discovery

RESEARCHarXiv CS.CL·hace 15d

SLAP: Stratified Loss-based Pruning for On-Policy Data-Efficient Instruction Tuning

Esta investigación introduce SLAP, un novedoso marco de selección de datos consciente de lotes diseñado para mejorar la eficiencia de datos en el ajuste de instrucciones para LLMs. SLAP optimiza el aprendizaje evaluando composiciones de lotes completas, asegurando una cobertura integral de la distribución de datos y maximizando la diversidad dentro del lote para lograr un rendimiento sin pérdidas con costos de entrenamiento reducidos.

Instruction Tuning LLMs machine learning model optimization

RESEARCHarXiv CS.CL·hace 7d

Translating Classical Poetry into Modern Prose

Se presenta Padyam2Gadyam, un conjunto de datos para la traducción de poesía a prosa del telugu clásico al telugu y inglés contemporáneo. La evaluación de cinco modelos de lenguaje grandes (LLMs) en esta tarea mostró que su rendimiento general aún necesita una mejora considerable.

poetry LLMs Translation Natural Language Processing

RESEARCHarXiv CS.CL·hace 7d

Topics as Proxies for Sociodemographics: How Conversational Context Affects LLM Answers

Este estudio investiga cómo el contexto conversacional afecta las respuestas de los LLM, especialmente en escenarios de alto riesgo. Demuestra que los temas de conversación son los principales predictores de los consejos generados por los LLM, influyendo en las disparidades de resultados.

conversational context LLMs linguistic features sociodemographics

RESEARCHarXiv CS.CL·hace 7d

Adaptive Latent Agentic Reasoning

Esta investigación presenta el Razonamiento Latente Agente Adaptativo (ALAR), un marco de modo dual diseñado para mejorar la eficiencia de los agentes LLM. ALAR utiliza el razonamiento latente compacto para tareas rutinarias y escala a un razonamiento explícito de cadena de pensamiento cuando se necesita una deliberación más profunda, manteniendo o mejorando la precisión de la tarea con ganancias sustanciales de eficiencia.

LLMs machine learning efficiency Reasoning

RESEARCHarXiv CS.AI·hace 14d

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM es un nuevo benchmark que evalúa la Teoría de la Mente en LLMs mediante el modelado explícito de estructuras de creencias. Supera las limitaciones de las evaluaciones basadas solo en respuestas finales, permitiendo analizar representaciones de estados mentales, incluyendo creencias divergentes o erróneas.

LLMs Social Reasoning benchmarking AI evaluation

RESEARCHarXiv CS.AI·hace 14d

Can LLMs Introspect? A Reality Check

Un nuevo estudio cuestiona si los grandes modelos de lenguaje (LLMs) pueden realmente introspectar, argumentando que las conclusiones actuales pueden ser prematuras. Sugiere que el éxito aparente podría deberse a la detección general de anomalías en lugar de una introspección genuina, basándose en lecciones de la investigación sobre metacognición humana.

LLMs cognitive science Metacognition Introspection

RESEARCHarXiv CS.AI·hace 13d

Discovery Agents for Real-Time Analytics: Toward Proactive Insight Systems

Esta investigación presenta una arquitectura multiagente para el descubrimiento autónomo de insights en flujos de datos en tiempo real, abordando las deficiencias de los sistemas analíticos reactivos. El sistema implementa un ciclo continuo de generación de hipótesis, compilación de análisis, validación y producción de visualizaciones, aprovechando tecnologías como Kafka, Flink y grandes modelos de lenguaje.

LLMs stream processing data analysis real-time analytics

RESEARCHarXiv CS.CL·hace 14d

Cultural Value Alignment Via Latent Activation Steering in Large Language Models

Este artículo propone un nuevo marco para evaluar e intervenir en la alineación de valores culturales en Grandes Modelos de Lenguaje (LLM), abordando la homogeneización cultural. El método utiliza sondeo conductual basado en escenarios y extracción de probabilidades implícitas de tokens para mapear valores culturales latentes, introduciendo también la dirección de activación para ajustar estas alineaciones sin reentrenamiento.

LLMs Cultural Alignment AI ethics Value Systems

ARTICLEDEV.to AI·25/4/2026

DeepSeek V4 vs GPT-5.5 vs Claude Opus 4.7: Model Guide

Esta guía analiza los últimos lanzamientos de modelos de IA, incluyendo GPT-5.5, DeepSeek V4 y Claude Opus 4.7, destacando sus capacidades en un panorama competitivo en rápida evolución. Su objetivo es proporcionar a los desarrolladores datos y un marco de decisión para seleccionar el mejor modelo para tareas específicas.

AI models LLMs benchmarking developer guide

CASEDEV.to AI·25/4/2026

I Built a 24/7 AI Agent System on a $6/Month VPS — Here's the Stack

Un entusiasta de la IA creó un sistema de agente autónomo 24/7 en un VPS de $6/mes, usando OpenClaw, DeepSeek V4 Pro y Docker. Este sistema automatiza la publicación de contenido, artículos y la gestión de tiendas, ofreciendo una alternativa rentable a los LLMs más caros como Claude.

LLMs infrastructure Cost Optimization automation

ARTICLEDEV.to AI·24/4/2026

I Built a Multi-LLM Debate Engine That Fact-Checks Itself in Real Time

El artículo describe la construcción de un motor de debate multi-LLM que se auto-verifica en tiempo real para combatir la tendencia de los LLM a la adulación y la alucinación. Propone un debate estructurado entre agentes con roles distintos, incluyendo un agente dedicado a la verificación de hechos a mitad del debate.

AI models LLMs hallucination multi-agent systems

ARTICLEDEV.to AI·16/4/2026

"The Hidden Cost of AI Agent Hype: Why Most Fail and What Actually Works" — a br

La mayoría de las startups de agentes de IA de 2023 han fracasado o están en problemas porque los desarrolladores están resolviendo el problema equivocado y optimizando para la demostración en lugar de la fiabilidad. Las tareas del mundo real son complejas y requieren un juicio de nivel humano que los LLMs actuales a menudo estropean.

LLMs hype cycle startups AI failure

RESEARCHDEV.to AI·18/4/2026

LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

LlamaFactory se presenta como un framework unificado y eficiente diseñado para el fine-tuning de más de 100 modelos de lenguaje. Busca optimizar y simplificar el proceso de adaptación de una amplia gama de LLMs.

LLMs AI frameworks machine learning large language models

CASEDEV.to AI·25/4/2026

I Built a 24/7 AI Agent System on a $6/Month VPS — Here's the Stack

Este contenido detalla la construcción de un sistema de agente de IA autónomo 24/7 en un VPS de bajo costo ($6/mes), utilizando el framework OpenClaw y DeepSeek V4 Pro. El sistema gestiona diversas tareas en línea, como publicar contenido y vender productos digitales, destacando su eficiencia y rentabilidad.

LLMs VPS Cost Optimization automation

DOCDEV.to AI·21/4/2026

How to Install Ollama on Linux and Windows: Complete Setup Guide

Esta guía detalla cómo instalar y configurar Ollama en sistemas Linux y Windows, una herramienta que simplifica la ejecución y gestión de grandes modelos de lenguaje (LLMs) localmente. Cubre los requisitos del sistema, el proceso de instalación paso a paso y cómo ejecutar su primer modelo, como Llama3.

installation LLMs tutorials Ollama

ARTICLEDEV.to AI·20/4/2026

What 19 GB of Memory Compression Taught Me About MLX on M1 Max

El autor detalla un problema de compresión de memoria de 19 GB al ejecutar un LLM grande con MLX en un M1 Max, confundiéndolo con una fuga. La solución fue una única llamada a la API de MLX para gestionar adecuadamente la memoria unificada de macOS para modelos grandes inactivos entre inferencias.

LLMs apple-silicon memory management Performance optimization

ARTICLEDEV.to AI·9/4/2026

Choosing Between GPT-5.4 and Claude Sonnet 4.6 in Real Workflows

O artigo compara o desempenho dos modelos GPT-5.4 e Claude Sonnet 4.6 em fluxos de trabalho reais, destacando que, embora 80% das tarefas sejam semelhantes, o GPT-5.4 se sobressai em 20% das situações que exigem raciocínio multi-passos, uso de ferramentas e saídas estruturadas. A análise enfatiza que critérios como consistência, velocidade, custo e adequação ao fluxo de trabalho são mais importantes do que apenas a correção em ambientes de produção.

LLMs GPT Workflow model comparison