LLMs

723 items

ARTICLEDEV.to AI·22/4/2026

One Open Source Project a Day (No. 45): Browser Harness - A Lightweight Bridge Giving AI Agents "Hands" and "Eyes"

Browser Harness es un proyecto de código abierto ligero que permite a los agentes de IA interactuar con navegadores de manera eficiente y rentable, superando las limitaciones de herramientas de automatización tradicionales como Playwright o Selenium. Lo logra mediante un puente directo al Chrome DevTools Protocol, animando a los agentes a escribir y modificar sus propias funciones auxiliares en tiempo real.

open-source LLMs browser automation AI agents

DOCDEV.to AI·hace 22d

89. The Claude API: Building with Anthropic's Models

Esta publicación explora la API Claude de Anthropic, destacando su filosofía de capacidad y seguridad combinadas, y sus diferencias con OpenAI. Ofrece una guía desde la configuración hasta los patrones de producción para construir aplicaciones con los modelos de Claude.

LLMs learning Claude Anthropic

ARTICLEDEV.to AI·10/4/2026

Building Your Own "Google Maps for Codebases": A Guide to Codebase Q&A with LLMs

O artigo aborda o desafio de navegar em bases de código complexas e propõe a construção de um sistema de Q&A com LLMs, similar a um "Google Maps para código", para entender sua estrutura e responder a perguntas. Ele foca no uso de ferramentas open-source para permitir que o leitor passe de usuário a arquiteto dessas soluções de IA.

open-source LLMs Software development Codebase analysis

ARTICLEDEV.to AI·hace 24d

Why Most Engineering Teams Are Overpaying for AI (And Don’t Even Know It)

Muchos equipos de ingeniería están gastando de más en IA al usar modelos grandes y costosos para tareas simples. La clave es seleccionar modelos de IA más pequeños y económicos para tareas que no requieren una gran capacidad de razonamiento, optimizando los costos y la eficiencia.

LLMs Software development model selection cost optimization

DOCDEV.to AI·8/5/2026

Building a RAG pipeline without OpenAI

Este contenido explica el concepto de Generación Aumentada por Recuperación (RAG) y demuestra cómo construir un pipeline RAG completo sin depender de OpenAI. Destaca los beneficios de RAG para grandes modelos de lenguaje, como la prevención de alucinaciones y la capacidad de citar fuentes.

embedding models LLMs Vector Databases open-source AI

RESEARCHarXiv CS.LG·13/4/2026

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Este artículo propone el framework "GNN-as-Judge" para mejorar el rendimiento de los LLM en el aprendizaje semi-supervisado de pocas tomas en Text-Attributed Graphs (TAGs), donde los datos etiquetados son escasos. El método aborda los desafíos de generar pseudoetiquetas fiables y mitigar el ruido de las etiquetas incorporando el sesgo inductivo estructural de las GNN.

semi-supervised learning LLMs GNNs Few-Shot Learning

ARTICLEDEV.to AI·22/4/2026

I burned $800 in Claude tokens so you don't have to. Here's what I'm going to share.

Billy, fundador de MC-MONKEYS, comparte su experiencia de gastar $800 y meses aprendiendo a trabajar con agentes de IA, especialmente Claude. Esta publicación introductoria describe su intención de compartir las lecciones aprendidas y los errores costosos para ayudar a otros desarrolladores.

LLMs development AI agents

RESEARCHarXiv CS.AI·13/4/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar la consistencia lógica de los grandes modelos de lenguaje en tareas de razonamiento complejas. Incorpora explícitamente métricas de estabilidad, como la Función de Autocorrelación y la Eficiencia de la Ruta, para evaluar la coherencia local y la direccionalidad global del proceso de razonamiento.

Policy optimization LLMs reinforcement learning Reasoning

RESEARCHarXiv CS.LG·20/4/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

El estudio proporciona evidencia causal de que la alucinación en modelos de lenguaje autorregresivos es un compromiso temprano de trayectoria regido por dinámicas de atractor asimétricas. La investigación demuestra que las trayectorias fácticas y alucinadas divergen en el primer token, y que corregir una trayectoria alucinada requiere una intervención sostenida, mientras que la corrupción es más sencilla.

Transformer Architecture LLMs hallucination model dynamics

RESEARCHarXiv CS.CL·4/5/2026

Why Do LLMs Struggle in Strategic Play? Broken Links Between Observations, Beliefs, and Actions

Los grandes modelos de lenguaje (LLMs) a menudo tienen dificultades en la toma de decisiones estratégicas bajo información incompleta, un problema examinado a través de dos brechas internas fundamentales. La investigación revela una 'brecha observación-creencia' donde las creencias internas de los LLMs son precisas pero frágiles, degradándose con el razonamiento complejo y mostrando sesgos, y una 'brecha creencia-acción' que destaca la débil conversión de estas creencias internas en acciones efectivas.

LLMs Decision-making AI limitations Cognitive Biases

RESEARCHarXiv CS.CL·11/5/2026

MIST: Multimodal Interactive Speech-based Tool-calling Conversational Assistants for Smart Homes

Este artículo presenta MIST, un conjunto de datos sintético de generación de código multiconversación y controlado por voz para dispositivos IoT. Los autores encuentran una brecha significativa de rendimiento entre los LLMs multimodales de pesos abiertos y cerrados en MIST, lo que sugiere un amplio margen de mejora.

LLMs IoT AI Smart Homes

RESEARCHarXiv CS.AI·25/4/2026

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Este artículo presenta COSPLAY, un framework de co-evolución que mejora la toma de decisiones de los LLMs en tareas de largo plazo. Permite que un agente LLM recupere habilidades de un banco de habilidades aprendible mientras un pipeline de agente descubre y retiene nuevas habilidades de sus propias interacciones sin etiquetar.

LLMs reinforcement learning Skill Discovery AI agents

RESEARCHarXiv CS.LG·9/4/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

LLMs MoE Communication fine-tuning

DOCDEV.to AI·hace 24d

DeepSeek API Guide: How to Use DeepSeek V3 and R1 in Your Projects

Esta guía detalla cómo usar la API de DeepSeek, presentando los modelos V3 y R1 como alternativas rentables para desarrolladores, con un rendimiento comparable a GPT-4 y Claude Opus. Proporciona información sobre precios y un ejemplo de código para la integración con el SDK compatible con OpenAI.

DeepSeek AI models LLMs API

RESEARCHarXiv CS.LG·22/4/2026

Compile to Compress: Boosting Formal Theorem Provers by Compiler Outputs

Esta investigación presenta un novedoso marco de aprendizaje para refinar que aborda el costo computacional prohibitivo de los Grandes Modelos de Lenguaje (LLM) en la demostración formal de teoremas. Al explotar las salidas del compilador que comprimen diversos intentos de prueba en modos de falla estructurados, el método permite una exploración eficiente de pruebas y una corrección local de errores, amplificando significativamente las capacidades de razonamiento de los demostradores base.

scalability LLMs Theorem Proving Formal verification

RESEARCHarXiv CS.CL·8/5/2026

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

Esta investigación aborda la creciente amenaza de intenciones maliciosas ocultas en diálogos multiturno con grandes modelos de lenguaje (LLM), donde los atacantes distribuyen su objetivo dañino a lo largo de múltiples interacciones. Propone un mecanismo de detección temprana para identificar el turno en el que una respuesta podría habilitar una acción perjudicial, introduciendo también el Multi-Turn Intent Dataset (MTID) para entrenamiento y evaluación.

LLMs security multi-turn dialogue AI defense

RESEARCHarXiv CS.CL·8/5/2026

Counterargument for Critical Thinking as Judged by AI and Humans

Este estudio investiga el uso de contraargumentos en la escritura para el pensamiento crítico por parte de estudiantes en el contexto de la IA Generativa (GenAI). Compara evaluaciones humanas (pares y profesor) y de LLMs de vanguardia sobre los trabajos de los estudiantes, utilizando seis rúbricas establecidas.

education LLMs assessment critical thinking

RESEARCHarXiv CS.LG·8/5/2026

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Este artículo presenta el almacenamiento en caché de prefijos dispersos, una optimización para la distribución de LLM que almacena estados recurrentes en puntos de control en lugar de todo el historial de tokens. El método mejora consistentemente la frontera de Pareto en comparación con las heurísticas estándar, especialmente para casos de uso donde las solicitudes comparten un prefijo no trivial.

LLMs AI infrastructure Caching performance

RESEARCHarXiv CS.CL·8/5/2026

When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

When2Speak es un nuevo conjunto de datos sintético y una pipeline de generación de cuatro etapas diseñado para enseñar a los Grandes Modelos de Lenguaje (LLMs) el momento adecuado para intervenir en conversaciones multipartitas. Aborda el desafío de evitar interrupciones excesivas y mejorar la coherencia conversacional en interacciones grupales.

LLMs machine learning datasets Conversational AI

RESEARCHarXiv CS.AI·22/4/2026

AI scientists produce results without reasoning scientifically

Los sistemas basados en LLM realizan investigación científica autónoma, pero no siguen normas epistémicas, ignorando evidencia en el 68% de los casos. Un estudio con 25.000 ejecuciones reveló que los modelos base son el principal determinante del rendimiento y comportamiento del agente.

LLMs AI Reasoning AI agents scientific research