← heapsort-ai

LLMs

723 items

ARTICLEDEV.to AI·22/4/2026

One Open Source Project a Day (No. 45): Browser Harness - A Lightweight Bridge Giving AI Agents "Hands" and "Eyes"

Browser Harness es un proyecto de código abierto ligero que permite a los agentes de IA interactuar con navegadores de manera eficiente y rentable, superando las limitaciones de herramientas de automatización tradicionales como Playwright o Selenium. Lo logra mediante un puente directo al Chrome DevTools Protocol, animando a los agentes a escribir y modificar sus propias funciones auxiliares en tiempo real.

27
ARTICLEDEV.to AI·10/4/2026

Building Your Own "Google Maps for Codebases": A Guide to Codebase Q&A with LLMs

O artigo aborda o desafio de navegar em bases de código complexas e propõe a construção de um sistema de Q&A com LLMs, similar a um "Google Maps para código", para entender sua estrutura e responder a perguntas. Ele foca no uso de ferramentas open-source para permitir que o leitor passe de usuário a arquiteto dessas soluções de IA.

27
RESEARCHarXiv CS.LG·13/4/2026

GNN-as-Judge: Unleashing the Power of LLMs for Graph Learning with GNN Feedback

Este artículo propone el framework "GNN-as-Judge" para mejorar el rendimiento de los LLM en el aprendizaje semi-supervisado de pocas tomas en Text-Attributed Graphs (TAGs), donde los datos etiquetados son escasos. El método aborda los desafíos de generar pseudoetiquetas fiables y mitigar el ruido de las etiquetas incorporando el sesgo inductivo estructural de las GNN.

27
RESEARCHarXiv CS.AI·13/4/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar la consistencia lógica de los grandes modelos de lenguaje en tareas de razonamiento complejas. Incorpora explícitamente métricas de estabilidad, como la Función de Autocorrelación y la Eficiencia de la Ruta, para evaluar la coherencia local y la direccionalidad global del proceso de razonamiento.

27
RESEARCHarXiv CS.LG·20/4/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

El estudio proporciona evidencia causal de que la alucinación en modelos de lenguaje autorregresivos es un compromiso temprano de trayectoria regido por dinámicas de atractor asimétricas. La investigación demuestra que las trayectorias fácticas y alucinadas divergen en el primer token, y que corregir una trayectoria alucinada requiere una intervención sostenida, mientras que la corrupción es más sencilla.

27
RESEARCHarXiv CS.CL·4/5/2026

Why Do LLMs Struggle in Strategic Play? Broken Links Between Observations, Beliefs, and Actions

Los grandes modelos de lenguaje (LLMs) a menudo tienen dificultades en la toma de decisiones estratégicas bajo información incompleta, un problema examinado a través de dos brechas internas fundamentales. La investigación revela una 'brecha observación-creencia' donde las creencias internas de los LLMs son precisas pero frágiles, degradándose con el razonamiento complejo y mostrando sesgos, y una 'brecha creencia-acción' que destaca la débil conversión de estas creencias internas en acciones efectivas.

27
RESEARCHarXiv CS.LG·9/4/2026

TalkLoRA: Communication-Aware Mixture of Low-Rank Adaptation for Large Language Models

TalkLoRA propõe um framework MoELoRA que aborda a instabilidade de roteamento e a dominância de especialistas em métodos existentes, permitindo a comunicação entre especialistas antes do roteamento. Isso é feito através de um Módulo de Conversação leve, que facilita a troca de informações, gerando um sinal de roteamento mais robusto para Large Language Models (LLMs).

27
RESEARCHarXiv CS.LG·22/4/2026

Compile to Compress: Boosting Formal Theorem Provers by Compiler Outputs

Esta investigación presenta un novedoso marco de aprendizaje para refinar que aborda el costo computacional prohibitivo de los Grandes Modelos de Lenguaje (LLM) en la demostración formal de teoremas. Al explotar las salidas del compilador que comprimen diversos intentos de prueba en modos de falla estructurados, el método permite una exploración eficiente de pruebas y una corrección local de errores, amplificando significativamente las capacidades de razonamiento de los demostradores base.

27
RESEARCHarXiv CS.CL·8/5/2026

One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

Esta investigación aborda la creciente amenaza de intenciones maliciosas ocultas en diálogos multiturno con grandes modelos de lenguaje (LLM), donde los atacantes distribuyen su objetivo dañino a lo largo de múltiples interacciones. Propone un mecanismo de detección temprana para identificar el turno en el que una respuesta podría habilitar una acción perjudicial, introduciendo también el Multi-Turn Intent Dataset (MTID) para entrenamiento y evaluación.

27
RESEARCHarXiv CS.LG·8/5/2026

Sparse Prefix Caching for Hybrid and Recurrent LLM Serving

Este artículo presenta el almacenamiento en caché de prefijos dispersos, una optimización para la distribución de LLM que almacena estados recurrentes en puntos de control en lugar de todo el historial de tokens. El método mejora consistentemente la frontera de Pareto en comparación con las heurísticas estándar, especialmente para casos de uso donde las solicitudes comparten un prefijo no trivial.

27
RESEARCHarXiv CS.CL·8/5/2026

When2Speak: A Dataset for Temporal Participation and Turn-Taking in Multi-Party Conversations for Large Language Models

When2Speak es un nuevo conjunto de datos sintético y una pipeline de generación de cuatro etapas diseñado para enseñar a los Grandes Modelos de Lenguaje (LLMs) el momento adecuado para intervenir en conversaciones multipartitas. Aborda el desafío de evitar interrupciones excesivas y mejorar la coherencia conversacional en interacciones grupales.

27