LLMs

722 items

RESEARCHarXiv CS.CL·hace 28d

ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

ReVision introduce un método para escalar agentes de uso de computadora al reducir la redundancia visual temporal en trayectorias de interacción. Utiliza un selector de parches aprendido para eliminar tokens visuales redundantes, reduciendo el uso de tokens en aproximadamente un 46% y mejorando la eficiencia de los modelos de lenguaje multimodales en los benchmarks.

multimodal AI LLMs efficiency computer vision

RESEARCHarXiv CS.CL·hace 27d

Domain Adaptation of Large Language Models for Polymer-Composite Additive Manufacturing Using Retrieval-Augmented Generation and Fine-Tuning

Este estudio explora estrategias para adaptar grandes modelos de lenguaje (LLMs) de propósito general a dominios de ingeniería especializados, específicamente la fabricación aditiva, para mejorar la precisión y relevancia de las respuestas. Investiga el uso de ajuste fino específico del dominio y generación aumentada por recuperación (RAG), construyendo un corpus curado para evaluación.

LLMs RAG Additive Manufacturing Domain Adaptation

RESEARCHarXiv CS.LG·hace 23d

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Este estudio investiga el impacto de la cuantificación post-entrenamiento en la calidad de los Grandes Modelos de Lenguaje (LLMs), revelando que la compresión puede llevar a la aparición de sesgos. La cuantificación de 3 bits hizo que entre el 6% y el 21% de los elementos previamente imparciales desarrollaran nuevos comportamientos estereotipados en modelos como Qwen2.5-7B, Mistral-7B y Phi-3.5-mini.

Model Compression LLMs quantization model quality

RESEARCHarXiv CS.AI·hace 28d

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

La destilación on-policy (OPD) y la autodestilación on-policy (OPSD) son métodos prometedores de post-entrenamiento para grandes modelos de lenguaje, pero su eficacia es mixta. Esta investigación estudia empíricamente cuándo y por qué funcionan o fallan, identificando sensibilidades a la elección del profesor e inconvenientes con la información privilegiada.

LLMs distillation learning machine learning

RESEARCHarXiv CS.CL·hace 28d

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Este estudio aborda la falta de diversidad en las salidas de los LLM, atribuyéndola a cómo los modelos asignan la masa de probabilidad entre continuaciones válidas e inválidas durante la decodificación. Introduce un marco de validez-diversidad que descompone el problema en dos formas complementarias de descalibración: calibración de orden y calibración de forma.

Calibration diversity LLMs decoding

RESEARCHarXiv CS.CL·hace 21d

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Este artículo introduce el Stepwise Confidence Attribution (SCA), un marco para LLMs de caja negra que diagnostica fallas en el razonamiento multi-paso asignando confianza a nivel de paso. SCA aplica el principio de Information Bottleneck, marcando las desviaciones de las estructuras de consenso como errores potenciales, y propone dos métodos complementarios: NIBS y GIBS.

LLMs information bottleneck Reasoning confidence estimation

ARTICLEDEV.to AI·21/4/2026

Hermes Agent v0.10: Local AGI Stack & Browser Guide

Hermes Agent v0.10 ha sido lanzado, destacando la implementación local de IA con integración de Ollama y capacidades mejoradas de automatización del navegador. Esta actualización es crucial para desarrolladores que buscan ejecutar agentes de IA sin costos de API y con control de navegador multiperfil.

LLMs Local AI browser automation developer tools

RESEARCHarXiv CS.AI·hace 12d

Adopt $\neq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild

El estudio analiza las trayectorias conversacionales de aproximadamente 12.000 usuarios de Microsoft Bing Copilot, comparándolas con datos de WildChat-4.8M. Revela que, a pesar de las tendencias a nivel de población, los hábitos de los usuarios individuales son abrumadoramente persistentes y cambian poco con el tiempo.

LLMs Longitudinal Study user behavior Conversational AI

RESEARCHarXiv CS.CL·hace 19d

Does Slightly Mean Somewhat? Measuring Vague Intensity Words in LLM Numeric Actions

Este estudio investiga cómo los grandes modelos de lenguaje (LLMs), específicamente Claude Haiku, interpretan palabras de intensidad vagas al producir acciones numéricas. La investigación revela que el modelo comprime 10 palabras de intensidad en 5 salidas medianas distintas y está influenciado por el estado actual del sistema.

LLMs language interpretation numeric actions NLP

RESEARCHarXiv CS.LG·hace 12d

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Este artículo investiga los orígenes mecanicistas del olvido catastrófico en Grandes Modelos de Lenguaje (LLMs), comparando el Aprendizaje por Refuerzo (RL) con el Ajuste Fino Supervisado (SFT). Revela que el RL preserva los circuitos computacionales internos de manera más efectiva, mitigando el olvido de capacidades anteriores, a diferencia del SFT que causa mayor interrupción en los circuitos.

LLMs deep learning machine learning Catastrophic Forgetting

RESEARCHarXiv CS.AI·hace 12d

VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis

VFEAgent es un sistema multiagente de extremo a extremo que automatiza el modelado y la simulación de Análisis de Elementos Finitos (FEA) a partir de imágenes y descripciones de problemas. Integra un pipeline multimodal de visión-lenguaje para especificaciones FEA estructuradas y un marco de síntesis de código con verificación para garantizar la fiabilidad.

Engineering Automation multimodal AI LLMs Finite Element Analysis

RESEARCHarXiv CS.CL·hace 7d

On the Persistent Effects of Lexicality in Large Language Mod

Este trabajo investiga el efecto persistente de la superposición léxica, en lugar del contenido semántico, en las representaciones extraídas de grandes modelos de lenguaje (LLMs) y sus implicaciones. Los autores encuentran que la influencia léxica se extiende a través de la profundidad de los modelos, arquitecturas y regímenes de entrenamiento, incluso en modelos entrenados para similitud semántica.

LLMs lexicality NLP semantic analysis

RESEARCHarXiv CS.CL·hace 7d

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Investigadores descubrieron que el rendimiento de los modelos de lenguaje puede mejorar significativamente cuando las capas más profundas aprenden vectores de valor sin contexto, conservando la información original del token. Esto elimina la necesidad de recalcular o almacenar en caché persistentemente estos valores, ya que el componente dependiente del contexto aporta poco beneficio adicional.

neural networks LLMs deep learning Attention Mechanism

ARTICLEDEV.to AI·17/4/2026

The Layers Beneath A2A: Notes From Running a Live Multi-Agent Society

El contenido explora los desafíos de ejecutar sistemas multiagente en vivo que van más allá de los protocolos de enrutamiento de mensajes (A2A) y acceso a herramientas (MCP). El autor identifica fallas en los "huecos entre mensajes" y la continuidad del contexto, destacando la deriva semántica como un desafío crítico no resuelto en diálogos multi-turno de LLMs.

LLMs AI protocols AI challenges multi-agent systems

RESEARCHarXiv CS.CL·hace 15d

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Este artículo presenta un marco causal para estudiar el sesgo de racionalización en LLMs utilizados como jueces automáticos para la evaluación de resúmenes y diálogos. Investiga si las clasificaciones y explicaciones de los LLMs permanecen estables cuando se perturban las señales no evidenciales, proponiendo intervenciones de señales y métricas de anclaje.

LLMs evaluation AI rationalization

RESEARCHarXiv CS.CL·hace 9d

Protocol for evaluating ChatGPT in biomedical association generation and verification using a RAG-enabled, cross-model majority voting workflow

Este protocolo evalúa la capacidad de ChatGPT para generar y verificar asociaciones biomédicas centradas en enfermedades, utilizando ontologías biomédicas y literatura. Incluye una estrategia de autoconsistencia y un flujo de trabajo habilitado por RAG, impulsado por LLMs de código abierto, para abordar las limitaciones de coincidencia exacta y exponer alucinaciones.

LLMs evaluation ChatGPT RAG

RESEARCHarXiv CS.LG·hace 9d

LLMs Without Deep Neural Networks: New Architecture, Benefits and Case Study

Este artículo presenta una arquitectura novedosa para LLMs que prescinde de las redes neuronales profundas. El modelo propuesto, basado en redes RBF, encuentra el óptimo global de la función de pérdida en una sola iteración, eliminando el paso de entrenamiento tedioso.

neural networks AI architecture LLMs machine learning

RESEARCHarXiv CS.AI·hace 15d

BODHI: Precise OS Kernel Specification Inference

Este artículo propone BODHI, un método de "prompting" de conocimiento de dominio para la inferencia de especificaciones del kernel del sistema operativo, con el objetivo de superar las limitaciones actuales de los LLM. Aumenta el "prompt" estándar de pocas muestras con una guía estructurada de traducción de C a Python, mejorando la automatización y la precisión de las especificaciones.

AI models LLMs operating systems Formal verification

RESEARCHarXiv CS.AI·hace 9d

MAVEN: Improving Generalization in Agentic Tool Calling

MAVEN (Modular Agentic Verification and Execution Network) es un andamio de razonamiento simbólico ligero que mejora la generalización en entornos de llamada de herramientas agenticas. Ha sido evaluado en varios benchmarks e introduce MAVEN-Bench, un nuevo benchmark de estrés para el razonamiento matemático y físico multi-paso.

LLMs Generalization tool-calling benchmarking

RESEARCHarXiv CS.CL·hace 9d

Can LLM Teams Play What? Where? When?

Esta investigación explora cómo las interacciones basadas en equipos mejoran el rendimiento de los Grandes Modelos de Lenguaje (LLMs) en tareas complejas de razonamiento, específicamente en el juego de preguntas ¿Qué? ¿Dónde? ¿Cuándo?. Demuestra que las estrategias de equipo producen ganancias significativas en la precisión, acercándose los mejores equipos al rendimiento humano.

LLMs team strategies benchmarking Reasoning