← heapsort-ai

LLMs

722 items

RESEARCHarXiv CS.CL·hace 28d

ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

ReVision introduce un método para escalar agentes de uso de computadora al reducir la redundancia visual temporal en trayectorias de interacción. Utiliza un selector de parches aprendido para eliminar tokens visuales redundantes, reduciendo el uso de tokens en aproximadamente un 46% y mejorando la eficiencia de los modelos de lenguaje multimodales en los benchmarks.

27
RESEARCHarXiv CS.CL·hace 27d

Domain Adaptation of Large Language Models for Polymer-Composite Additive Manufacturing Using Retrieval-Augmented Generation and Fine-Tuning

Este estudio explora estrategias para adaptar grandes modelos de lenguaje (LLMs) de propósito general a dominios de ingeniería especializados, específicamente la fabricación aditiva, para mejorar la precisión y relevancia de las respuestas. Investiga el uso de ajuste fino específico del dominio y generación aumentada por recuperación (RAG), construyendo un corpus curado para evaluación.

27
RESEARCHarXiv CS.LG·hace 23d

Quantization Undoes Alignment: Bias Emergence in Compressed LLMs Across Models and Precision Levels

Este estudio investiga el impacto de la cuantificación post-entrenamiento en la calidad de los Grandes Modelos de Lenguaje (LLMs), revelando que la compresión puede llevar a la aparición de sesgos. La cuantificación de 3 bits hizo que entre el 6% y el 21% de los elementos previamente imparciales desarrollaran nuevos comportamientos estereotipados en modelos como Qwen2.5-7B, Mistral-7B y Phi-3.5-mini.

27
RESEARCHarXiv CS.AI·hace 28d

The Many Faces of On-Policy Distillation: Pitfalls, Mechanisms, and Fixes

La destilación on-policy (OPD) y la autodestilación on-policy (OPSD) son métodos prometedores de post-entrenamiento para grandes modelos de lenguaje, pero su eficacia es mixta. Esta investigación estudia empíricamente cuándo y por qué funcionan o fallan, identificando sensibilidades a la elección del profesor e inconvenientes con la información privilegiada.

27
RESEARCHarXiv CS.CL·hace 28d

Sampling More, Getting Less: Calibration is the Diversity Bottleneck in LLMs

Este estudio aborda la falta de diversidad en las salidas de los LLM, atribuyéndola a cómo los modelos asignan la masa de probabilidad entre continuaciones válidas e inválidas durante la decodificación. Introduce un marco de validez-diversidad que descompone el problema en dos formas complementarias de descalibración: calibración de orden y calibración de forma.

27
RESEARCHarXiv CS.CL·hace 21d

Diagnosing Multi-step Reasoning Failures in Black-box LLMs via Stepwise Confidence Attribution

Este artículo introduce el Stepwise Confidence Attribution (SCA), un marco para LLMs de caja negra que diagnostica fallas en el razonamiento multi-paso asignando confianza a nivel de paso. SCA aplica el principio de Information Bottleneck, marcando las desviaciones de las estructuras de consenso como errores potenciales, y propone dos métodos complementarios: NIBS y GIBS.

27
RESEARCHarXiv CS.LG·hace 12d

Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?

Este artículo investiga los orígenes mecanicistas del olvido catastrófico en Grandes Modelos de Lenguaje (LLMs), comparando el Aprendizaje por Refuerzo (RL) con el Ajuste Fino Supervisado (SFT). Revela que el RL preserva los circuitos computacionales internos de manera más efectiva, mitigando el olvido de capacidades anteriores, a diferencia del SFT que causa mayor interrupción en los circuitos.

27
RESEARCHarXiv CS.AI·hace 12d

VFEAgent: A Multimodal Agent Framework for End-to-End Automated Finite Element Analysis

VFEAgent es un sistema multiagente de extremo a extremo que automatiza el modelado y la simulación de Análisis de Elementos Finitos (FEA) a partir de imágenes y descripciones de problemas. Integra un pipeline multimodal de visión-lenguaje para especificaciones FEA estructuradas y un marco de síntesis de código con verificación para garantizar la fiabilidad.

27
RESEARCHarXiv CS.CL·hace 7d

On the Persistent Effects of Lexicality in Large Language Mod

Este trabajo investiga el efecto persistente de la superposición léxica, en lugar del contenido semántico, en las representaciones extraídas de grandes modelos de lenguaje (LLMs) y sus implicaciones. Los autores encuentran que la influencia léxica se extiende a través de la profundidad de los modelos, arquitecturas y regímenes de entrenamiento, incluso en modelos entrenados para similitud semántica.

27
RESEARCHarXiv CS.CL·hace 7d

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Investigadores descubrieron que el rendimiento de los modelos de lenguaje puede mejorar significativamente cuando las capas más profundas aprenden vectores de valor sin contexto, conservando la información original del token. Esto elimina la necesidad de recalcular o almacenar en caché persistentemente estos valores, ya que el componente dependiente del contexto aporta poco beneficio adicional.

27
ARTICLEDEV.to AI·17/4/2026

The Layers Beneath A2A: Notes From Running a Live Multi-Agent Society

El contenido explora los desafíos de ejecutar sistemas multiagente en vivo que van más allá de los protocolos de enrutamiento de mensajes (A2A) y acceso a herramientas (MCP). El autor identifica fallas en los "huecos entre mensajes" y la continuidad del contexto, destacando la deriva semántica como un desafío crítico no resuelto en diálogos multi-turno de LLMs.

27
RESEARCHarXiv CS.CL·hace 15d

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Este artículo presenta un marco causal para estudiar el sesgo de racionalización en LLMs utilizados como jueces automáticos para la evaluación de resúmenes y diálogos. Investiga si las clasificaciones y explicaciones de los LLMs permanecen estables cuando se perturban las señales no evidenciales, proponiendo intervenciones de señales y métricas de anclaje.

27
RESEARCHarXiv CS.CL·hace 9d

Protocol for evaluating ChatGPT in biomedical association generation and verification using a RAG-enabled, cross-model majority voting workflow

Este protocolo evalúa la capacidad de ChatGPT para generar y verificar asociaciones biomédicas centradas en enfermedades, utilizando ontologías biomédicas y literatura. Incluye una estrategia de autoconsistencia y un flujo de trabajo habilitado por RAG, impulsado por LLMs de código abierto, para abordar las limitaciones de coincidencia exacta y exponer alucinaciones.

27
RESEARCHarXiv CS.AI·hace 15d

BODHI: Precise OS Kernel Specification Inference

Este artículo propone BODHI, un método de "prompting" de conocimiento de dominio para la inferencia de especificaciones del kernel del sistema operativo, con el objetivo de superar las limitaciones actuales de los LLM. Aumenta el "prompt" estándar de pocas muestras con una guía estructurada de traducción de C a Python, mejorando la automatización y la precisión de las especificaciones.

27
RESEARCHarXiv CS.CL·hace 9d

Can LLM Teams Play What? Where? When?

Esta investigación explora cómo las interacciones basadas en equipos mejoran el rendimiento de los Grandes Modelos de Lenguaje (LLMs) en tareas complejas de razonamiento, específicamente en el juego de preguntas ¿Qué? ¿Dónde? ¿Cuándo?. Demuestra que las estrategias de equipo producen ganancias significativas en la precisión, acercándose los mejores equipos al rendimiento humano.

27