embodied AI

8 items

ARTICLE↑ trendingReddit r/MachineLearning·25/4/2026

How Visual-Language-Action (VLA) Models Work [D]

Este artículo ofrece un desglose técnico de cómo funcionan los modelos Visual-Lenguaje-Acción (VLA), explicando cómo transforman las entradas de visión y lenguaje en acciones robóticas. Cubre los enfoques de decodificación de acciones actuales, incluyendo acciones autorregresivas tokenizadas, cabezas de acción basadas en difusión y políticas de coincidencia de flujo.

Machine Learning embodied AI VLA models robotics

How Visual-Language-Action (VLA) Models Work [D]

DOCDEV.to AI·24/4/2026

How To Contribute to Open Source Embodied AI

Este contenido explora el auge de la IA encarnada de código abierto, que democratiza el desarrollo de robots inteligentes que interactúan con el mundo físico. Ofrece consejos clave para contribuir, incluyendo el uso de plataformas (ROS, Gazebo), el desarrollo de habilidades (programación, IA/ML) y la participación activa en proyectos.

open-source embodied AI robotics AI development

NEWSDEV.to AI·hace 8d

MiniMax Claims 26% BU Bench Gain, Details Scarce

La startup china MiniMax afirmó una mejora del 26% en el BU Bench, un benchmark para la planificación de tareas de IA encarnada. Sin embargo, la compañía no publicó detalles, datos o metodología, lo que hace que la afirmación no sea verificable.

AI claims benchmarking embodied AI AI

RESEARCHarXiv CS.AI·9/5/2026

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

PRISM es un nuevo marco que integra la percepción (VLM) y la decisión (LLM) a través de un pipeline dinámico de preguntas y respuestas, permitiendo que el LLM refine activamente la salida del VLM para una comprensión de la escena orientada a tareas. Este enfoque supera significativamente los modelos basados en imágenes existentes en benchmarks como ALFWorld y Room-to-Room.

VLM embodied AI AI robotics

RESEARCHarXiv CS.LG·hace 12d

Emergent Semantic Representations in World Models through Physical Interaction without Linguistic Supervision

Esta investigación explora cómo los modelos de mundo aprenden representaciones semánticas a partir de la exploración física sin supervisión lingüística. Se encuentra que su espacio latente desarrolla una estructura semántica espacial que refleja la geometría física, y el alineamiento semántico mejora con el rendimiento predictivo.

Machine Learning World Models embodied AI representation learning

RESEARCHarXiv CS.AI·hace 7d

AURA: Action-Gated Memory for Robot Policies at Constant VRAM

El artículo presenta AURA-Mem, una nueva arquitectura de memoria recurrente para robots que mantiene un tamaño constante de VRAM. A diferencia del KV-cache, AURA-Mem utiliza una compuerta aprendida que escribe solo cuando la observación actual cambia la próxima acción, siendo más adecuada para agentes integrados con hardware limitado.

robot policies VRAM embodied AI robotics

RESEARCHarXiv CS.AI·hace 9d

Physically Viable World Models: A Case for Query-Conditioned Embodied AI

Los modelos del mundo para la IA encarnada deben ser físicamente viables, representando la estructura física que rige los resultados de las acciones en lugar de simplemente predecir observaciones futuras. Este trabajo expone que los modelos predictivos de observación existentes pueden producir simulaciones visualmente plausibles pero físicamente incorrectas, argumentando que la IA encarnada requiere modelos del mundo que identifiquen la abstracción física más simple para responder a consultas de intervención.

World Models Physics-based AI embodied AI robotics

ARTICLEDEV.to AI·16/4/2026

Prof. Alois Knoll im Interview: Ohne Körper keine echte KI

El Prof. Alois Knoll, investigador de robótica e IA, sostiene que la verdadera inteligencia necesita un cuerpo, ya que los grandes modelos de lenguaje están atrapados en el espacio digital y carecen de experiencia física. Destaca la importancia de los robots humanoides para recopilar datos del mundo real, ofreciendo un nivel de comprensión que el análisis de texto puro no puede reemplazar.

humanoid robots embodied AI AI large language models