← heapsort-ai

embodied AI

8 items

ARTICLE↑ trendingReddit r/MachineLearning·25/4/2026

How Visual-Language-Action (VLA) Models Work [D]

Este artículo ofrece un desglose técnico de cómo funcionan los modelos Visual-Lenguaje-Acción (VLA), explicando cómo transforman las entradas de visión y lenguaje en acciones robóticas. Cubre los enfoques de decodificación de acciones actuales, incluyendo acciones autorregresivas tokenizadas, cabezas de acción basadas en difusión y políticas de coincidencia de flujo.

How Visual-Language-Action (VLA) Models Work [D]
42
DOCDEV.to AI·24/4/2026

How To Contribute to Open Source Embodied AI

Este contenido explora el auge de la IA encarnada de código abierto, que democratiza el desarrollo de robots inteligentes que interactúan con el mundo físico. Ofrece consejos clave para contribuir, incluyendo el uso de plataformas (ROS, Gazebo), el desarrollo de habilidades (programación, IA/ML) y la participación activa en proyectos.

29
RESEARCHarXiv CS.AI·9/5/2026

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

PRISM es un nuevo marco que integra la percepción (VLM) y la decisión (LLM) a través de un pipeline dinámico de preguntas y respuestas, permitiendo que el LLM refine activamente la salida del VLM para una comprensión de la escena orientada a tareas. Este enfoque supera significativamente los modelos basados en imágenes existentes en benchmarks como ALFWorld y Room-to-Room.

27
RESEARCHarXiv CS.LG·hace 12d

Emergent Semantic Representations in World Models through Physical Interaction without Linguistic Supervision

Esta investigación explora cómo los modelos de mundo aprenden representaciones semánticas a partir de la exploración física sin supervisión lingüística. Se encuentra que su espacio latente desarrolla una estructura semántica espacial que refleja la geometría física, y el alineamiento semántico mejora con el rendimiento predictivo.

27
RESEARCHarXiv CS.AI·hace 9d

Physically Viable World Models: A Case for Query-Conditioned Embodied AI

Los modelos del mundo para la IA encarnada deben ser físicamente viables, representando la estructura física que rige los resultados de las acciones en lugar de simplemente predecir observaciones futuras. Este trabajo expone que los modelos predictivos de observación existentes pueden producir simulaciones visualmente plausibles pero físicamente incorrectas, argumentando que la IA encarnada requiere modelos del mundo que identifiquen la abstracción física más simple para responder a consultas de intervención.

27
ARTICLEDEV.to AI·16/4/2026

Prof. Alois Knoll im Interview: Ohne Körper keine echte KI

El Prof. Alois Knoll, investigador de robótica e IA, sostiene que la verdadera inteligencia necesita un cuerpo, ya que los grandes modelos de lenguaje están atrapados en el espacio digital y carecen de experiencia física. Destaca la importancia de los robots humanoides para recopilar datos del mundo real, ofreciendo un nivel de comprensión que el análisis de texto puro no puede reemplazar.

27