embodied AI

8 items

ARTICLE↑ trendingReddit r/MachineLearning·25/04/2026

How Visual-Language-Action (VLA) Models Work [D]

Cet article fournit une explication technique détaillée du fonctionnement des modèles Visuel-Langage-Action (VLA), décrivant comment ils traduisent les entrées visuelles et linguistiques en actions robotiques. Il explore les principales approches de décodage d'actions telles que les actions autorégressives tokenisées, les têtes d'action basées sur la diffusion et les politiques de correspondance de flux.

Machine Learning embodied AI VLA models robotics

How Visual-Language-Action (VLA) Models Work [D]

DOCDEV.to AI·24/04/2026

How To Contribute to Open Source Embodied AI

Ce contenu explore l'essor de l'IA incarnée open source, qui démocratise le développement de robots intelligents interagissant avec le monde physique. Il fournit des conseils clés pour y contribuer, notamment l'engagement avec des plateformes (ROS, Gazebo), le développement de compétences (programmation, IA/ML) et la participation active aux projets.

open-source embodied AI robotics AI development

NEWSDEV.to AI·il y a 8j

MiniMax Claims 26% BU Bench Gain, Details Scarce

La startup chinoise MiniMax a revendiqué une amélioration de 26 % sur le BU Bench, un benchmark pour la planification de tâches d'IA incarnée. Cependant, l'entreprise n'a publié aucun détail, donnée ou méthodologie, rendant l'affirmation invérifiable.

AI claims benchmarking embodied AI AI

RESEARCHarXiv CS.AI·09/05/2026

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

PRISM est un nouveau cadre qui intègre la perception (VLM) et la décision (LLM) via un pipeline dynamique de questions-réponses, permettant au LLM d'affiner activement la sortie du VLM pour une compréhension de scène axée sur la tâche. Cette approche surpasse significativement les modèles basés sur l'image existants sur des benchmarks comme ALFWorld et Room-to-Room.

VLM embodied AI AI robotics

RESEARCHarXiv CS.LG·il y a 12j

Emergent Semantic Representations in World Models through Physical Interaction without Linguistic Supervision

Cette recherche explore comment les modèles du monde apprennent des représentations sémantiques à partir de l'exploration physique sans supervision linguistique. Elle révèle que leur espace latent développe une structure sémantique spatiale qui reflète la géométrie physique, et l'alignement sémantique s'améliore avec les performances de prédiction.

Machine Learning World Models embodied AI representation learning

RESEARCHarXiv CS.AI·il y a 7j

AURA: Action-Gated Memory for Robot Policies at Constant VRAM

Cet article introduit AURA-Mem, une nouvelle architecture de mémoire récurrente pour robots conçue pour maintenir une taille de VRAM constante. Contrairement au KV-cache, AURA-Mem utilise une porte apprise qui n'écrit que lorsque l'observation actuelle modifie la prochaine action, la rendant adaptée aux agents embarqués avec un matériel limité.

robot policies VRAM embodied AI robotics

RESEARCHarXiv CS.AI·il y a 9j

Physically Viable World Models: A Case for Query-Conditioned Embodied AI

Les modèles du monde pour l'IA incarnée doivent être physiquement viables, représentant la structure physique qui gouverne les résultats des actions plutôt que de simplement prédire des observations futures. Cet article expose que les modèles prédictifs d'observation existants peuvent produire des déroulements visuellement plausibles mais physiquement erronés, et soutient que l'IA incarnée nécessite des modèles du monde qui identifient l'abstraction physique la plus simple pour répondre aux requêtes d'intervention.

World Models Physics-based AI embodied AI robotics

ARTICLEDEV.to AI·16/04/2026

Prof. Alois Knoll im Interview: Ohne Körper keine echte KI

Le professeur Alois Knoll, chercheur en robotique et IA, affirme que la véritable intelligence nécessite un corps, car les grands modèles de langage sont confinés à l'espace numérique et manquent d'expérience physique. Il souligne l'importance des robots humanoïdes pour collecter des données dans le monde réel, offrant un niveau de compréhension que l'analyse textuelle pure ne peut remplacer.

humanoid robots embodied AI AI large language models