← heapsort-ai

embodied AI

8 items

ARTICLE↑ trendingReddit r/MachineLearning·25/04/2026

How Visual-Language-Action (VLA) Models Work [D]

Cet article fournit une explication technique détaillée du fonctionnement des modèles Visuel-Langage-Action (VLA), décrivant comment ils traduisent les entrées visuelles et linguistiques en actions robotiques. Il explore les principales approches de décodage d'actions telles que les actions autorégressives tokenisées, les têtes d'action basées sur la diffusion et les politiques de correspondance de flux.

How Visual-Language-Action (VLA) Models Work [D]
42
DOCDEV.to AI·24/04/2026

How To Contribute to Open Source Embodied AI

Ce contenu explore l'essor de l'IA incarnée open source, qui démocratise le développement de robots intelligents interagissant avec le monde physique. Il fournit des conseils clés pour y contribuer, notamment l'engagement avec des plateformes (ROS, Gazebo), le développement de compétences (programmation, IA/ML) et la participation active aux projets.

29
RESEARCHarXiv CS.AI·09/05/2026

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

PRISM est un nouveau cadre qui intègre la perception (VLM) et la décision (LLM) via un pipeline dynamique de questions-réponses, permettant au LLM d'affiner activement la sortie du VLM pour une compréhension de scène axée sur la tâche. Cette approche surpasse significativement les modèles basés sur l'image existants sur des benchmarks comme ALFWorld et Room-to-Room.

27
RESEARCHarXiv CS.LG·il y a 12j

Emergent Semantic Representations in World Models through Physical Interaction without Linguistic Supervision

Cette recherche explore comment les modèles du monde apprennent des représentations sémantiques à partir de l'exploration physique sans supervision linguistique. Elle révèle que leur espace latent développe une structure sémantique spatiale qui reflète la géométrie physique, et l'alignement sémantique s'améliore avec les performances de prédiction.

27
RESEARCHarXiv CS.AI·il y a 9j

Physically Viable World Models: A Case for Query-Conditioned Embodied AI

Les modèles du monde pour l'IA incarnée doivent être physiquement viables, représentant la structure physique qui gouverne les résultats des actions plutôt que de simplement prédire des observations futures. Cet article expose que les modèles prédictifs d'observation existants peuvent produire des déroulements visuellement plausibles mais physiquement erronés, et soutient que l'IA incarnée nécessite des modèles du monde qui identifient l'abstraction physique la plus simple pour répondre aux requêtes d'intervention.

27
ARTICLEDEV.to AI·16/04/2026

Prof. Alois Knoll im Interview: Ohne Körper keine echte KI

Le professeur Alois Knoll, chercheur en robotique et IA, affirme que la véritable intelligence nécessite un corps, car les grands modèles de langage sont confinés à l'espace numérique et manquent d'expérience physique. Il souligne l'importance des robots humanoïdes pour collecter des données dans le monde réel, offrant un niveau de compréhension que l'analyse textuelle pure ne peut remplacer.

27