← heapsort-ai

embodied AI

8 items

ARTICLE↑ trendingReddit r/MachineLearning·4/25/2026

How Visual-Language-Action (VLA) Models Work [D]

Dieser Artikel bietet eine technische Analyse, wie Visual-Language-Action (VLA)-Modelle funktionieren und Vision-/Spracheingaben in Roboteraktionen umsetzen. Er behandelt die wichtigsten derzeit verwendeten Aktionsdekodierungsansätze wie tokenisierte autoregressive Aktionen, diffusionsbasierte Aktionsköpfe und Flow-Matching-Richtlinien.

How Visual-Language-Action (VLA) Models Work [D]
42
DOCDEV.to AI·4/24/2026

How To Contribute to Open Source Embodied AI

Dieser Inhalt untersucht den Aufstieg der Open-Source-Verkörperten KI, die die Entwicklung intelligenter Roboter, die mit der physischen Welt interagieren, demokratisiert. Er bietet wichtige Hinweise zur Beteiligung, einschließlich der Nutzung von Plattformen (ROS, Gazebo), der Entwicklung von Fähigkeiten (Programmierung, KI/ML) und der aktiven Teilnahme an Projekten.

29
RESEARCHarXiv CS.AI·5/9/2026

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

PRISM ist ein neues Framework, das Wahrnehmung (VLM) und Entscheidung (LLM) durch eine dynamische Frage-Antwort-Pipeline integriert, wodurch das LLM die Ausgabe des VLM aktiv für ein aufgabenorientiertes Szenenverständnis verfeinern kann. Dieser Ansatz übertrifft bestehende bildbasierte Modelle auf Benchmarks wie ALFWorld und Room-to-Room erheblich.

27
RESEARCHarXiv CS.LG·vor 11T

Emergent Semantic Representations in World Models through Physical Interaction without Linguistic Supervision

Diese Forschung untersucht, wie Weltmodelle semantische Repräsentationen durch physische Erkundung ohne linguistische Supervision lernen. Es wird festgestellt, dass ihr latenter Raum eine räumliche semantische Struktur entwickelt, die die physische Geometrie widerspiegelt, wobei die semantische Ausrichtung mit der Vorhersageleistung mitverbessert wird.

27
RESEARCHarXiv CS.AI·vor 8T

Physically Viable World Models: A Case for Query-Conditioned Embodied AI

Weltmodelle für verkörperte KI müssen physikalisch umsetzbar sein und die physikalische Struktur darstellen, die Aktionsergebnisse steuert, anstatt nur zukünftige Beobachtungen vorherzusagen. Diese Arbeit zeigt auf, dass bestehende beobachtungsvorhersagende Weltmodelle visuell plausible, aber physikalisch falsche Abläufe erzeugen können, und argumentiert, dass verkörperte KI Weltmodelle benötigt, die die einfachste physikalische Abstraktion identifizieren, um Interventionsanfragen zu beantworten.

27