embodied AI

8 items

ARTICLE↑ trendingReddit r/MachineLearning·4/25/2026

How Visual-Language-Action (VLA) Models Work [D]

Dieser Artikel bietet eine technische Analyse, wie Visual-Language-Action (VLA)-Modelle funktionieren und Vision-/Spracheingaben in Roboteraktionen umsetzen. Er behandelt die wichtigsten derzeit verwendeten Aktionsdekodierungsansätze wie tokenisierte autoregressive Aktionen, diffusionsbasierte Aktionsköpfe und Flow-Matching-Richtlinien.

machine learning embodied AI VLA models robotics

How Visual-Language-Action (VLA) Models Work [D]

DOCDEV.to AI·4/24/2026

How To Contribute to Open Source Embodied AI

Dieser Inhalt untersucht den Aufstieg der Open-Source-Verkörperten KI, die die Entwicklung intelligenter Roboter, die mit der physischen Welt interagieren, demokratisiert. Er bietet wichtige Hinweise zur Beteiligung, einschließlich der Nutzung von Plattformen (ROS, Gazebo), der Entwicklung von Fähigkeiten (Programmierung, KI/ML) und der aktiven Teilnahme an Projekten.

Open Source embodied AI robotics AI development

NEWSDEV.to AI·vor 8T

MiniMax Claims 26% BU Bench Gain, Details Scarce

Das chinesische Startup MiniMax behauptete eine 26%ige Verbesserung auf dem BU Bench, einem Benchmark für die Planung von Aufgaben in verkörperter KI. Das Unternehmen veröffentlichte jedoch keine Details, Daten oder Methodik, wodurch die Behauptung unüberprüfbar bleibt.

AI claims Benchmarking embodied AI AI

RESEARCHarXiv CS.AI·5/9/2026

PRISM: Perception Reasoning Interleaved for Sequential Decision Making

PRISM ist ein neues Framework, das Wahrnehmung (VLM) und Entscheidung (LLM) durch eine dynamische Frage-Antwort-Pipeline integriert, wodurch das LLM die Ausgabe des VLM aktiv für ein aufgabenorientiertes Szenenverständnis verfeinern kann. Dieser Ansatz übertrifft bestehende bildbasierte Modelle auf Benchmarks wie ALFWorld und Room-to-Room erheblich.

VLM embodied AI AI robotics

RESEARCHarXiv CS.LG·vor 11T

Emergent Semantic Representations in World Models through Physical Interaction without Linguistic Supervision

Diese Forschung untersucht, wie Weltmodelle semantische Repräsentationen durch physische Erkundung ohne linguistische Supervision lernen. Es wird festgestellt, dass ihr latenter Raum eine räumliche semantische Struktur entwickelt, die die physische Geometrie widerspiegelt, wobei die semantische Ausrichtung mit der Vorhersageleistung mitverbessert wird.

machine learning World Models embodied AI representation learning

RESEARCHarXiv CS.AI·vor 6T

AURA: Action-Gated Memory for Robot Policies at Constant VRAM

Dieses Papier stellt AURA-Mem vor, eine neuartige rekursive Speicherarchitektur für Roboter, die eine konstante VRAM-Größe beibehält. Im Gegensatz zum KV-Cache verwendet AURA-Mem ein gelerntes Gate, das nur schreibt, wenn die aktuelle Beobachtung die nächste Aktion ändert, was es für eingebettete Agenten mit begrenzter Hardware geeignet macht.

robot policies VRAM embodied AI robotics

RESEARCHarXiv CS.AI·vor 8T

Physically Viable World Models: A Case for Query-Conditioned Embodied AI

Weltmodelle für verkörperte KI müssen physikalisch umsetzbar sein und die physikalische Struktur darstellen, die Aktionsergebnisse steuert, anstatt nur zukünftige Beobachtungen vorherzusagen. Diese Arbeit zeigt auf, dass bestehende beobachtungsvorhersagende Weltmodelle visuell plausible, aber physikalisch falsche Abläufe erzeugen können, und argumentiert, dass verkörperte KI Weltmodelle benötigt, die die einfachste physikalische Abstraktion identifizieren, um Interventionsanfragen zu beantworten.

World Models Physics-based AI embodied AI robotics

ARTICLEDEV.to AI·4/16/2026

Prof. Alois Knoll im Interview: Ohne Körper keine echte KI

Prof. Alois Knoll, ein Robotik- und KI-Forscher, argumentiert, dass wahre Intelligenz einen Körper erfordert, da große Sprachmodelle auf den digitalen Raum beschränkt sind und physische Erfahrung missen. Er betont die Notwendigkeit humanoider Roboter, um reale Daten zu sammeln und ein Verständnis zu liefern, das reine Textanalyse nicht ersetzen kann.

humanoid robots embodied AI AI large language models