← heapsort-ai

hardware

55 items

ARTICLEDEV.to AI·vor 19T

Designing with Nvidia's Ising Quantum AI: A Calibration Playbook for ML Engineers

Nvidias Ising-Quanten-KI-Modelle sind kombinatorische Optimierer, die hochdimensionale Hardwarezustände in energiearme Konfigurationen abbilden, um optimale Betriebspunkte zu gewährleisten. Die Bereitstellung dieser Technologie als Dienst erfordert eine sorgfältige Kalibrierung, um eine zuverlässige Konvergenz sicherzustellen und zu verhindern, dass sie von Bedienern umgangen wird.

31
ARTICLEDEV.to AI·4/23/2026

Agentic AI Needs Different Silicon

Der Inhalt beleuchtet, dass Googles neue TPU 8T und 8I Chips speziell für agentische KI entwickelt wurden, die in zustandsbehafteten, mehrstufigen Schleifen arbeitet, anders als die traditionelle zustandslose LLM-Inferenz. Dies stellt eine grundlegende Verschiebung in der Hardware-Architektur dar, bei der der KV-Cache als persistenter Speicher für Agenten entscheidend wird, die über die Zeit hinweg denken und handeln.

28
ARTICLEDEV.to AI·4/17/2026

I Run 14 AI Agents 24/7 on a 16GB MacBook — Here's What Broke First

Der Autor betreibt 14 KI-Agenten rund um die Uhr auf einem 16GB MacBook, was die gängige Meinung infrage stellt, dass leistungsstarke Hardware für ernsthafte KI-Anwendungen unerlässlich ist. Diese Agenten, die ein echtes Geschäft orchestrieren, werden in Wellen verwaltet, wobei nur 1-3 gleichzeitig ausgeführt werden, um einen persistenten Zustand aufrechtzuerhalten.

28
ARTICLEDEV.to AI·4/16/2026

Inside NVIDIA’s $2B Marvell Deal: What NVLink Fusion Means for AI Ethernet Fabrics

NVIDIAs 2-Milliarden-Dollar-Deal mit Marvell, der sich auf NVLink Fusion konzentriert, ist ein strategischer Schritt zur Fabric-Kontrolle für KI-Ethernet-Fabrics, weit mehr als nur ein Chip-Geschäft. Dies signalisiert, dass optische Verbindungen und Rack-Scale-Integration zum neuen Schlachtfeld der KI-Infrastruktur werden und die Designansätze von Netzwerk-Teams grundlegend verändern.

27
ARTICLEDEV.to AI·vor 15T

Most people starting with local LLMs jump straight to 4-bit quantization because it's fast and uses

Dieser Artikel vergleicht die 16-, 8- und 4-Bit-Quantisierung von LLMs und zeigt, dass 4-Bit, obwohl schneller, die Qualität bei Denk- und mathematischen Aufgaben erheblich beeinträchtigt. Der eigentliche Kompromiss liegt zwischen der Aufgabe und der erforderlichen Präzision, wobei 8-Bit optimal für präzise Aufgaben ist und minimalen Qualitätsverlust bei geringfügiger Geschwindigkeitseinbuße bietet. Die Wahl der Quantisierung sollte auf der Aufgabe und Hardware-Überlegungen basieren, nicht nur auf der Hardware.

27
ARTICLEDEV.to AI·vor 24T

Built an open-source picker that recommends the right self-hosted LLM for your hardware

Ein Open-Source-Picker wurde entwickelt, der selbst gehostete große Sprachmodelle (LLMs) basierend auf der spezifischen Hardware des Benutzers, einschließlich Plattform und verfügbarem VRAM, empfiehlt. Das Projekt bietet außerdem ein kuratiertes Modellverzeichnis, Installationsanleitungen für Ollama, llama.cpp und LM Studio sowie ein Glossar für Neulinge.

27
ARTICLEDEV.to AI·vor 9T

Best Local AI Models for Apple Silicon in 2026

Der Artikel behandelt die bedeutende Veränderung beim lokalen Ausführen von KI-Modellen auf Apple Silicon Macs, was zuvor dedizierte NVIDIA GPUs erforderte. Dieser Wandel wird durch die vereinheitlichte Speicherarchitektur von Apple Silicon ermöglicht, die den RAM effizient über Komponenten hinweg nutzt.

27
DOCDEV.to AI·vor 16T

로컬 LLM 셋업 가이드 (v12)

Dies ist ein praktischer Leitfaden für die Bereitstellung lokaler LLMs, der Hardware-, Betriebssystem- und Installationsvoraussetzungen detailliert beschreibt. Er vergleicht Frameworks wie llama.cpp, Ollama und vLLM für unterschiedliche Entwicklungs- und Leistungsanforderungen.

27
ARTICLEDEV.to AI·vor 29T

When I started running models locally, I thought quantization meant squeezing more into RAM. Turns o

Der Artikel rät von der Standardverwendung von Q4_K_M für die lokale LLM-Inferenz ab und betont, dass optimale Leistung durch das Testen von Quantisierungsstufen erzielt wird, die auf spezifische Workflows zugeschnitten sind. Er schlägt vor, dass aggressive Quantisierung wie Q3_K_S die Latenz erheblich reduzieren kann, mit kaum wahrnehmbarem Qualitätsverlust für viele Aufgaben, obwohl die Kontextlänge einen Kompromiss darstellt.

27
NEWSThe Verge AI·vor 7T

Microsoft Build 2026: All the news about Windows, AI, RTX Spark, and more

Die jährliche Entwicklerkonferenz Microsoft Build 2026 steht kurz bevor, mit erwarteten Ankündigungen zu neuen KI-Modellen, einer Copilot "Super-App" und großen Änderungen an Windows 11. Die Veranstaltung wird voraussichtlich auch neue Hardware wie den Surface Laptop Ultra mit Nvidia RTX Spark und Project Solara, Microsofts KI-Agenten-Betriebssystem, vorstellen.

27