← heapsort-ai

efficiency

106 items

DOCHugging Face (YouTube)·vor 10Std

Build Small with OpenBMB

Der Titel "Build Small with OpenBMB" deutet auf Inhalte hin, die sich mit der Entwicklung kompakter oder effizienter KI-Modelle unter Verwendung des OpenBMB-Frameworks befassen. Es werden wahrscheinlich Methoden oder Werkzeuge zur Erstellung kleinerer, handhabbarer KI-Lösungen diskutiert.

Build Small with OpenBMB
59
RESEARCH↑ trendingReddit r/LocalLLaMA·5/7/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant ist eine neuartige Technik, die die paarweise Rotationsquantisierung einsetzt, um die Effizienz der Inferenz von Großen Sprachmodellen (LLM) erheblich zu verbessern. Diese Methode zielt speziell auf Reasoning-LLMs ab und ermöglicht einen kostengünstigeren und schnelleren Einsatz durch Reduzierung der Rechen- und Speicheranforderungen.

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
42
RESEARCH↑ trendingReddit r/MachineLearning·5/6/2026

Transformers with Selective Access to Early Representations [R]

Das Paper stellt SATFormer vor, eine neue Transformer-Variante, die die Effizienz verbessert, indem sie den "Heads" ermöglicht, frühzeitige Repräsentationen selektiv erneut abzurufen, anstatt sie uniform zu kopieren. Dieser kontextabhängige Gating-Mechanismus optimiert die Wiederverwendung von Informationen und bietet ein besseres Effizienz-Leistungs-Verhältnis.

Transformers with Selective Access to Early Representations [R]
42
RESEARCHarXiv CS.AI·4/17/2026

Mistake gating leads to energy and memory efficient continual learning

Diese Arbeit schlägt „memorized mistake-gated learning“ vor, eine biologisch plausible Plastizitätsregel, bei der synaptische Aktualisierungen streng durch aktuelle und vergangene Klassifikationsfehler gesteuert werden. Diese Methode reduziert Netzwerkaktualisierungen um 50–80 %, wodurch die Energie- und Speichereffizienz in kontinuierlichen und Online-Lernszenarien erheblich verbessert wird.

35
RESEARCHarXiv CS.LG·4/20/2026

Aletheia: Gradient-Guided Layer Selection for Efficient LoRA Fine-Tuning Across Architectures

Aletheia führt eine gradientengesteuerte Schichtauswahlmethode für das LoRA-Feintuning ein, die aufgabenrelevante Schichten identifiziert und Adapter asymmetrisch zuweist. Diese Methode erreicht eine Trainingsbeschleunigung von 15-28% über verschiedene große Sprachmodelle und Architekturen hinweg, bei weitgehend gleichbleibender Downstream-Leistung.

32
RESEARCHarXiv CS.CL·vor 6T

Adaptive Latent Agentic Reasoning

Diese Forschung stellt das Adaptive Latent Agentic Reasoning (ALAR) vor, ein Dual-Modus-Framework zur Steigerung der Effizienz von LLM-Agenten. ALAR nutzt kompaktes latentes Denken für Routineaufgaben und skaliert bei Bedarf einer tieferen Überlegung auf explizites Chain-of-Thought, wodurch vergleichbare oder bessere Aufgabenpräzision bei erheblichen Effizienzsteigerungen erzielt werden.

29
RESEARCHarXiv CS.AI·vor 4T

What Should Agents Say? Action-state Communication for Efficient Multi-Agent Systems

Dieser Artikel analysiert Inter-Agenten-Kommunikationsstrategien in Multi-Agenten-Systemen, die auf großen Sprachmodellen basieren, und stellt fest, dass unbegrenzte natürliche Sprache den Token-Verbrauch erhöhen und die Leistung beeinträchtigen kann. Es wird PACT (Protocolized Action-state Communication and Transmission) vorgeschlagen, eine Methode zur Optimierung der Kommunikation durch die Projektion von Agentenausgaben in kompakte Aktionszustandsdatensätze.

28
RESEARCHarXiv CS.CL·5/4/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Diese Forschung untersucht effiziente Methoden zur Bewertung großer Audiomodelle (LAMs) mithilfe minimaler Daten-Teilmengen, die eine hohe Korrelation mit vollständigen Benchmarks erreichen. Sie zeigt auch, dass Regressionsmodelle, die auf diesen Teilmengen trainiert wurden, menschliche Präferenzen für die Benutzerzufriedenheit besser vorhersagen können als vollständige Benchmarks.

28
RESEARCHarXiv CS.LG·4/23/2026

WorkflowGen:an adaptive workflow generation mechanism driven by trajectory experience

WorkflowGen begegnet dem hohen Overhead und der Instabilität von LLM-Agenten bei komplexen Aufgaben durch die Vorstellung eines adaptiven, erfahrungsbasierten Rahmens zur Workflow-Generierung. Es erfasst vollständige Ausführungstrajektorien, um wiederverwendbares Wissen zu extrahieren, und führt eine leichte Generierung an variablen Knoten durch, was den Token-Verbrauch erheblich reduziert und die Effizienz verbessert.

28
DOCDEV.to AI·5/9/2026

Automating Film Festival Feedback with AI

Dieser Inhalt beschreibt eine Methode für Filmfestivals, 90% ihres Feedback-Prozesses mithilfe von KI zu automatisieren, wobei 10% für menschliche Kuration reserviert bleiben, um eine persönliche Kommunikation zu gewährleisten. Er skizziert Schritte zur Datenstrukturierung und zur Nutzung von KI-Assistenten, um Rubrik-Bewertungen in konstruktives, nicht-robotisches narratives Feedback für Filmemacher umzuwandeln.

28