← heapsort-ai

Data efficiency

4 items

RESEARCH↑ trendingReddit r/MachineLearning·4/18/2026

Zero-shot World Models Are Developmentally Efficient Learners [R]

Das Zero-shot World Model (ZWM) verbessert die Dateneffizienz von KI erheblich und ermöglicht visuelle Kompetenz mit Größenordnungen weniger Daten als aktuelle Spitzenmodelle. Basierend auf der visuellen Erfahrung eines einzelnen Kindes erreicht BabyZWM bei vielfältigen visuell-kognitiven Aufgaben Leistungen vergleichbar mit Top-Modellen, ohne aufgabenbezogenes Training, und ebnet so den Weg für effizientere KI-Systeme.

Zero-shot World Models Are Developmentally Efficient Learners [R]
42
RESEARCHarXiv CS.CL·vor 21T

Retrieval-Based Multi-Label Legal Annotation: Extensible, Data-Efficient and Hallucination-Free

Der Artikel schlägt vor, die mehrfache juristische Annotation als Abrufaufgabe zu betrachten, wobei eingefrorene Modelle und k-nächste Nachbarn zur Zuweisung von Labels verwendet werden. Diese Methode erzielt eine wettbewerbsfähige Genauigkeit und eine hohe Dateneffizienz auf juristischen Datensätzen, wodurch die Rechenkosten im Vergleich zum Fine-Tuning großer Sprachmodelle erheblich gesenkt werden.

29
RESEARCHarXiv CS.LG·4/22/2026

Easy Samples Are All You Need: Self-Evolving LLMs via Data-Efficient Reinforcement Learning

Diese Forschung stellt EasyRL vor, einen neuartigen, dateneffizienten Reinforcement-Learning-Ansatz für selbstentwickelnde LLMs, der hohe Annotationskosten und Leistungsprobleme bestehender Methoden überwinden soll. Inspiriert von der kognitiven Lerntheorie, integriert EasyRL den Wissenstransfer von einfach gelabelten Daten mit einer progressiven Divide-and-Conquer-Strategie für zunehmend schwierigere ungelabelte Daten.

27
RESEARCHarXiv CS.CL·4/24/2026

Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

Diese Arbeit führt eine Token-Neugewichtungs-Verlustfunktion ein, um die Dateneffizienz beim Training von Vision-Sprachmodellen für die Erstellung medizinischer Berichte zu steigern. Durch die Priorisierung semantisch relevanter Token erzielt die Methode eine vergleichbare Berichtsqualität mit bis zu zehnmal weniger Trainingsdaten.

27