← heapsort-ai

Model Architecture

13 items

ARTICLE↑ trendingReddit r/MachineLearning·4/26/2026

Can Geometric Deep Learning lead eliminate the need of "Brute Force" pre-training [D]

Der Autor fragt sich, ob Geometrisches Deep Learning, indem es Symmetrien und Invarianzen direkt in die Architektur integriert, den Bedarf an extensivem „Brute-Force“-Vortraining mit riesigen Datensätzen reduzieren oder eliminieren könnte. Dies wirft die Frage auf, ob das derzeitige massive Vortraining hauptsächlich auf Architekturmängel ohne inhärente Invarianz zurückzuführen ist.

42
RESEARCHarXiv CS.LG·4/23/2026

Expert Upcycling: Shifting the Compute-Efficient Frontier of Mixture-of-Experts

„Expert Upcycling“ schlägt eine Methode zur schrittweisen Erweiterung der Mixture-of-Experts (MoE)-Kapazität in großen Sprachmodellen während des kontinuierlichen Vortrainings vor. Sie erhöht die Anzahl der Experten durch Duplizierung und Router-Erweiterung für eine warme Initialisierung, um Trainingskosten zu senken und die Inferenzkosten pro Token beizubehalten.

28
RESEARCHarXiv CS.CL·5/1/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Dieses Papier stellt das Length Value Model (LenVM) vor, ein neuartiges Token-Level-Framework zur Modellierung der verbleibenden Generierungslänge in autoregressiven Modellen. Durch die Formulierung der Längenmodellierung als Wertschätzungsproblem liefert LenVM ein annotationsfreies, skalierbares und effektives Signal für LLMs und VLMs, das die Leistung bei Aufgaben mit exakter Längenübereinstimmung verbessert.

27
RESEARCHarXiv CS.CL·vor 27T

The Bicameral Model: Bidirectional Hidden-State Coupling Between Parallel Language Models

Das bikamerale Modell koppelt zwei eingefrorene, vortrainierte Sprachmodelle über eine trainierbare neuronale Schnittstelle in ihren Zwischen-Hidden-States, wodurch sie synchron arbeiten können. Diese Methode ermöglicht es einem primären Modell, eine Aufgabe zu steuern, während ein Hilfsmodell Tools verwendet oder Einschränkungen löst, was die Genauigkeit bei Aufgaben wie Arithmetik und Logikrätseln erheblich verbessert.

27