← heapsort-ai

Tokenization

11 items

RESEARCH↑ trendingReddit r/MachineLearning·vor 19T

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Diese Diskussion hinterfragt, ob Produktions-Vision-Language-Modelle (VLMs) trotz effizienterer Tokenisierungsverfahren immer noch fest gepatchte Vision Transformer (ViTs) für ihre Sehfähigkeiten verwenden. Es werden mögliche Gründe dafür untersucht, wie marginale Gewinne, Pipeline-Einschränkungen oder unklare Skalierungsgesetze für adaptives Patching.

42
RESEARCHarXiv CS.LG·vor 11T

Continuity and Ordinality Matter: Constraining Time Series Tokens for Effective Time Series Analysis with Large Language Models

Dieses Papier stellt COM (Continuity and Ordinality Matter) vor, eine Strategie, die geometrische Einschränkungen in die Initialisierungs- und Trainingsphasen von tokenbasierten Zeitreihen-Sprachmodellen (TS-LLMs) integriert. Die Forschung zeigt, dass die Beibehaltung von Kontinuität und Ordinalität in den Zeitreihen-Token-Embeddings die Modellleistung und Generalisierbarkeit erheblich verbessert.

27
RESEARCHarXiv CS.AI·vor 13T

BrickAnything: Geometry-Conditioned Buildable Brick Generation with Structure-Aware Tokenization

Diese Arbeit stellt BrickAnything vor, ein geometrisch-konditioniertes autoregressives Framework zur Generierung physisch baubarer Ziegelstrukturen aus verschiedenen 3D-Formen. Es verwendet Punktwolken als einheitliche geometrische Schnittstelle und prognostiziert Ziegelsequenzen, die die Zielform unter Montageregeln rekonstruieren, wobei eine strukturbewusste Baum-Tokenisierung eingeführt wird.

27
ARTICLEDEV.to AI·4/18/2026

Opus 4.7 Uses 35% More Tokens Than 4.6. Here's What I'm Doing About It.

Der neue Tokenizer von Claude Opus 4.7 führt aufgrund höheren Token-Verbrauchs im Vergleich zu Version 4.6 zu einer effektiven Preiserhöhung von 35% für die gleiche Arbeit. Obwohl die Verbesserungen beim Schlussfolgern bei komplexen Aufgaben real sind, plant der Autor, 4.7 selektiv einzusetzen und bei Aufgaben, bei denen Token-Effizienz entscheidend ist, bei 4.6 zu bleiben.

27