Tokenization

11 items

ARTICLE↑ trendingHacker News (AI)·vor 17Std

Ask HN: What works for cutting AI token costs?

Der Benutzer hat hohe Kosten für LLM-Tokens und sucht nach praktischen, realen Strategien, um diese Ausgaben zu senken, über den Wechsel zu günstigeren Modellen hinaus. Er bittet um Ratschläge von Personen, die in ihren KI-Anwendungen erfolgreich Kostensenkungsmaßnahmen umgesetzt haben.

Cost Optimization AI Tokenization Real Applications

RESEARCH↑ trendingReddit r/MachineLearning·vor 19T

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Diese Diskussion hinterfragt, ob Produktions-Vision-Language-Modelle (VLMs) trotz effizienterer Tokenisierungsverfahren immer noch fest gepatchte Vision Transformer (ViTs) für ihre Sehfähigkeiten verwenden. Es werden mögliche Gründe dafür untersucht, wie marginale Gewinne, Pipeline-Einschränkungen oder unklare Skalierungsgesetze für adaptives Patching.

VLMs deep learning Vision Transformers Tokenization

ARTICLEDEV.to AI·4/18/2026

Tokenizer de Claude 4.7: 1.47x más tokens medidos vs Claude 4.6

Der Tokenizer von Claude 4.7 verbraucht in empirischen Messungen 1,47-mal mehr Tokens als der von 4.6, was die offiziellen Schätzungen von Anthropic übertrifft. Dies verteuert Prompts in der Praxis, obwohl der Preis pro Token gleich bleibt, und wirft Fragen zum Wertetausch auf.

Tokenization Cost analysis LLM

RESEARCHarXiv CS.LG·vor 11T

Continuity and Ordinality Matter: Constraining Time Series Tokens for Effective Time Series Analysis with Large Language Models

Dieses Papier stellt COM (Continuity and Ordinality Matter) vor, eine Strategie, die geometrische Einschränkungen in die Initialisierungs- und Trainingsphasen von tokenbasierten Zeitreihen-Sprachmodellen (TS-LLMs) integriert. Die Forschung zeigt, dass die Beibehaltung von Kontinuität und Ordinalität in den Zeitreihen-Token-Embeddings die Modellleistung und Generalisierbarkeit erheblich verbessert.

machine learning Tokenization large language models Time Series Analysis

RESEARCHarXiv CS.AI·vor 13T

BrickAnything: Geometry-Conditioned Buildable Brick Generation with Structure-Aware Tokenization

Diese Arbeit stellt BrickAnything vor, ein geometrisch-konditioniertes autoregressives Framework zur Generierung physisch baubarer Ziegelstrukturen aus verschiedenen 3D-Formen. Es verwendet Punktwolken als einheitliche geometrische Schnittstelle und prognostiziert Ziegelsequenzen, die die Zielform unter Montageregeln rekonstruieren, wobei eine strukturbewusste Baum-Tokenisierung eingeführt wird.

brick generation 3D reconstruction geometry-conditioned AI

DOCDEV.to AI·vor 14T

How LLMs Actually Work — From Tokens to Text (with Python)

Dieser Inhalt erklärt den grundlegenden Mechanismus von großen Sprachmodellen (LLMs) wie ChatGPT und detailliert, wie sie das nächste Token vorhersagen, um Text zu generieren. Er beschreibt die Pipeline von der Tokenisierung und Vektorrepräsentation über Aufmerksamkeitsmechanismen bis hin zum iterativen Prozess der Textgenerierung.

learning text generation Python Tokenization

ARTICLEDEV.to AI·4/18/2026

Opus 4.7 Uses 35% More Tokens Than 4.6. Here's What I'm Doing About It.

Der neue Tokenizer von Claude Opus 4.7 führt aufgrund höheren Token-Verbrauchs im Vergleich zu Version 4.6 zu einer effektiven Preiserhöhung von 35% für die gleiche Arbeit. Obwohl die Verbesserungen beim Schlussfolgern bei komplexen Aufgaben real sind, plant der Autor, 4.7 selektiv einzusetzen und bei Aufgaben, bei denen Token-Effizienz entscheidend ist, bei 4.6 zu bleiben.

AI cost Claude Tokenization LLM

ARTICLEDEV.to AI·4/21/2026

Opus 4.7's Tokenizer Change: How to Measure Your Real Claude Code Costs

Der aktualisierte Tokenizer von Claude Opus 4.7 kann die Kosten für denselben Input um 40 % oder mehr erhöhen, insbesondere für System-Prompts und hochauflösende Bilder, da mehr Token verbraucht werden. Es ist entscheidend, vor einem Upgrade einen Token-Zähler zu verwenden, um die tatsächlichen Kosten zu messen.

AI models Anthropic Cost Optimization Tokenization

DOCfast.ai Blog·10/15/2025

Let’s Build the GPT Tokenizer: A Complete Guide to Tokenization in LLMs

Dieser Inhalt wandelt Andrej Karpathys Video zur GPT-Tokenisierung in ein detailliertes Buchkapitel um. Er enthält eingebetteten Code und Bilder und dient als umfassende Anleitung zum Verständnis eines Schlüsselelements der Funktionsweise von LLMs.

LLMs GPT learning NLP

Let’s Build the GPT Tokenizer: A Complete Guide to Tokenization in LLMs

ARTICLEDEV.to AI·4/20/2026

How do large organizations benefit from tokenizing physical assets?

Große Unternehmen profitieren von der Tokenisierung physischer Vermögenswerte, indem sie illiquide Bestände in digitale, handelbare Einheiten auf einer Blockchain umwandeln. Dies verbessert Liquidität, Transparenz und betriebliche Effizienz im Asset Management erheblich.

Blockchain Finance digital assets asset management

ARTICLEDEV.to AI·4/10/2026

U.S. Blockchain Development Accelerates With Asset Tokenization and Layer 2 Growth

O desenvolvimento de blockchain nos EUA evoluiu de experimentação para infraestrutura real em 2026, impulsionado pela tokenização de ativos e soluções Layer 2. Isso tornou a tecnologia mais prática, escalável e econômica para empresas em setores como finanças e logística.

Blockchain enterprise blockchain Tokenization Layer 2