Tokenization

11 items

ARTICLE↑ trendingHacker News (AI)·hace 17h

Ask HN: What works for cutting AI token costs?

El usuario tiene altos costos de tokens de LLM y busca estrategias prácticas y reales para reducirlos, más allá de cambiar a modelos más baratos. Pide consejos a quienes han implementado con éxito medidas de ahorro en sus aplicaciones de IA.

Cost Optimization AI Tokenization Real Applications

RESEARCH↑ trendingReddit r/MachineLearning·hace 19d

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Esta discusión cuestiona si los Modelos de Lenguaje Visual (VLMs) en producción aún utilizan ViTs de parche fijo para sus capacidades de visión, a pesar de la existencia de métodos de tokenización más eficientes. Explora posibles razones para esto, como ganancias marginales, limitaciones de tubería o leyes de escala no claras para el "patching" adaptativo.

VLMs deep learning Vision Transformers Tokenization

ARTICLEDEV.to AI·18/4/2026

Tokenizer de Claude 4.7: 1.47x más tokens medidos vs Claude 4.6

El tokenizer de Claude 4.7 consume 1.47 veces más tokens en mediciones empíricas que el 4.6, superando la estimación oficial de Anthropic. Esto implica que los prompts cuestan más en la práctica, aunque el precio por token se mantiene idéntico, levantando la cuestión del valor del intercambio.

Tokenization Cost analysis LLM

RESEARCHarXiv CS.LG·hace 11d

Continuity and Ordinality Matter: Constraining Time Series Tokens for Effective Time Series Analysis with Large Language Models

Este artículo presenta COM (Continuity and Ordinality Matter), una estrategia que integra restricciones geométricas en las etapas de inicialización y entrenamiento de los grandes modelos de lenguaje basados en tokens (TS-LLMs) para el análisis de series temporales. La investigación demuestra que preservar la continuidad y la ordinalidad en los embeddings de tokens de series temporales mejora significativamente el rendimiento y la generalizabilidad del modelo.

machine learning Tokenization large language models Time Series Analysis

RESEARCHarXiv CS.AI·hace 13d

BrickAnything: Geometry-Conditioned Buildable Brick Generation with Structure-Aware Tokenization

Este trabajo presenta BrickAnything, un marco autorregresivo condicionado por la geometría para generar estructuras de ladrillos construibles físicamente a partir de diversas formas 3D. Utiliza nubes de puntos como interfaz geométrica unificada y predice secuencias de ladrillos que reconstruyen la forma objetivo bajo restricciones de ensamblaje, introduciendo una tokenización de árbol sensible a la estructura.

brick generation 3D reconstruction geometry-conditioned AI

DOCDEV.to AI·hace 14d

How LLMs Actually Work — From Tokens to Text (with Python)

Este contenido explica el mecanismo fundamental de los Modelos de Lenguaje Grandes (LLMs) como ChatGPT, detallando cómo predicen el siguiente token para generar texto. Describe el proceso completo desde la tokenización y representación vectorial hasta los mecanismos de atención y el proceso iterativo de generación de texto.

learning text generation Python Tokenization

ARTICLEDEV.to AI·18/4/2026

Opus 4.7 Uses 35% More Tokens Than 4.6. Here's What I'm Doing About It.

El nuevo tokenizer de Claude Opus 4.7 está provocando un aumento efectivo del 35% en el costo por el mismo trabajo, ya que consume más tokens que la versión 4.6. Aunque las mejoras en el razonamiento son reales para tareas complejas, el autor planea usar 4.7 de forma selectiva y mantener 4.6 para tareas donde la eficiencia de tokens es clave.

AI cost Claude Tokenization LLM

ARTICLEDEV.to AI·21/4/2026

Opus 4.7's Tokenizer Change: How to Measure Your Real Claude Code Costs

El tokenizador actualizado de Claude Opus 4.7 puede aumentar los costos en un 40% o más para la misma entrada, especialmente para las instrucciones del sistema e imágenes de alta resolución, debido a un mayor recuento de tokens. Es crucial usar un contador de tokens para medir los costos reales antes de actualizar.

AI models Anthropic Cost Optimization Tokenization

DOCfast.ai Blog·15/10/2025

Let’s Build the GPT Tokenizer: A Complete Guide to Tokenization in LLMs

Este contenido transforma el video de Andrej Karpathy sobre la tokenización de GPT en un capítulo de libro detallado. Incluye código y imágenes, sirviendo como una guía completa para comprender una parte clave del funcionamiento de los LLM.

LLMs GPT learning NLP

Let’s Build the GPT Tokenizer: A Complete Guide to Tokenization in LLMs

ARTICLEDEV.to AI·20/4/2026

How do large organizations benefit from tokenizing physical assets?

Las grandes organizaciones se benefician de la tokenización de activos físicos al transformar sus bienes ilíquidos en unidades digitales negociables en una blockchain. Esto mejora significativamente la liquidez, la transparencia y la eficiencia operativa en la gestión de activos.

Blockchain Finance digital assets asset management

ARTICLEDEV.to AI·10/4/2026

U.S. Blockchain Development Accelerates With Asset Tokenization and Layer 2 Growth

O desenvolvimento de blockchain nos EUA evoluiu de experimentação para infraestrutura real em 2026, impulsionado pela tokenização de ativos e soluções Layer 2. Isso tornou a tecnologia mais prática, escalável e econômica para empresas em setores como finanças e logística.

Blockchain enterprise blockchain Tokenization Layer 2