← heapsort-ai

Tokenization

11 items

RESEARCH↑ trendingReddit r/MachineLearning·19d atrás

Do VLMs in production still use fixed-patch ViTs for their vision capabilities? [D]

Esta discussão questiona se os Modelos de Linguagem Visual (VLMs) em produção ainda utilizam ViTs de patch fixo para suas capacidades de visão, apesar da existência de métodos de tokenização mais eficientes. Explora possíveis razões para isso, como ganhos marginais, limitações de pipeline ou leis de escala não compreendidas para o "patching" adaptativo.

42
RESEARCHarXiv CS.LG·11d atrás

Continuity and Ordinality Matter: Constraining Time Series Tokens for Effective Time Series Analysis with Large Language Models

Este artigo apresenta o COM (Continuity and Ordinality Matter), uma estratégia que integra restrições geométricas na inicialização e treinamento de modelos de linguagem grandes baseados em tokens (TS-LLMs) para análise de séries temporais. A pesquisa demonstra que preservar a continuidade e a ordinalidade nos embeddings de tokens melhora significativamente o desempenho e a generalizabilidade desses modelos.

27
RESEARCHarXiv CS.AI·13d atrás

BrickAnything: Geometry-Conditioned Buildable Brick Generation with Structure-Aware Tokenization

O trabalho introduz o BrickAnything, uma estrutura autoregressiva condicionada à geometria para gerar estruturas de tijolos fisicamente construíveis a partir de formas 3D diversas. Ele utiliza nuvens de pontos como interface geométrica unificada e prevê sequências de tijolos que reconstroem a forma alvo sob restrições de montagem, introduzindo tokenização de árvore sensível à estrutura.

27