RESEARCH27
TTE-Flash: Accelerating Reasoning-based Multimodal Representations via Think-Then-Embed Tokens
arXiv CS.AI·19 de maio de 2026
Este trabalho propõe TTE-Flash, um método para acelerar representações multimodais baseadas em raciocínio, substituindo o raciocínio explícito de Cadeia de Pensamento (CoT) por tokens de pensamento latentes. Ele busca alcançar representações de alto desempenho e sensíveis ao raciocínio com um custo de inferência constante.
Ler original ↗