← heapsort-ai

computer vision

125 items

RESEARCHarXiv CS.LG·hace 6d

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Esta investigación evalúa sistemáticamente las variantes de la formulación de atención QKV (Query, Key, Value) en Transformers, incluyendo proyecciones de clave-valor, query-clave y únicas. Los experimentos en tareas sintéticas, de visión y modelado de lenguaje demuestran que estas formulaciones alternativas rinden igual o incluso mejor que los Transformers QKV estándar, con la compartición Q-K=V ofreciendo una reducción significativa del caché KV en el modelado de lenguaje.

29
ARTICLEDEV.to AI·hace 27d

Everything Google announced at its Android Show, from Googlebooks to vibe-coded widgets

El artículo analiza técnicamente los anuncios del Android Show de Google, enfocándose en la nueva aplicación Google Libros y los widgets codificados por ambiente. Detalla cómo Google Libros usa un motor de renderización propietario con ML para el reconocimiento de texto, mientras que los widgets aprovechan PNL y visión por computadora a través de TensorFlow Lite para experiencias personalizadas.

29
ARTICLE↑ trendingReddit r/MachineLearning·16/4/2026

Camera-ready paranoia [D]

Un usuario expresa "paranoia de cámara-lista" después de enviar su artículo a CVPRW, temiendo el rechazo por posibles errores a pesar de haber utilizado una herramienta de validación de PDF. Busca confirmación sobre cuándo se incluirá el artículo en las actas, ya que su estado actual es "En producción".

29
ARTICLEDEV.to AI·18/4/2026

Privacy-Preserving Active Learning for sustainable aquaculture monitoring systems with inverse simulation verification

El contenido presenta los desafíos de optimizar la acuicultura sostenible utilizando IA, específicamente la escasez de datos, las preocupaciones de privacidad y la brecha entre la simulación y la realidad en aplicaciones de visión por computadora. Describe el camino del autor para formular un enfoque de Aprendizaje Activo que Preserva la Privacidad con verificación por simulación inversa para abordar estos problemas prácticos.

28
ARTICLEDEV.to AI·4/5/2026

Flagged by a Face: Innocent Shoppers Banned With No Way to Fight Back

El artículo aborda cómo los fallos técnicos en las listas de vigilancia de reconocimiento facial llevan a la prohibición de compradores inocentes sin posibilidad de apelación. Destaca la brecha entre la precisión de identificación en laboratorios y la responsabilidad en el mundo real, enfatizando el problema de los falsos positivos en sistemas de búsqueda 1:N.

28
RESEARCHarXiv CS.LG·hace 26d

Vision-Based Runtime Monitoring under Varying Specifications using Semantic Latent Representations

Este artículo estudia el monitoreo certificado en tiempo de ejecución de la lógica temporal de señal (ptSTL) a partir de observaciones visuales bajo observabilidad parcial. Propone un monitor reutilizable que infiere cantidades relevantes para la seguridad a partir de imágenes y proporciona garantías de muestra finita, utilizando representaciones latentes semánticas para certificar fórmulas sin reentrenamiento por fórmula.

28
DOCDEV.to AI·10/5/2026

How I cut speech-bubble retries from 70% to 0% with 200 lines of Pillow code

El autor redujo drásticamente los reintentos de generación de imágenes de IA con texto ilegible en globos de diálogo al delegar la tipografía a un paso de post-procesamiento determinista. Esto implicó que la IA dibujara burbujas vacías y luego usara Pillow y OpenCV para añadir texto legible, logrando una tasa de cero reintentos para problemas de texto.

28
RESEARCHarXiv CS.AI·20/4/2026

GIST: Multimodal Knowledge Extraction and Spatial Grounding via Intelligent Semantic Topology

GIST presenta una tubería de extracción de conocimiento multimodal para el anclaje espacial en entornos complejos, transformando nubes de puntos móviles en topologías de navegación semánticamente anotadas. Destila escenas en mapas de ocupación 2D, extrae diseños topológicos y superpone una capa semántica ligera para ayudar a la IA encarnada y a los humanos.

28
RESEARCHarXiv CS.CL·23/4/2026

Hybrid Multi-Phase Page Matching and Multi-Layer Diff Detection for Japanese Building Permit Document Review

Este trabajo introduce un algoritmo híbrido multifásico para la comparación automatizada de conjuntos de documentos de permisos de construcción japoneses, un proceso manual laborioso y propenso a errores. El algoritmo empareja páginas de manera robusta a través de revisiones y utiliza un motor de diferencias multinivel para generar informes con alta precisión, logrando F1=0.80 y precisión=1.00.

28
RESEARCHarXiv CS.AI·8/4/2026

Part-Level 3D Gaussian Vehicle Generation with Joint and Hinge Axis Estimation

Este trabalho propõe um framework generativo para sintetizar veículos 3D Gaussianos animáveis a partir de uma única imagem ou entradas multi-view esparsas. Ele visa superar as limitações dos modelos de veículos rígidos atuais em simulações de direção autônoma, introduzindo um módulo de refinamento para articulação de partes.

28
ARTICLEDEV.to AI·hace 17d

YouTube Just Made Every Creator a Deepfake Cop — Here's Why Investigators Should Be Nervous

Las herramientas ampliadas de YouTube para la detección de deepfakes transforman la verificación de medios sintéticos en un requisito de producción estándar, cambiando la carga de la prueba en las investigaciones digitales. Esta "democratización de la detección" implica que los indicadores de detección de similitud de las plataformas se convertirán en artefactos primarios en disputas legales y de seguros.

28