computer vision

125 items

RESEARCHarXiv CS.LG·hace 6d

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Esta investigación evalúa sistemáticamente las variantes de la formulación de atención QKV (Query, Key, Value) en Transformers, incluyendo proyecciones de clave-valor, query-clave y únicas. Los experimentos en tareas sintéticas, de visión y modelado de lenguaje demuestran que estas formulaciones alternativas rinden igual o incluso mejor que los Transformers QKV estándar, con la compartición Q-K=V ofreciendo una reducción significativa del caché KV en el modelado de lenguaje.

QKV computer vision Attention Mechanisms Language modeling

ARTICLEDEV.to AI·hace 27d

Everything Google announced at its Android Show, from Googlebooks to vibe-coded widgets

El artículo analiza técnicamente los anuncios del Android Show de Google, enfocándose en la nueva aplicación Google Libros y los widgets codificados por ambiente. Detalla cómo Google Libros usa un motor de renderización propietario con ML para el reconocimiento de texto, mientras que los widgets aprovechan PNL y visión por computadora a través de TensorFlow Lite para experiencias personalizadas.

Android machine learning computer vision Natural Language Processing

ARTICLE↑ trendingReddit r/MachineLearning·16/4/2026

Camera-ready paranoia [D]

Un usuario expresa "paranoia de cámara-lista" después de enviar su artículo a CVPRW, temiendo el rechazo por posibles errores a pesar de haber utilizado una herramienta de validación de PDF. Busca confirmación sobre cuándo se incluirá el artículo en las actas, ya que su estado actual es "En producción".

academic submission research publishing computer vision AI research

ARTICLEDEV.to AI·18/4/2026

Privacy-Preserving Active Learning for sustainable aquaculture monitoring systems with inverse simulation verification

El contenido presenta los desafíos de optimizar la acuicultura sostenible utilizando IA, específicamente la escasez de datos, las preocupaciones de privacidad y la brecha entre la simulación y la realidad en aplicaciones de visión por computadora. Describe el camino del autor para formular un enfoque de Aprendizaje Activo que Preserva la Privacidad con verificación por simulación inversa para abordar estos problemas prácticos.

Privacy AI aquaculture computer vision sustainable AI

RESEARCHDEV.to AI·13/4/2026

FairFace: Face Attribute Dataset for Balanced Race, Gender, and Age

FairFace es un conjunto de datos de atributos faciales creado para abordar los sesgos en los modelos de IA, ofreciendo una representación equilibrada de raza, género y edad. Busca mejorar la equidad y la robustez de los sistemas de visión por computadora, asegurando un rendimiento más justo.

FairFace Dataset Bias Mitigation computer vision

RESEARCHDEV.to AI·8/4/2026

An All-in-One Network for Dehazing and Beyond

Este conteúdo explora uma rede neural unificada projetada para remover neblina de imagens e potencialmente realizar outras tarefas de processamento de imagem. Aborda soluções avançadas em visão computacional e inteligência artificial.

Image processing deep learning computer vision Dehazing

RESEARCHDEV.to AI·2/5/2026

Temporal-Channel Transformer for 3D Lidar-Based Video Object Detection inAutonomous Driving

Esta investigación presenta un Transformer Temporal-Channel diseñado para la detección de objetos en video basada en Lidar 3D. Su objetivo es mejorar las capacidades de percepción de los sistemas de conducción autónoma, procesando datos Lidar secuenciales.

object detection computer vision autonomous driving LiDAR

ARTICLEDEV.to AI·4/5/2026

Flagged by a Face: Innocent Shoppers Banned With No Way to Fight Back

El artículo aborda cómo los fallos técnicos en las listas de vigilancia de reconocimiento facial llevan a la prohibición de compradores inocentes sin posibilidad de apelación. Destaca la brecha entre la precisión de identificación en laboratorios y la responsabilidad en el mundo real, enfatizando el problema de los falsos positivos en sistemas de búsqueda 1:N.

ethics privacy security computer vision

RESEARCHDEV.to AI·9/5/2026

Anticipating Visual Representations from Unlabeled Video

Este contenido aborda métodos para anticipar representaciones visuales a partir de videos sin etiquetar. La investigación explora la capacidad de los modelos para aprender características visuales sin supervisión explícita, mejorando la comprensión contextual en secuencias de video.

computer vision representation learning video-analysis unsupervised learning

RESEARCHarXiv CS.LG·hace 26d

Vision-Based Runtime Monitoring under Varying Specifications using Semantic Latent Representations

Este artículo estudia el monitoreo certificado en tiempo de ejecución de la lógica temporal de señal (ptSTL) a partir de observaciones visuales bajo observabilidad parcial. Propone un monitor reutilizable que infiere cantidades relevantes para la seguridad a partir de imágenes y proporciona garantías de muestra finita, utilizando representaciones latentes semánticas para certificar fórmulas sin reentrenamiento por fórmula.

machine learning computer vision runtime monitoring formal methods

RESEARCHDEV.to AI·19/4/2026

F-VLM: Open-Vocabulary Object Detection upon Frozen Vision and Language Models

F-VLM introduce un enfoque novedoso para la detección de objetos de vocabulario abierto, aprovechando eficientemente modelos de visión y lenguaje pre-entrenados y congelados. Este método permite identificar una amplia gama de objetos sin requerir datos de entrenamiento específicos para cada nueva categoría.

Vision-Language Models deep learning object detection computer vision

DOCDEV.to AI·10/5/2026

How I cut speech-bubble retries from 70% to 0% with 200 lines of Pillow code

El autor redujo drásticamente los reintentos de generación de imágenes de IA con texto ilegible en globos de diálogo al delegar la tipografía a un paso de post-procesamiento determinista. Esto implicó que la IA dibujara burbujas vacías y luego usara Pillow y OpenCV para añadir texto legible, logrando una tasa de cero reintentos para problemas de texto.

Image processing AI generation Stable Diffusion computer vision

RESEARCHarXiv CS.AI·20/4/2026

GIST: Multimodal Knowledge Extraction and Spatial Grounding via Intelligent Semantic Topology

GIST presenta una tubería de extracción de conocimiento multimodal para el anclaje espacial en entornos complejos, transformando nubes de puntos móviles en topologías de navegación semánticamente anotadas. Destila escenas en mapas de ocupación 2D, extrae diseños topológicos y superpone una capa semántica ligera para ayudar a la IA encarnada y a los humanos.

multimodal AI navigation spatial AI computer vision

RESEARCHarXiv CS.CL·23/4/2026

Hybrid Multi-Phase Page Matching and Multi-Layer Diff Detection for Japanese Building Permit Document Review

Este trabajo introduce un algoritmo híbrido multifásico para la comparación automatizada de conjuntos de documentos de permisos de construcción japoneses, un proceso manual laborioso y propenso a errores. El algoritmo empareja páginas de manera robusta a través de revisiones y utiliza un motor de diferencias multinivel para generar informes con alta precisión, logrando F1=0.80 y precisión=1.00.

machine learning computer vision document processing automation

RESEARCHDEV.to AI·9/5/2026

DeXpression: Deep Convolutional Neural Network for Expression Recognition

DeXpression es un modelo de red neuronal convolucional profunda diseñado para el reconocimiento preciso de expresiones faciales. Su objetivo es mejorar la capacidad de los sistemas de visión por computadora para interpretar emociones humanas a partir de imágenes.

facial expression recognition deep learning computer vision Convolutional Neural Networks

ARTICLEDEV.to AI·23/4/2026

BiRefNet vs rembg vs U2Net: Which Background Removal Model Actually Works in Production?

Este artículo compara el rendimiento en producción de los modelos de eliminación de fondo BiRefNet, rembg y U2Net, destacando que las diferencias son mucho mayores de lo que sugieren los puntos de referencia. Detalla los casos de fallo brutales y distintos de cada modelo cuando se aplican a escala.

AI models Production AI Image processing benchmarking

RESEARCHarXiv CS.AI·8/4/2026

Part-Level 3D Gaussian Vehicle Generation with Joint and Hinge Axis Estimation

Este trabalho propõe um framework generativo para sintetizar veículos 3D Gaussianos animáveis a partir de uma única imagem ou entradas multi-view esparsas. Ele visa superar as limitações dos modelos de veículos rígidos atuais em simulações de direção autônoma, introduzindo um módulo de refinamento para articulação de partes.

computer vision autonomous driving 3D Generation Vehicle Simulation

ARTICLEDEV.to AI·15/4/2026

We Integrated Netflix's VOID Model Into Our API — Here's What Nobody Tells You About Video Object Removal

El artículo describe la integración del modelo VOID de Netflix en una API para la eliminación de objetos de vídeo. Explica cómo VOID supera los problemas de las herramientas de inpainting tradicionales, que fallan en manejar artefactos y la física, al tratar el problema como 4D.

Netflix VOID computer vision Video Inpainting Video Object Removal

ARTICLEDEV.to AI·18/4/2026

Discord Leaked 70,000 IDs Answering One Simple Question: Are You 18?

La exposición de 70.000 identificaciones gubernamentales por Discord para la verificación de edad subraya un grave caso de sobre-recopilación arquitectónica. El artículo aboga por alejarse de la verificación de identidad completa hacia la estimación basada en umbrales, utilizando herramientas de estimación facial de edad para preguntas binarias.

biometrics data privacy data breach computer vision

ARTICLEDEV.to AI·hace 17d

YouTube Just Made Every Creator a Deepfake Cop — Here's Why Investigators Should Be Nervous

Las herramientas ampliadas de YouTube para la detección de deepfakes transforman la verificación de medios sintéticos en un requisito de producción estándar, cambiando la carga de la prueba en las investigaciones digitales. Esta "democratización de la detección" implica que los indicadores de detección de similitud de las plataformas se convertirán en artefactos primarios en disputas legales y de seguros.

deepfake security computer vision fraud detection