computer vision

125 items

ARTICLEDEV.to AI·5/5/2026

We Built Sign Language AI for a Language With Almost No Dataset. Here's What That Actually Looks Like.

Este artículo detalla el desarrollo de OmniSign, un traductor en tiempo real para la Lengua de Signos Libanesa (LSL), abordando los desafíos de crear IA para un idioma con un conjunto de datos casi inexistente. El autor enfatiza que los problemas más difíciles encontrados no fueron técnicos, sino humanos. La inspiración surgió al presenciar las dificultades de comunicación entre un hombre sordo y un barista en Beirut.

Dataset Low-Resource Language machine learning Sign Language AI

ARTICLEDEV.to AI·27/4/2026

ICE's $7.5M Face-Scanning Glasses Hit Streets by 2027 — And the Industry's Silence Is Complicity

El contenido detalla el plan de ICE para implementar gafas de escaneo facial de $7.5M para 2027, señalando un cambio drástico del análisis forense estático a la identificación en tiempo real. Esta iniciativa genera preocupación sobre el despliegue masivo de tecnología biométrica portátil y sus implicaciones para la privacidad y la vigilancia.

biometrics Edge AI privacy security

ARTICLEDEV.to AI·8/5/2026

Facial Recognition's 81% Error Rate Is About to Blow Up in Court — Are Your Notes Ready?

El artículo destaca la tasa de error del 81% del reconocimiento facial en implementaciones en vivo y sus implicaciones legales para desarrolladores. Ahora deben centrarse en documentar metodologías para la defensa en los tribunales, señalando el fin de la era de la IA de 'caja negra'.

biometrics security computer vision Facial recognition

RESEARCHarXiv CS.CL·5/5/2026

DIAGRAMS: A Review Framework for Reasoning-Level Attribution in Diagram QA

DIAGRAMS es un marco de revisión para la atribución a nivel de razonamiento en la respuesta a preguntas sobre diagramas (Diagram QA). Desvincula la lógica de la interfaz de los formatos de conjuntos de datos específicos a través de un metaesquema y adaptadores, facilitando la selección y generación de evidencia.

attribution Diagram QA machine learning computer vision

RESEARCHarXiv CS.CL·1/5/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Este artículo presenta el Length Value Model (LenVM), un nuevo marco a nivel de token para modelar la longitud de generación restante en modelos autorregresivos. Al formular el modelado de la longitud como un problema de estimación de valor, LenVM proporciona una señal eficaz, sin anotaciones y escalable para LLM y VLM, mejorando el rendimiento en la coincidencia exacta de longitud.

deep learning Model Architecture computer vision large language models

RESEARCHarXiv CS.AI·9/5/2026

Intelligent CCTV for Urban Design: AI-Based Analysis of Soft Infrastructure at Intersections

Este estudio introduce un marco analítico habilitado por IA que utiliza la infraestructura de CCTV existente para evaluar el impacto de las intervenciones urbanas blandas en la velocidad y seguridad vehicular en intersecciones. Los hallazgos de Minneapolis revelan que estas intervenciones redujeron significativamente las velocidades de los vehículos y el tráfico de paso.

transportation traffic management urban design computer vision

RESEARCHarXiv CS.CL·24/4/2026

Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

Este trabajo introduce una función de pérdida de reponderación de tokens para mejorar la eficiencia de datos en el entrenamiento de modelos de visión-lenguaje para la generación de informes médicos. Al priorizar tokens semánticamente importantes, el método logra una calidad de informe comparable utilizando hasta diez veces menos datos de entrenamiento.

Data efficiency machine learning computer vision natural language generation

RESEARCHarXiv CS.LG·hace 8d

Hoeffding Concept Bottleneck Models with Applications to Overhead Images

Se presentan los Modelos de Cuello de Botella de Concepto de Hoeffding (HCBM) para ofrecer agregaciones no lineales y dispersas de puntuaciones de concepto, mejorando la explicabilidad y precisión de las predicciones de aprendizaje profundo. Este método aprovecha la descomposición funcional de Hoeffding de árboles de gradiente impulsado para superar las limitaciones de los CBM lineales existentes, que adolecen de un gran número de conceptos y posible fuga de información.

deep learning machine learning computer vision Explainable AI

RESEARCHDEV.to AI·25/4/2026

PP-LCNet: A Lightweight CPU Convolutional Neural Network

PP-LCNet introduce una red neuronal convolucional ligera optimizada para un rendimiento eficiente en CPUs. Esta arquitectura se enfoca en lograr alta precisión con mínimas demandas computacionales, adecuada para entornos con recursos limitados.

deep learning lightweight models computer vision Convolutional Neural Networks

RESEARCHarXiv CS.CL·hace 28d

ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

ReVision introduce un método para escalar agentes de uso de computadora al reducir la redundancia visual temporal en trayectorias de interacción. Utiliza un selector de parches aprendido para eliminar tokens visuales redundantes, reduciendo el uso de tokens en aproximadamente un 46% y mejorando la eficiencia de los modelos de lenguaje multimodales en los benchmarks.

multimodal AI LLMs efficiency computer vision

ARTICLE↑ trendingReddit r/MachineLearning·27/4/2026

CVPR Workshop Decisions [D]

Un usuario pregunta si es normal que las decisiones de los talleres de CVPR aún no se hayan publicado, ya que faltan unas cinco semanas y necesitan aprobar el viaje. Les preocupa molestar a los organizadores, pero necesitan las notificaciones de aceptación para planificar su viaje.

Workshops computer vision academic conferences CVPR

DOCDEV.to AI·hace 25d

Building a License Plate Recognition Engine in C++ — Part 2: Grayscale Image Preprocessing and Local Contrast Edge Detection

Este artículo, la segunda parte de una serie, detalla la etapa de preprocesamiento de imágenes para construir un motor de Reconocimiento de Matrículas (LPR) en C++. Cubre la generación de imágenes integrales, el análisis de contraste local y la extracción de mapas de bordes para mejorar las regiones que probablemente contengan caracteres de matrículas para sistemas en tiempo real.

LPR Image processing learning computer vision

RESEARCHDEV.to AI·25/4/2026

CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos

CoTracker3 introduce un método más simple y eficaz para el seguimiento de puntos en videos. Lo logra utilizando pseudoetiquetado en datos de video reales, lo que lleva a un rendimiento mejorado.

point-tracking machine learning computer vision pseudo-labelling

ARTICLEDEV.to AI·13/4/2026

The Cop Who Made 3,000 Deepfakes Exposed a Bigger Problem Than Deepfakes

El artículo destaca el caso de un policía que creó 3.000 deepfakes como una advertencia sobre la deuda técnica en la legislación biométrica. Argumenta que la prisa de los legisladores por definir "medios sintéticos" confunde los modelos de IA discriminativos y generativos, lo que crea riesgos para los desarrolladores de herramientas legítimas de comparación facial.

regulation biometrics law enforcement computer vision

RESEARCHDEV.to AI·7/5/2026

Foundational Models Defining a New Era in Vision: A Survey and Outlook

Este artículo de investigación explora los modelos fundacionales que están definiendo una nueva era en la visión por computadora, ofreciendo un análisis exhaustivo y perspectivas futuras. Examina el impacto y las tendencias emergentes de estos modelos en el campo.

Survey Foundational Models machine learning computer vision

CASEDEV.to AI·20/4/2026

Beyond the Crop: Automating "Ghost Mannequin" Effects with Depth-Aware Inpainting

El contenido describe cómo Rewarx Studio AI automatiza el efecto "maniquí fantasma" para el comercio electrónico de ropa, superando desafíos de profundidad y oclusión. Su solución implica una tubería de tres pasos: enmascaramiento semántico (SAM), estimación de profundidad (Depth Anything) e inpainting consciente del contexto (SDXL).

Image processing computer vision Inpainting E-commerce

RESEARCHDEV.to AI·28/4/2026

You Only Watch Once: A Unified CNN Architecture for Real-Time SpatiotemporalAction Localization

El título describe una arquitectura CNN unificada para la localización de acciones espacio-temporales en tiempo real. Este trabajo se centra en mejorar la eficiencia y precisión en la detección de actividades en vídeos.

CNN deep learning computer vision Action Recognition

RESEARCHDEV.to AI·19/4/2026

Camera identification with deep convolutional networks

Esta investigación explora el uso de redes convolucionales profundas para la tarea específica de identificación de cámaras. Profundiza en cómo estos modelos avanzados de IA pueden diferenciar entre varias cámaras.

deep learning computer vision AI

ARTICLEDEV.to AI·27/4/2026

gsplat: An Open-Source Library for Gaussian Splatting

gsplat es una biblioteca de código abierto dedicada a implementar la técnica de Gaussian Splatting. Proporciona herramientas y recursos para aplicaciones de reconstrucción y renderización 3D.

open-source 3D reconstruction 3D Graphics computer vision

DOCDEV.to AI·28/4/2026

Building a No-Install AI Upscaler: Leveraging Cloud GPUs for Seamless Image Processing

GoHard AI Upscaler es una herramienta basada en navegador para la mejora de imágenes de nivel profesional, eliminando la necesidad de equipos locales de alta gama. Logra una instalación cero y un rendimiento constante utilizando Python, modelos de IA optimizados y GPUs en la nube de Google Colab.

Image processing deep learning cloud computing machine learning