computer vision

125 items

RESEARCHDEV.to AI·24/4/2026

Two-Stream 3D Convolutional Neural Network for Skeleton-Based Action Recognition

Este contenido describe una red neuronal convolucional 3D de doble flujo para el reconocimiento de acciones basado en esqueletos.

neural networks deep learning computer vision Action Recognition

RESEARCHDEV.to AI·10/5/2026

GQA: A New Dataset for Real-World Visual Reasoning and Compositional QuestionAnswering

GQA es un nuevo conjunto de datos diseñado para desafiar y evaluar sistemas de IA en el razonamiento visual y la respuesta a preguntas composicionales. Su objetivo es avanzar en la comprensión de escenas y la interacción multimodal en escenarios del mundo real.

Question Answering visual reasoning computer vision datasets

RESEARCHDEV.to AI·hace 26d

Recent Advances in Object Detection in the Age of Deep Convolutional NeuralNetworks

Este contenido analiza los avances recientes en la detección de objetos, centrándose específicamente en el papel y el impacto de las redes neuronales convolucionales profundas. Probablemente explora nuevas técnicas, modelos y desafíos dentro de este campo de la inteligencia artificial.

deep learning object detection computer vision Convolutional Neural Networks

ARTICLEDEV.to AI·24/4/2026

Bringing it to Life: The Real-Time Inference Engine (Part 3)

Este artículo, Parte 3 de una serie, detalla el motor de inferencia en tiempo real para un proyecto de ASL a voz, abordando el desafío de procesar transmisiones infinitas de webcam. Explica la arquitectura de Ventana Deslizante para decodificar puntos clave del cuerpo en glosas de lenguaje de señas y usar LLMs para generar inglés hablado.

sign-language machine learning computer vision NLP

ARTICLEDEV.to AI·26/4/2026

1 in 25 Kids Are Now Deepfake Victims — and Your Investigators Aren't Ready

La creciente prevalencia del abuso de imágenes deepfake, que afecta a 1 de cada 25 niños, ha alterado fundamentalmente los flujos de trabajo de visión por computadora y biometría, haciendo que las imágenes digitales no sean fiables como "fuente de verdad". Esta crisis exige un cambio en la tecnología de investigación, pasando del reconocimiento facial amplio a la comparación facial de alta precisión, destacando una necesidad crítica de herramientas de análisis forense asequibles.

deepfake security computer vision Facial recognition

ARTICLEDEV.to AI·hace 16d

From Screenshot to Solution: AI-Powered Visual Analysis for UI/UX Issues

Este artículo presenta un enfoque de análisis visual impulsado por IA para resolver problemas de soporte de UI/UX. Al tratar las capturas de pantalla como datos legibles por máquina, los modelos de IA pueden automatizar los flujos de trabajo de triaje, análisis y respuesta, reduciendo significativamente el esfuerzo manual y mejorando el tiempo de resolución.

computer vision UI/UX customer support AI

ARTICLEDEV.to AI·5/5/2026

Apps That See: Bringing Vision AI to Your Projects

Este artículo detalla una charla titulada "Apps That See", que presentó seis demostraciones en vivo sobre cómo construir aplicaciones que entienden imágenes y videos. Los proyectos son de código abierto y muestran cómo los modelos de IA visual, como Qwen y Reka Edge, ahora pueden ejecutarse localmente en hardware común.

open-source computer vision Visual AI Local AI

DOCDEV.to AI·hace 18d

Stop retraining YOLO: a developer’s guide to zero-shot object detection with generative VLMs

Esta guía aborda el reentrenamiento repetitivo de modelos de detección de objetos como YOLO en entornos industriales, proponiendo Modelos Generativos de Visión-Lenguaje (VLMs) para la detección de cero-shot. Destaca cómo los VLMs transforman la detección en indicaciones semánticas, evitando la recopilación y el reentrenamiento continuos de datos, pero señala nuevos desafíos arquitectónicos para los equipos de ingeniería industrial.

VLM object detection computer vision Generative AI

RESEARCHDEV.to AI·hace 14d

Can SAM Segment Anything? When SAM Meets Camouflaged Object Detection

Este contenido explora la efectividad del Segment Anything Model (SAM) cuando se aplica a la desafiante tarea de detección de objetos camuflados. Investiga si SAM, conocido por sus capacidades generales de segmentación, puede identificar con precisión objetos que se mimetizan con su entorno.

SAM object detection Segmentation computer vision

DOCDEV.to AI·1/5/2026

From Chaos to Claim: Automating Your Digital Evidence File with AI

Este contenido describe cómo los ajustadores públicos individuales pueden usar la IA para automatizar la organización de archivos de evidencia digital, aprovechando herramientas como la visión por computadora y el OCR. Detalla un proceso de tres fases para crear un flujo de trabajo aumentado por IA sobre el almacenamiento en la nube para gestionar eficientemente fotos, facturas y correos electrónicos.

document management workflow automation computer vision AI tools

RESEARCHDEV.to AI·9/5/2026

Shape of Motion: 4D Reconstruction from a Single Video

Este trabajo describe un método innovador para la reconstrucción 4D a partir de un solo video. La investigación se centra en la recuperación de la forma y el movimiento de objetos o escenas complejas.

4D Reconstruction machine learning computer vision video-analysis

ARTICLEDEV.to AI·hace 17d

Building EIDOLON OS — A Local-First AI Cognitive Operating System

El autor ha creado EIDOLON OS, un sistema operativo cognitivo de IA experimental y local-first. Integra memoria, visión, recuperación semántica y acciones de agente para transformar la actividad del escritorio en memoria estructurada y buscable.

AI Operating System computer vision cognitive AI Local AI

DOCDEV.to AI·27/4/2026

BlenderProc

BlenderProc es un renderizador procedural basado en Blender, utilizado para generar conjuntos de datos sintéticos para investigación en visión por computador. Facilita la creación de datos diversos y realistas para entrenar modelos de IA.

synthetic data computer vision 3d-rendering AI tools

ARTICLEDEV.to AI·hace 11d

How AI Auto-Catalogs Claims Evidence for Solo Public Adjusters

Este artículo describe cómo la inteligencia artificial puede automatizar la catalogación de pruebas de reclamaciones para peritos públicos individuales, utilizando un pipeline de triaje, OCR y visión por computadora. Este enfoque transforma archivos digitales caóticos en bóvedas de evidencia buscables y verificables, ahorrando un tiempo valioso a los peritos.

document management claims processing AI automation computer vision

ARTICLEDEV.to AI·hace 28d

Fine-tuning CLIP on a Niche Domain: How I Got +26pp Accuracy on Architectural Styles and What You Can Apply to Your Own Domain

Este artículo detalla el proceso de ajuste fino de OpenCLIP ViT-B/32 para estilos arquitectónicos, logrando un aumento de 26 puntos porcentuales en la precisión. El autor se centra en las decisiones críticas tomadas antes y después del ciclo de entrenamiento que fueron responsables de este resultado significativo, y no en la optimización del propio ciclo de entrenamiento.

CLIP Vision-Language Models machine learning computer vision

DOCDEV.to AI·17/4/2026

AI Room Decor Tools 2026

Para 2026, las herramientas de IA transformarán el diseño de interiores, ofreciendo precisión, reducción de costos y nuevas capacidades como la simulación en tiempo real. Esenciales para diseñadores y propietarios, estas herramientas se basan en IA generativa, visión por computadora y razonamiento espacial.

computer vision AI tools home decor interior design

ARTICLEThe Verge AI·24/4/2026

How Project Maven taught the military to love AI

Project Maven, un sistema de IA que aplica visión por computadora a imágenes de drones, ha acelerado drásticamente los procesos de selección de objetivos militares, como lo ejemplifica un reciente asalto a Irán. Su desarrollo, investigado en un nuevo libro de Katrina Manson, provocó notables protestas de empleados en Google, su contratista inicial.

AI in military Ethics of AI computer vision

ARTICLEDEV.to AI·16/4/2026

The Face Matched. The Voice Matched. The Person Never Existed.

El fraude de identidad deepfake está operacionalizado cada cinco minutos, planteando un desafío crítico para los desarrolladores de sistemas de visión por computadora y biométricos. Este cambio requiere ir más allá de la simple coincidencia facial para probar la vivacidad y autenticidad de la fuente, ya que los modelos de confianza de un solo punto tradicionales están fallando y causando pérdidas financieras significativas.

biometrics deepfake security computer vision

ARTICLEDEV.to AI·13/4/2026

A Cop Made 3,000 Deepfake Porn Images. A Bandwidth Spike Caught Him — No Investigator Did.

El artículo describe cómo un cabo de policía creó 3.000 imágenes deepfake pornográficas, siendo descubierto por un pico de ancho de banda de la red y no por herramientas forenses digitales especializadas. Esto subraya una falla crítica en la capacidad actual de la forense digital y la visión por computadora para detectar medios sintéticos de forma proactiva.

digital forensics law enforcement deepfake computer vision

ARTICLEDEV.to AI·hace 9d

Deepfakes Just Broke Evidence: $893M Gone, 100K Fake Images, First Arrests Land

Los deepfakes están desafiando profundamente la verificación forense y creando un "dividendo del mentiroso" donde la evidencia auténtica es descartada. Esto requiere un cambio en las herramientas de visión por computadora para proporcionar un andamiaje matemático que permita a los investigadores defender sus hallazgos en la corte, más allá de simples puntuaciones de coincidencia.

security computer vision forensics fraud