← heapsort-ai

computer vision

125 items

ARTICLEDEV.to AI·5/5/2026

We Built Sign Language AI for a Language With Almost No Dataset. Here's What That Actually Looks Like.

Este artículo detalla el desarrollo de OmniSign, un traductor en tiempo real para la Lengua de Signos Libanesa (LSL), abordando los desafíos de crear IA para un idioma con un conjunto de datos casi inexistente. El autor enfatiza que los problemas más difíciles encontrados no fueron técnicos, sino humanos. La inspiración surgió al presenciar las dificultades de comunicación entre un hombre sordo y un barista en Beirut.

27
ARTICLEDEV.to AI·27/4/2026

ICE's $7.5M Face-Scanning Glasses Hit Streets by 2027 — And the Industry's Silence Is Complicity

El contenido detalla el plan de ICE para implementar gafas de escaneo facial de $7.5M para 2027, señalando un cambio drástico del análisis forense estático a la identificación en tiempo real. Esta iniciativa genera preocupación sobre el despliegue masivo de tecnología biométrica portátil y sus implicaciones para la privacidad y la vigilancia.

27
RESEARCHarXiv CS.CL·1/5/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Este artículo presenta el Length Value Model (LenVM), un nuevo marco a nivel de token para modelar la longitud de generación restante en modelos autorregresivos. Al formular el modelado de la longitud como un problema de estimación de valor, LenVM proporciona una señal eficaz, sin anotaciones y escalable para LLM y VLM, mejorando el rendimiento en la coincidencia exacta de longitud.

27
RESEARCHarXiv CS.AI·9/5/2026

Intelligent CCTV for Urban Design: AI-Based Analysis of Soft Infrastructure at Intersections

Este estudio introduce un marco analítico habilitado por IA que utiliza la infraestructura de CCTV existente para evaluar el impacto de las intervenciones urbanas blandas en la velocidad y seguridad vehicular en intersecciones. Los hallazgos de Minneapolis revelan que estas intervenciones redujeron significativamente las velocidades de los vehículos y el tráfico de paso.

27
RESEARCHarXiv CS.CL·24/4/2026

Weighting What Matters: Boosting Sample Efficiency in Medical Report Generation via Token Reweighting

Este trabajo introduce una función de pérdida de reponderación de tokens para mejorar la eficiencia de datos en el entrenamiento de modelos de visión-lenguaje para la generación de informes médicos. Al priorizar tokens semánticamente importantes, el método logra una calidad de informe comparable utilizando hasta diez veces menos datos de entrenamiento.

27
RESEARCHarXiv CS.LG·hace 8d

Hoeffding Concept Bottleneck Models with Applications to Overhead Images

Se presentan los Modelos de Cuello de Botella de Concepto de Hoeffding (HCBM) para ofrecer agregaciones no lineales y dispersas de puntuaciones de concepto, mejorando la explicabilidad y precisión de las predicciones de aprendizaje profundo. Este método aprovecha la descomposición funcional de Hoeffding de árboles de gradiente impulsado para superar las limitaciones de los CBM lineales existentes, que adolecen de un gran número de conceptos y posible fuga de información.

27
RESEARCHarXiv CS.CL·hace 28d

ReVision: Scaling Computer-Use Agents via Temporal Visual Redundancy Reduction

ReVision introduce un método para escalar agentes de uso de computadora al reducir la redundancia visual temporal en trayectorias de interacción. Utiliza un selector de parches aprendido para eliminar tokens visuales redundantes, reduciendo el uso de tokens en aproximadamente un 46% y mejorando la eficiencia de los modelos de lenguaje multimodales en los benchmarks.

27
ARTICLE↑ trendingReddit r/MachineLearning·27/4/2026

CVPR Workshop Decisions [D]

Un usuario pregunta si es normal que las decisiones de los talleres de CVPR aún no se hayan publicado, ya que faltan unas cinco semanas y necesitan aprobar el viaje. Les preocupa molestar a los organizadores, pero necesitan las notificaciones de aceptación para planificar su viaje.

27
DOCDEV.to AI·hace 25d

Building a License Plate Recognition Engine in C++ — Part 2: Grayscale Image Preprocessing and Local Contrast Edge Detection

Este artículo, la segunda parte de una serie, detalla la etapa de preprocesamiento de imágenes para construir un motor de Reconocimiento de Matrículas (LPR) en C++. Cubre la generación de imágenes integrales, el análisis de contraste local y la extracción de mapas de bordes para mejorar las regiones que probablemente contengan caracteres de matrículas para sistemas en tiempo real.

27
ARTICLEDEV.to AI·13/4/2026

The Cop Who Made 3,000 Deepfakes Exposed a Bigger Problem Than Deepfakes

El artículo destaca el caso de un policía que creó 3.000 deepfakes como una advertencia sobre la deuda técnica en la legislación biométrica. Argumenta que la prisa de los legisladores por definir "medios sintéticos" confunde los modelos de IA discriminativos y generativos, lo que crea riesgos para los desarrolladores de herramientas legítimas de comparación facial.

27
CASEDEV.to AI·20/4/2026

Beyond the Crop: Automating "Ghost Mannequin" Effects with Depth-Aware Inpainting

El contenido describe cómo Rewarx Studio AI automatiza el efecto "maniquí fantasma" para el comercio electrónico de ropa, superando desafíos de profundidad y oclusión. Su solución implica una tubería de tres pasos: enmascaramiento semántico (SAM), estimación de profundidad (Depth Anything) e inpainting consciente del contexto (SDXL).

27