computer vision

125 items

ARTICLE↑ trendingReddit r/MachineLearning·16/4/2026

Can frontier AI models actually read a painting? [R]

Un experimento evaluó modelos de IA multimodales de frontera, como Gemini 3.1 Pro y GPT-5.4, en la tasación de arte a partir de imágenes. Se encontró una brecha entre el reconocimiento visual y el compromiso con la valoración, indicando que para la IA, 'ver' y confiar en lo que se ve son distintos.

multimodal AI AI capabilities art appraisal Benchmarking

RESEARCH↑ trendingReddit r/MachineLearning·18/4/2026

We’re proud to open-source LIDARLearn [R] [D] [P]

Es una biblioteca unificada de PyTorch para aprendizaje profundo de nubes de puntos 3D, que soporta 56 configuraciones listas para usar y validación cruzada integrada. LIDARLearn también automatiza la generación de PDF LaTeX listos para publicación después del entrenamiento, siendo ideal para investigadores en visión artificial 3D y teledetección.

Open Source deep learning computer vision 3d-point-cloud

We’re proud to open-source LIDARLearn [R] [D] [P]

RESEARCH↑ trendingReddit r/LocalLLaMA·27/4/2026

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.

TRELLIS.2 de Microsoft es un modelo de código abierto de 4B parámetros para la generación de 3D de alta fidelidad a partir de imágenes, produciendo activos PBR de hasta 1536³ con VAES 3D nativos y una estructura O-Voxel. Ofrece una solución eficiente y escalable para la creación de activos 3D detallados con materiales PBR completos.

Open Source Image-to-3D 3D modeling computer vision

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.

ARTICLE↑ trendingReddit r/MachineLearning·7/5/2026

Dataset of 150k+ stool images and not sure how to fully use it [D]

Un usuario con un dataset de 150 mil imágenes de heces busca las mejores prácticas para entrenar un modelo de visión artificial. Cuestiona su flujo de trabajo actual de verificación manual y busca enfoques más inteligentes y escalables para garantizar la calidad del dataset y las anotaciones.

dataset-quality model training machine learning computer vision

RESEARCH↑ trendingReddit r/MachineLearning·7/5/2026

Visual Perceptual to Conceptual First-Order Rule Learning Networks [R]

El contenido discute investigaciones recientes en el campo de la Programación Lógica Inductiva (ILP) que exploran la inducción de predicados en conjuntos de datos de imágenes. El autor cuestiona la capacidad del ILP para competir con Deep Learning/Redes Neuronales en visión por computadora, a pesar de las sólidas afirmaciones de rendimiento.

learning machine learning computer vision ILP

RESEARCH↑ trendingReddit r/MachineLearning·hace 27d

Elastic Attention Cores for Scalable Vision Transformers [R]

Este artículo presenta los Núcleos de Atención Elásticos como un nuevo bloque de construcción para Vision Transformers escalables, abordando el alto costo de la autoatención densa. El enfoque utiliza una estructura de atención escasa por bloques de núcleo-periferia y dropout anidado para ajustes elásticos del costo de inferencia, logrando una precisión competitiva.

deep learning computer vision attention mechanisms Vision Transformers

Elastic Attention Cores for Scalable Vision Transformers [R]

ARTICLE↑ trendingReddit r/LocalLLaMA·21/4/2026

Gemma 4 Vision

El presupuesto de visión predeterminado de Gemma 4 es a menudo demasiado bajo para un reconocimiento de detalles eficaz, lo que provoca un bajo rendimiento en OCR. Los usuarios pueden mejorar significativamente su visión configurando los parámetros de `llama.cpp` como `--image-min-tokens` y `--image-max-tokens` a valores más altos, como 560 y 2240.

Optimization Configuration computer vision Gemma

ARTICLE↑ trendingReddit r/MachineLearning·9/4/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

AI models Image processing Vision-Language Models computer vision

ARTICLE↑ trendingReddit r/MachineLearning·10/4/2026

What image/video training data is hardest to find right now? [R]

Um usuário está desenvolvendo uma plataforma de coleta de fotos crowdsourced, utilizando YOLO/CLIP para rotulagem automática e enriquecimento de metadados. Ele busca sugestões sobre quais tipos de dados de imagem são mais difíceis de encontrar e mais desejados para o treinamento de modelos de IA, citando exemplos como cenas de rua europeias ou prateleiras de supermercado.

computer vision Image Annotation AI development Crowdsourcing

ARTICLEDEV.to AI·hace 2d

Iowa Wants Your Driver's License. Nobody Will Say Where It Goes.

La nueva ley de verificación de edad de Iowa presenta importantes desafíos técnicos para los desarrolladores, exigiendo una "verificación de edad razonable" bajo amenaza de fuertes multas. Esto implica la implementación de soluciones complejas como OCR de documentos, comparación facial y una lógica sólida de retención de datos, convirtiendo las características de seguridad en requisitos de backend críticos.

biometrics privacy security computer vision

ARTICLE↑ trendingReddit r/MachineLearning·17/4/2026

Thoughts on vision-captchas [D]

El autor explora el potencial de los CAPTCHAs basados en visión (webcam + detección de gestos) que se ejecutan localmente en el navegador para la prevención de bots. Plantea la cuestión de la confianza y las preocupaciones de privacidad con respecto al uso de la cámara para este fin.

AI applications privacy security computer vision

ARTICLE↑ trendingReddit r/MachineLearning·27/4/2026

What do reviewers actually mean when they say the paper sound more like a technical report? [D]

El artículo de un autor fue rechazado de un taller por sonar más a informe técnico que a artículo de investigación, a pesar de seguir el formato habitual de visión por computadora. Busca la opinión de la comunidad para entender los errores comunes que conducen a tal evaluación.

academic publishing computer vision Peer review AI Research

RESEARCH↑ trendingReddit r/MachineLearning·5/5/2026

Struggling to reproduce paper results before improving them — stuck below reported accuracy [R]

Un estudiante de doctorado en IA/visión por computadora lucha por reproducir la precisión reportada en un artículo publicado, obteniendo consistentemente un ~73% frente al ~77% de la línea de base del artículo. A pesar de revisiones exhaustivas e intentos de contactar a los autores, el estudiante se enfrenta a una brecha de reproducibilidad que dificulta su investigación posterior.

research PhD student machine learning computer vision

ARTICLEDEV.to AI·20/4/2026

Building a Touchless AI Mouse Control in 2 hours with Python 🖱️✨

Este artículo presenta NUMBA_3, una herramienta de código abierto basada en Python que permite el control del ratón sin contacto mediante IA, utilizando una cámara web y gestos con las manos. Desarrollada rápidamente, emplea MediaPipe, OpenCV y Numba para movimientos fluidos del cursor, empaquetada con PyInstaller.

Open Source human-computer interaction machine learning computer vision

ARTICLEDEV.to AI·hace 3d

Face Recognition: From Traditional to Deep Learning Methods

Este contenido explora los métodos de reconocimiento facial, desde enfoques tradicionales hasta las últimas técnicas de aprendizaje profundo. Ofrece una visión integral sobre la evolución y las tecnologías empleadas en este campo de la inteligencia artificial.

deep learning Face Recognition computer vision AI Methods

NEWS↑ trendingReddit r/MachineLearning·20/4/2026

CVPR Broadening Participation Results. [D]

Un usuario en Reddit informó no haber recibido el correo electrónico con la decisión de la beca CVPR26 Broadening Participation, a pesar de que los presidentes de la conferencia confirmaron que todos los participantes fueron notificados. El usuario aún espera la comunicación de su decisión.

scholarship AI conference computer vision

ARTICLEDEV.to AI·hace 3d

Mom, Don't Wire That Money: The 6-Word Rule That Stops a $1M Deepfake Cold

Una reciente estafa deepfake donde un anciano perdió casi un millón de dólares a un Primer Ministro canadiense sintético destaca una ruptura crítica de la confianza biométrica. Esto indica que la verificación humana ya no es un método infalible debido a la sofisticación de la IA generativa.

biometrics deepfake security computer vision

RESEARCHDEV.to AI·18/4/2026

Density-aware Chamfer Distance as a Comprehensive Metric for Point CloudCompletion

Este contenido presenta la "Density-aware Chamfer Distance" como una nueva métrica integral para la evaluación de tareas de completado de nubes de puntos. Busca proporcionar una valoración más robusta y precisa de los modelos 3D completados.

3D reconstruction point cloud Metrics computer vision

RESEARCHDEV.to AI·hace 3d

Aligning where to see and what to tell: image caption with region-basedattention and scene factorization

Este trabajo presenta un método para la generación de subtítulos de imágenes, utilizando atención basada en regiones y factorización de escenas para mejorar la relevancia y precisión descriptiva. Su objetivo es alinear la percepción visual con la narración textual de manera más efectiva.

scene understanding deep learning computer vision attention mechanisms

RESEARCHDEV.to AI·19/4/2026

Self-Supervised Learning for Stereo Matching with Self-Improving Ability

Este trabajo explora el aprendizaje auto-supervisado para la correspondencia estéreo, centrándose en un sistema con capacidad de auto-mejora. La investigación busca mejorar la precisión y robustez de los algoritmos de visión por computadora en la estimación de profundidad.

Stereo Matching deep learning self-supervised learning computer vision