← heapsort-ai

computer vision

125 items

RESEARCH↑ trendingReddit r/MachineLearning·18/4/2026

We’re proud to open-source LIDARLearn [R] [D] [P]

Es una biblioteca unificada de PyTorch para aprendizaje profundo de nubes de puntos 3D, que soporta 56 configuraciones listas para usar y validación cruzada integrada. LIDARLearn también automatiza la generación de PDF LaTeX listos para publicación después del entrenamiento, siendo ideal para investigadores en visión artificial 3D y teledetección.

We’re proud to open-source LIDARLearn [R] [D] [P]
44
RESEARCH↑ trendingReddit r/LocalLLaMA·27/4/2026

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.

TRELLIS.2 de Microsoft es un modelo de código abierto de 4B parámetros para la generación de 3D de alta fidelidad a partir de imágenes, produciendo activos PBR de hasta 1536³ con VAES 3D nativos y una estructura O-Voxel. Ofrece una solución eficiente y escalable para la creación de activos 3D detallados con materiales PBR completos.

Microsoft Presents "TRELLIS.2": An Open-Source, 4b-Parameter, Image-To-3D Model Producing Up To 1536³ PBR Textured Assets, Built On Native 3D VAES With 16× Spatial Compression, Delivering Efficient, Scalable, High-Fidelity Asset Generation.
42
RESEARCH↑ trendingReddit r/MachineLearning·7/5/2026

Visual Perceptual to Conceptual First-Order Rule Learning Networks [R]

El contenido discute investigaciones recientes en el campo de la Programación Lógica Inductiva (ILP) que exploran la inducción de predicados en conjuntos de datos de imágenes. El autor cuestiona la capacidad del ILP para competir con Deep Learning/Redes Neuronales en visión por computadora, a pesar de las sólidas afirmaciones de rendimiento.

42
RESEARCH↑ trendingReddit r/MachineLearning·hace 27d

Elastic Attention Cores for Scalable Vision Transformers [R]

Este artículo presenta los Núcleos de Atención Elásticos como un nuevo bloque de construcción para Vision Transformers escalables, abordando el alto costo de la autoatención densa. El enfoque utiliza una estructura de atención escasa por bloques de núcleo-periferia y dropout anidado para ajustes elásticos del costo de inferencia, logrando una precisión competitiva.

Elastic Attention Cores for Scalable Vision Transformers [R]
42
ARTICLE↑ trendingReddit r/LocalLLaMA·21/4/2026

Gemma 4 Vision

El presupuesto de visión predeterminado de Gemma 4 es a menudo demasiado bajo para un reconocimiento de detalles eficaz, lo que provoca un bajo rendimiento en OCR. Los usuarios pueden mejorar significativamente su visión configurando los parámetros de `llama.cpp` como `--image-min-tokens` y `--image-max-tokens` a valores más altos, como 560 y 2240.

41
ARTICLE↑ trendingReddit r/MachineLearning·9/4/2026

Detecting mirrored selfie images: OCR the best way? [D]

O usuário busca um método eficaz para detectar texto invertido em selfies antes de passá-los para modelos de Visão-Linguagem (VLM) ou extratores de embedding facial, que são insensíveis a essa inversão devido ao treinamento com dados aumentados. Sua ideia é usar OCR (EasyOCR) para comparar a pontuação de leitura de texto normal versus espelhado, questionando se esta é a melhor abordagem ou se existe uma solução de modelo menor e mais inteligente.

40
ARTICLE↑ trendingReddit r/MachineLearning·10/4/2026

What image/video training data is hardest to find right now? [R]

Um usuário está desenvolvendo uma plataforma de coleta de fotos crowdsourced, utilizando YOLO/CLIP para rotulagem automática e enriquecimento de metadados. Ele busca sugestões sobre quais tipos de dados de imagem são mais difíceis de encontrar e mais desejados para o treinamento de modelos de IA, citando exemplos como cenas de rua europeias ou prateleiras de supermercado.

40
ARTICLEDEV.to AI·hace 2d

Iowa Wants Your Driver's License. Nobody Will Say Where It Goes.

La nueva ley de verificación de edad de Iowa presenta importantes desafíos técnicos para los desarrolladores, exigiendo una "verificación de edad razonable" bajo amenaza de fuertes multas. Esto implica la implementación de soluciones complejas como OCR de documentos, comparación facial y una lógica sólida de retención de datos, convirtiendo las características de seguridad en requisitos de backend críticos.

39
ARTICLE↑ trendingReddit r/MachineLearning·17/4/2026

Thoughts on vision-captchas [D]

El autor explora el potencial de los CAPTCHAs basados en visión (webcam + detección de gestos) que se ejecutan localmente en el navegador para la prevención de bots. Plantea la cuestión de la confianza y las preocupaciones de privacidad con respecto al uso de la cámara para este fin.

39
RESEARCH↑ trendingReddit r/MachineLearning·5/5/2026

Struggling to reproduce paper results before improving them — stuck below reported accuracy [R]

Un estudiante de doctorado en IA/visión por computadora lucha por reproducir la precisión reportada en un artículo publicado, obteniendo consistentemente un ~73% frente al ~77% de la línea de base del artículo. A pesar de revisiones exhaustivas e intentos de contactar a los autores, el estudiante se enfrenta a una brecha de reproducibilidad que dificulta su investigación posterior.

36
NEWS↑ trendingReddit r/MachineLearning·20/4/2026

CVPR Broadening Participation Results. [D]

Un usuario en Reddit informó no haber recibido el correo electrónico con la decisión de la beca CVPR26 Broadening Participation, a pesar de que los presidentes de la conferencia confirmaron que todos los participantes fueron notificados. El usuario aún espera la comunicación de su decisión.

32