Vision-Language Models

25 items

RESEARCHarXiv CS.CL·hace 27d

Bridging the Missing-Modality Gap: Improving Text-Only Calibration of Vision Language Models

Los modelos de lenguaje visual (VLMs) sufren caídas de precisión y una severa descalibración al operar con entradas de solo texto, incluso con información semántica preservada. Se propone el Latent Imagination Module (LIM) para predecir incrustaciones latentes imaginadas a partir de texto, mejorando la precisión y reduciendo el error de calibración en escenarios de imágenes faltantes.

Miscalibration Vision-Language Models Latent Imagination Text-Only Inputs

RESEARCHarXiv CS.AI·hace 28d

Do Vision-Language-Models show human-like logical problem-solving capability in point and click puzzle games?

Este artículo presenta VLATIM, un nuevo benchmark para evaluar la capacidad de resolución de problemas lógicos similares a los humanos en modelos de visión-lenguaje (VLMs) en juegos de rompecabezas de física "point-and-click". Revela una disparidad significativa entre el razonamiento y la ejecución en grandes modelos propietarios al resolver el juego The Incredible Machine 2.

puzzle games Vision-Language Models interactive AI Benchmarking

RESEARCHarXiv CS.LG·hace 15d

CAFD: Concept-Aware DNN Fault Detection using VLMs

CAFD es un nuevo enfoque basado en el aprendizaje para la detección de fallas en Redes Neuronales Profundas (DNN), que integra múltiples fuentes de información para un rendimiento y eficiencia superiores. Utiliza señales basadas en el modelo, características basadas en la distancia y una novedosa relación de fallos conceptuales (CFR) derivada de los Modelos de Visión-Lenguaje (VLMs).

Fault Detection Vision-Language Models machine learning AI reliability

RESEARCHarXiv CS.AI·hace 15d

In Search of the Ingredients of Open-Endedness: Replicating Picbreeder with Large Vision-Language Models

Esta investigación explora la capacidad de descubrimiento abierto de la IA en la producción creativa, replicando Picbreeder con modelos de visión-lenguaje. El estudio observa diferencias cualitativas claras entre los resultados generados por la IA y los históricos de referencia humana, intentando caracterizarlos.

Open-Ended Learning Vision-Language Models Evolutionary AI AI Research

NEWSTogether AI Blog·18/3/2026

Together AI expands fine-tuning service with tool calling, reasoning, and vision support

Together AI ha ampliado su servicio de fine-tuning con soporte nativo para llamadas a herramientas, razonamiento y modelos de visión-lenguaje. Las mejoras también incluyen el entrenamiento de modelos de más de 100 mil millones de parámetros, un rendimiento hasta 6 veces mayor y estimaciones de costos y ETA para los trabajos.

Vision-Language Models tool-calling Reasoning Together AI