¿QUÉ VES?
EL ASISTENTE DE VISIÓN INTELIGENTE
La Inteligencia Artificial hoy parece que lo puede todo, pero lo que más sorprende es su poder para el analisis de imágenes.
LLaVA es un modelo multimodal que combina un codificador de visión y LLAMA3 para comprender imágenes y lenguaje de manera generalizada, logrando capacidades de chat impresionantes que imitan los espíritus del GPT-4 multimodal.
En este informe de Red-Handed te ensañamos como ejecutar el modelo en tu propia computadora haciendo uso de una placa de video RTX.