Hoy os voy a comentar un poco las novedades que hay en cuanto a generación de vídeos con IA pero en local y opensource, en contraposición a los servicios online por suscripción como Kling, Hailuo Minimax o Dream machine de Luma... Lo cierto es que en los últimos meses se está viendo un auténtico 'boom' con avances significativos similares a los que acontecieron en la generación de imágenes cuando apareció Stable Diffusion 1.5 en 2022, sobre todo con la aparición de cierto modelo del que os hablaré luego.
Al principio la adopción de estos modelos se ha hecho más complicada por las ya consabidas limitaciones técnicas referentes a la cantidad de VRAM cada vez más alta que piden los nuevos modelos para funcionar (con la honrosa excepción de LTX video), a la que no ayuda la tradicional racanería de nVidia a la hora de aumentar la cantidad de VRAM en las tarjetas gráficas de usuario. La salida de la nueva generación de gráficas RTX 50xx no ha hecho mas que empeorar las cosas, ya que nVidia, para seguir teniendo ventaja en el mercado profesional de IA y obligar a que si quieres más VRAM tengas que ir a una gráfica de este tipo, al contrario de lo que sería lo lógico, ha seguido manteniendo los 16 GB de VRAM como máximo (al menos por ahora, no sabemos si esto cambiará con futuras variantes Super de las mismas) en las gráficas de gama media alta como las 5070 y las 5080 en lugar de aumentar su VRAM a 20 o 24 GB, ya que amunta la de la 5090 a 32 GB. Afortunadamente, ya que todos estos modelos tienen una arquitectura moderna basada en 'transformers', como los LLM, ha sido posible aplicar el mismo tipo de optimizaciones que a estos para hacer funcionar los modelos en equipos más humildes con menos VRAM.
A día de hoy han aparecido los siguientes modelos:
- Mochi: El primer modelo de vídeo de alta calidad con resultados cercanos a lo que ofrecen los servicios de suscripción de pago. La pega que ha impedido su popularización es que pide 64 GB de VRAM para funcionar y que no tiene modo 'image2video' (el que permite generar una animación a partir de una imagen suministrada)
- CogvideoX: Este es el primer modelo con unos requisitos altos pero aceptables que se empezó a popularizar, también de los primeros en aparecer, y que sí tiene los tres modos (video2video, txt2video e img2video)
- LTX video: Lo de este modelo supuso el primer 'Boom' y que hizo que el tema empezase a despegar. Sus puntos fuertes es que es un modelo muy ligero (más o menos como SD XL) que funciona en una gran cantidad de equipos y que es rapidísimo generando los vídeos, hasta el punto de que con gráficas potentes (una 4090 por ejemplo) la generación del vídeo se acerca al tiempo que tarda en reproducirse el vídeo. Además tiene los tres modos antes comentados, y habría sido el más popular de no ser por la llegada del último contendiente. Las pegas son que los vídeos que genera no son de tan buena calidad como los de CogvideoX, por ejemplo, y que para que de buenos resultados hay que escribir prompts muy largos y detallados, hasta el punto de que se recomienda generarlos con un LLM. Tampoco se le da bien animar cosas que no sean fotorrealistas, como dibujos animados.
- Hunyuan video: Tenemos un ganador, señores!! La llegada de este modelo, por varias cosas que ahora comentaré, ha sido una auténtica revolución similar a la que supuso la llegada de Stable Diffusion 1.5. Aunque pide bastante VRAM para funcionar, se puede utilizar incluso con sólo 8 GB de VRAM usando algunas de sus versiones pequeñas en GGUF. Su versión del modo img2video no ha sido publicada aún pero sus desarrolladores dicen que la publicarán en breve. Sin embargo, lo que le ha hecho destacar son los siguientes puntos:
* Su calidad es la mayor de todos, cercana a la de los servicios de suscripción
* Es muy fácil entrenar LoRas para él, de hecho igual de fácil que entrenarlos para un modelo de generación de imágenes, pudiendo usar en el entrenamiento imágenes o clips de vídeo. Esto implica poder entrenar personas, personajes, animaciones de todo tipo, estilos artísticos, etc... Algo que no ofrecen ni en sueños las IAs de suscripción de pago.
* Es el único modelo que no tiene censura, siendo capaz de mostrar desnudos integrales tanto masculinos como femeninos, representar correctamente los genitales y hasta entender conceptos sexuales, por lo que, gracias a los LoRas, es capaz de generar todo tipo de porno muy realista (y ya se sabe que el sexo es una gran fuerza que hace avanzar curiosamente la tecnología, como está pasando aquí). También conoce bastante bien la anatomía y las manos suelen salir bien.
* Es el mejor modelo que he visto representando anime y series de animación. Lo que he podido ver es bastante sorprendente (pondré algunos ejemplos luego).
Por estas razones, este último ha despertado un enorme entusiasmo en la comunidad y ya hay LoRas de todo tipo. En realidad ya lleva unos meses disponible, pero por unas cosas y otras no lo pude probar hasta esta semana y la verdad es que me han asombrado sus resultados... Ya estoy deseando entrenar LoRas para él y ver qué consigo...
Os voy a dejar con unos ejemplos de animación usando un LoRa con el estilo artístico de Katsuhiro Otomo (el creador de Akira), que lo que más me sorprende es que ha sido entrenado sólo con imágenes y no con clips de video:




.webp)
.webp)
.webp)




















Me parece impresionante teniendo en cuenta que son imágenes 100% generadas por Hunyuan sin partir de una imagen previa...