Qué hay que hacer con la IA generativa para que un juego salga bonito

Iniciado por Hollyhock, Diciembre 15, 2025, 12:06:27 AM

Tema anterior - Siguiente tema

0 Miembros y 6 Visitantes están viendo este tema.

Mensaje #15

sirdrak

#15
Como comentaba, vamos a modelo revolucionario nuevo por mes... Hace apenas una semana se publicó otro modelo opensource en local como el Ovi 1.1 que mencioné antes, pero esta vez 'con vitaminas'. Se llama LTX Video 2. Es decir, es un modelo para generar vídeo con audio, incluidos diálogos en cualquier idioma, pero esta vez de calidad, con las siguientes características:

- Es muy rápido generando los vídeos, el más rápido hasta el momento. Con el modelo 'destilado' (ya que ha salido en dos variantes, una más lenta pero con mayor calidad y otra muy rápida pero más sencilla) puedo hacer vídeos a 1280x720, a 24 fps y de una duración de 10 segundos en tan sólo un par de minutos.
- Los vídeos pueden ser mucho más largos... Con mi RTX 3090 los he llegado a hacer de 20 segundos a 1080p (1920x1088), algo impensable antes y menos a esa resolución. El único límite real es la cantidad de VRAM de la gráfica.
- Permite resoluciones nativas altas en equipos de usuario, 1080p en gráficas con 16 o 24 GB de VRAM antes era impensable (salvo que se generase a una resolución inferior y luego se rescalase el vídeo a una superior, pero siempre es mejor hacerlo de forma nativa)
- Desde salida permite continuar vídeos existentes (sean creados con IA o no) y mantener el audio original (voces incluídas), usar frame final (es decir, que no sólo puedes generar el vídeo a partir de una imagen de inicio sino que también le puedes dar la final para controlar hacia donde evoluciona la animación), que le des una pista de audio y cree el vídeo sincronizándolo con dicha pista de audio y haga la animación basada en el sonido, usar un vídeo que tú le des como 'vídeo de control' para controlar la animación, trasladando el movimiento de las personas del vídeo al nuevo vídeo, el estilo o la profundidad (lo que antes hacía el famosos ControlNET en las IAs para generar imágenes)
- El mismo modelo hace text 2 video (genera el vídeo desde cero sólo con el prompt, o con el prompt y una pista de audio) y también image 2 video (genera el vídeo además de con el prompt con una imagen de partida), que en otros modelos de vídeo tienes que usar dos modelos específicos diferentes
- Además, piensan actualizarlo a menudo, de hecho está prevista la versión 2.1 para dentro de un mes.

Como curiosidad, mencionar que parece que han entrenado mucho el modelo en las series de Cartoon Network y es perfectamente posible hacer vídeos de los personajes de dichas series incluso con las voces correctas no sólo en sus versiones inglesas sino incluso en español (yo he hecho memes y he gastado bromas con Bob Esponja, Hora de Aventuras y Steven Universe, es brutal, los clava perfectamente). Esto me ha venido genial porque gracias a eso he hecho una animación de Bob Esponja para felicitar a uno de mis sobrinos que cumple 8 años, estoy deseando que la vea porque seguro que le sorprende ver a los personajes de las series que ve felicitándole expresamente...

La forma más fácil de probarlo es usando Wan2GP a través de pinokio, que se instala todo en 1-click y tiene una interfaz muy amigable... Además en Wan2GP le han dado muy buen soporte y es donde mejor funciona ahora mismo.

Aquí podéis ver el primer meme que se me ocurrió como ejemplo:


Mensaje #16

sirdrak

#16
Bueno, pues comentar que los de LTX Video, como habían anunciado, hace ya casi un mes efectivamente sacaron una versión nueva de su modelo para generar vídeo con audio en local, la versión 2.3 en este caso, y la mejora es notable... Ahora el modelo es ligéramente más grande pero genera los vídeos más rápido, más largos incluso en resoluciones grandes, ha mejorado la calidad del sonido, la pronunciación de las voces (y su actuación) en los distintos idiomas, el modo imagen a vídeo es muchísimo más fiel ahora manteniendo la consistencia de personajes y tal... En mi caso he podido hacer sin problemas vídeos de hasta 20 segundos a 1280x736 (y porque no los he probado más largos), y de 15 segundos a 1920x1088. Yo creo que ya hemos llegado al punto en el que es factible hacer en casa películas y series usando únicamente herramientas opensource en local y conseguir un resultado bueno y creíble... Un flujo de trabajo para ello, por ejemplo para una serie de animación, podría ser el siguiente:

- Se realizan los diseños de los personajes a mano en papel hasta la fase de boceto.
- Los bocetos se pueden transformar en fotogramas finales usando modelos de edición IA, trabajo que hacen muy bien Qwen Image Edit o Flux 2 Klein.
- A partir de un fotograma de un personaje, usando esos mismos modelos de edición, se generan imágenes consistentes del mismo personaje realizando diferentes acciones y desde diferentes perspectivas. Esto se puede usar para generar un dataset de entrenamiento del personaje para entrenar un lora de cada personaje (por ejemplo) para usarlos bien para generar los fotogramas clave de las animaciones, bien para generar secuencias de vídeo directamente con ellos (si lo entrenamos con un modelo de video en lugar de uno de imágenes). También se pueden hacer los fotogramas clave de las animaciones sin necesidad de entrenar loras.
- Con Qwen Image edit y un lora que salió que permite generar diferentes perspectivas de cámara consistentes de una imagen previa (es decir, te permite generar vistas desde ángulos de cámara diferentes al original de los que tienes todo el control, pudiendo indicarle la altura de la cámara, su posicionamiento y el ángulo) se pueden generar imágenes consistentes de los escenarios en los que luego integrar los personajes para generar los fotogramas clave.
- Para las voces, y que estas sean consistentes, hay dos posibles caminos:
1) Se usa un modelo para generar/clonar voces y generar los archivos de audio con los diálogos, ya que LTX Video permite animar los vídeos sincronizados con un archivo de audio que le suministres. El ideal para esto, y el mejor hasta ahora, sería Vibevoice 7B, que además permite generar simultáneamente conversaciones de hasta 4 personajes y sólo necesita una muestra de voz de entre 3 y 30 segundos para clonar la voz, y también permite crear voces originales.
2) Usar directamente LTX Video 2.3 para clonar las voces. Esto es posible gracias a un reciente workflow que permite generar el vídeo clonando el audio con sólo una muestra de 3 segundos. Tiene la ventaja de ser más cómodo y además tener directamente el control en el prompt de controlar las emociones con las que se expresa cada diálogo.
- Por último, para crear los efectos de sonido sincronizados con las secuencias de vídeo ya creadas, se puede usar MMaudio o Hunyuan Video Foley, y para crear la música, el reciente modelo ACEstep 1.5 (del que esta semana ha salido una versión más capaz, la XL), que es un modelo local opensource para generar música al estilo de Suno y que tiene una calidad muy cercana a la de este (pero con la posibilidad de entrenar loras de audio para él, con lo que las posibilidades son infinitas).

LTX Video 2.3 de serie soporta las mismas características que su versión anterior, que como comenté permiten un gran control sobre las animaciones, como indicarle los fotogramas de inicio y final de la animación (y pudiendo meterle fotogramas intermedios también), sincronizar un vídeo con el audio, o usar un vídeo de control a modo de 'ControlNET' para clonar los movimientos de personajes, profundidad de las escenas, etc...

Como muestra, comentar que ya hay un usuario de Reddit que está intentando hacer su propia serie de anime y el primer capítulo publicado, que dura algo más de 9 minutos, es bastante impresionante, todo realizado principalmente con LTX Video y de forma parecida a lo comentado antes. Lo podéis ver aquí:


Decir que lo está haciendo sobre el guión de una novela escrita por él mismo, y que para el estilo artístico entrenó un lora a partir de sus propias ilustraciones (es decir que usa el suyo propio).

Respecto a esto último, decir que la semana pasada probé a entrenar yo mismo un lora de estilo de anime para LTX Video, reaprovechando un dataset de entrenamiento que tenía de entrenar dicho estilo para un modelo de imagen (Z-image Turbo), a modo de prueba y el resultado me ha impresionado mucho. En modelos de vídeo anteriores, concretamente en el popular Wan 2.2, el problema que había era que dicho modelo solía interpretar la animación de dichos estilos como si fuera un 3D con cel-shading, como si fueran gráficos de un videojugo de Pc o consolas. Sin embargo, con LTX Video, entiende perfectamente cómo es la animación de anime 2D tradicional a 23'973 fps y la reproduce a la perfección, con gran nivel de detalle gracias a poder usar resoluciones altas como comenté antes. A la hora de entrenar LTX Video, se puede entrenar con imágenes, con secuencias de vídeo (vital si quieres reproducir voces de un personaje o animaciones particulares que el modelo original no conozca) o una combinación de ambas. Evidentemente entrenar sólo con imágenes consume menos recursos y tiempo que hacerlo con vídeo, pero no me esperaba un resultado tan bueno. Decir que he usado un set de 421 imágenes todas generadas con IA con el mismo estilo creado combinando varios modelos de estilo diferentes, dando lugar, digamos, a un estilo 'más original' por decirlo de alguna forma. Os dejo como muestra un vídeo recopilatorio con varios de los vídeos que he generado con él a 720p en varios idiomas (Español, Inglés y Japonés):


Mencionar que todos estos vídeos han sido generados 'a la primera' y los he puesto sin modificar ni editar, en modo Text 2 Video (es decir, el vídeo se genera sin una imagen de partida, sólo usando el prompt y el lora de estilo). Nada mal, la verdad...

Mensaje #17

rapatuan

Qué bueno, muchas gracias por toda esta información!!

En qué grupo de reddit se publicó esa serie? Por tu parte frecuentas alguno o tienes algún canal donde publicas estas cosas?