Stable Diffusion: Tutoriales y cosas interesantes

« **Respuesta #45 en:** Octubre 06, 2023, 04:05:42 am »

Cita de: Remiel en Octubre 05, 2023, 11:43:45 pm

He hecho algunas pruebas rápidas y al menos por ahora creo que tengas algo de experiencia Stable Diffusion por ahora da mejores resultados o al menos a mi, será que estoy más acostumbrado a sus prompts, pero si que es cierto que es espectacular lo bien que DALL-E 3 hace las cosas que se le atragantan a Stable diffusion.

Si, después de muchas pruebas veo que sus puntos débiles son, por ejemplo, el fotorrealismo, que lo hace mucho mejor Stable Diffusion a pesar de no sacar las manos tan perfectas ni de entender los prompts tan bien... Y luego está el tema de la censura... Me salen muchas imágenes bloqueadas incluso con cosas inocentes, y además parece que la van variando, porque por ejemplo, si te fijas, el día que hice las pruebas que mostré antes pude hacer imágenes con Michael Jackson, y sin embargo, desde ayer ya no se puede (te sale la advertencia de que el prompt incumple las condiciones del servicio y no lo procesa siquiera). Esto me viene a confirmar que lo que es el modelo en sí, no tiene realmente censura de ningún tipo, sino que es el servicio online el que se encarga de aplicarla (y de esta manera la pueden variar a lo largo del tiempo si lo ven necesario, como el caso mencionado). Una lástima, porque si un modelo como ese cayese en manos de la comunidad opensource, el potencial que se podría sacar sería enorme...

rapatuan · « **Respuesta #46 en:** Diciembre 09, 2023, 04:07:46 pm »

Bueno compañeros... Este último mes estuve bastante ocupado y no pude poner nada sobre las novedades en IA, pero han salido un verdadero aluvión de ellas y casi cada semana hay algo nuevo. Vamos a ver si os pongo al día:

Parece que, aunque están en un estadio más primitivo que las IAs generativas de imágenes, acaba de estallar el boom de las IAs generadoras de vídeos, bien a partir de un prompt de texto, de una imagen inicial o incluso de un vídeo. En la situación actual de este cambiante panorama, los principales actores implicados que tenemos son los siguientes:

* RunwayML Gen-2: Es la pionera de este tipo de IAs... Tiene una prueba gratuíta pero funciona mediante servicios de suscripción (y bastante caros además). Permite la generación de vídeos directamente a partir te texto, o bien a partir de una imagen. Tienen herramientas que ya se están empezando a incluir en sus competidoras más avanzadas, como controles para el movimiento de cámara y un pincel que permite indicar expresamente qué partes de la imagen se van a animar y cuales no. La pega que tiene es que en los vídeos que parten de una imagen es el que peor consistencia tiene, con lo que las caras y los objetos se deforman mucho.

*Pika, de Pika Labs: El primer competidor serio del anterior y que se caracteriza por funcionar desde su canal oficial de Discord, de forma similar a como funciona Midjourney. Sin embargo, su uso es gratuíto, y la calidad de los vídeos (sobre todo de los generados a poartir de una imagen) es mucho mejor que la de Runway, manteniendo bastante bien la consistencia y animando muy bien personajes y seres vivos. Su uso es totalmente gratuíto y da buen resultado. Actualmente acaban de anunciar la salida de su versión avanzada, Pika 1.0, que funcionará a partir de su web oficial en lugar de por Discord y que tiene novedades realmente impresionantes (mejor que veáis el vídeo oficial que habla por sí sólo). Ya está disponible pero se accede de momento por lista de espera y aún hay pocas personas que lo hayan probado, pero parece que cumple lo que promete. Como muestra os voy a enseñar algunos gifs que he creado a partir de imágenes que yo mismo he generado, que aunque no se ven tan bien como el vídeo original (por el paso a 256 colores y tal) pueden dar una buena idea de lo interesante que es el tema. Primero pondré el vídeo oficial de Pika 1.0 y luego algunos de los gifs:

Creados por mí:

Y la gente ha creado vídeos tan impresionantes como el siguiente (creado con la versión 'normal' de Pika, no con la nueva 1.0):

* Stable Video Diffusion: Sí compañeros... Stability.ai, la misma empresa responsable de Stable Diffusion, ha presentado también su IA opensource generadora de vídeos... Los dos primeros modelos que ha presentado, en principio tienen la limitación de que no puedes guiar la animación mediante un prompt como en las anteriores (por ahora) peeeero tiene las ventajas de poder instalarse en local, estar los modelos a disposición de la comunidad (lo que implica que podrán ser modificados, reentrenados y mejorados por los usuarios), y de que los vídeos conseguidos muchas veces tienen mayor nitidez y calidad que los de las dos anteriores. Por ahora sólo se pueden usar con ComfyUI, pero funcionan muy bien incuso con gráficas con sólo 8 GB de VRAM. Los dos modelos presentados, SVD y SVD_XT, en principio sólo se diferencian en que el primero está entrenado para generar clips de un máximo de 14 fps, mientras que el segundo los puede generar hasta de 25 fps. Sin embargo, en mis pruebas parece que el mejores vídeos genera es el segundo. La clave para conseguir buenos resultados parece estar en partir de imágenes en formato 16:9 (o 9:16) y sacar los vídeos a una resolución de 1024x576, que parece ser que es la de los vídeos usados para entrenar los modelos. Además de la resolución, el número de fps y el número total de fotogramas, se puede controlar la cantidad de movimiento de la escena y hasta qué punto vamos a permitir que la IA pueda deformar la imagen original de partida.

Os voy a mostrar algunos de los gifs que he hecho con esta IA:

Bastante impresionante el resultado como se puede ver... Y sí, una de las animaciones es de un homenaje que hice a la mítica portada del primer Castlevania. Además los vídeos luego se pueden mejorar pasándolos por Topaz Video AI para reescalarlos a 1080p e incluso 4K e incluso a 60 fps...

Pasamos ahora a novedades relativas a las IAs generativas de imágenes. Quizás lo mas interesante sea la aparición de dos nuevas IAs de este tipo que tienen la particularidad de ser Opensource, como Stable Diffusion, con lo cual ahora tendremos más opciones libres entre las que escoger. Hay que decir, después de probarlas, que no están a la altura de SD XL (que es la versión de SD con la que se autocomparan), pero tienen potencial puesto que están a disposición de la comunidad... Concretamente se trata de Pixart-alpha y de Playground V2, siendo la mejor de las dos la segunda. Además, en el caso de Playground, al haber sido entrenada de forma similar a SD XL, se puede utilizar en Automatic1111 con sólo descargar el modelo, aunque no es compatible con los LoRA ni las extensiones por ahora.

Además de esto, otra novedad bastante interesante es la aparición de un nuevo tipo de modelos, un LoRA y un sampler, los llamados LCM (Latent Consistency Model), que permiten generar las imágenes a una velocidad extrema, usando menos de 4 pasos para generar la imagen. El asunto es tan importante que incluso Stability.ai ha sacado una versión oficial LCM de SD XL y de SD 2.1, llamados SD XL Turbo y SD Turbo respectivamente. La contrapartida es que se pierde n poco de calidad en las imágenes generadas. La consecuencia de esto ha sido la aparición de aplicaciones que permiten que en un lado de la pantalla se pueda dibujar mientras en el otro, en tiempo real y de forma dinámica, se van formando las imágenes de acuerdo a tu dibujo conforme progresa este... Es bastante impresionante. El primer paso lo dió una empresa española con su web Krea.ai, a la que podéis acceder aquí: https://www.krea.ai/

Además, el famoso programa de retoque y dibujo Krita, ha incorporado un plug-in que permite hacer justo eso mismo usando Stable Diffusion y los modelos LCM. Os dejo un vídeo donde podéis ver un ejemplo de lo comentado:

A grandes rasgos y de forma un tanto resumida, estas son las novedades más importantes... No obstante, hay en preparación una serie de cosas que pueden ser bastante impactantes también cuando estén disponibles, que sería las siguientes:

- Una extensión para Automatic1111 que de forma automática corrige las manos de los personajes durante el proceso de generación de la imagen.
- Un nuevo procedimiento que puede hacer que cualquier modelo de Stable Diffusion entienda los prompts igual de bien o mejor que Dall-E 3, la mejor IA generativa en este aspecto.
- Una extensión para animar personas y personajes sin inconsistencias a partir tan sólo de una imagen inicial y de un 'esqueleto' de Open Pose. Podéis ver un ejemplo del proceso en el siguiente video:

« **Respuesta #47 en:** Diciembre 11, 2023, 01:07:41 am »

Wow!

Es una pasada como avanza esto! Me ha flipado todo pero el última vídeo ... OMG brutal!

Vince · « **Respuesta #48 en:** Diciembre 12, 2023, 12:14:03 pm »

Ya hay youtubers que tienen acceso a Pika 1.0 y las posibilidades que tiene son brutales... Yo estoy en la lista de espera, por lo que cualquier día de estos la podré probar también. En este vídeo podéis ver la opinión de una de las personas que la han estado probando y viendo como se utiliza:

« **Respuesta #49 en:** Enero 03, 2024, 12:46:00 pm »

Hola, @sirdrak podrías comentar algo de la versión 6 de Midjourney? Concretamente me tiene intrigado el comando /tune. Aunque aún no lo he utilizado, me da la impresión de que es un intento de respuesta a estas IAs tipo Stable Diffusion para poder "afinar" o crear tu propio estilo.

Enviado desde mi CPH2343 mediante Tapatalk

« **Respuesta #50 en:** Enero 11, 2024, 12:49:47 pm »

Cita de: Fran Scythe en Enero 03, 2024, 12:46:00 pm

Hola, @sirdrak podrías comentar algo de la versión 6 de Midjourney? Concretamente me tiene intrigado el comando /tune. Aunque aún no lo he utilizado, me da la impresión de que es un intento de respuesta a estas IAs tipo Stable Diffusion para poder "afinar" o crear tu propio estilo.

Enviado desde mi CPH2343 mediante Tapatalk

Lo cierto es que no uso Midjourney ni ninguna otra de pago, prefiero el Opensource... Midjourney sigue siendo la más avanzada a nivel visual y en fotorrealismo, pero no deja de ser un modelo especializado entrenado con muchos recursos funcionando sobre Stable Diffusion... En estos últimos tiempos las IAs privativas están intentando incorporar algunas de las opciones de Stable Diffusion, como por ejemplo hizo Firefly de Adobe, al incorporar modos de edición equivalentes al img2img y al inpainting de SD. Sin embargo, en el tema de poder entrenar tus propios modelos no están ni van a estar nunca a la altura de las IAs Opensource, por no mencionar que salen novedades en formas de extensiones (en el caso de Automatic1111), nodos personalizados y workflows (en el caso de ComfyUI) de forma contínua, por lo que siempre van a tener más funcionalidades, más avanzadas y con mayor control que las otras de pago. En serio, no merece la pena pagar una suscripción... Con los modelos adecuados y currándotelo bién puedes conseguir resultados similares e incluso superiores a los de Midjourney o directamente hacer cosas imposibles en él...

« **Respuesta #51 en:** Enero 13, 2024, 11:58:10 pm »

No, si leyéndote a lo largo del hilo me doy cuenta de todo esto que comentas, mi problema es que soy manco y no llego a ese nivel de conocimiento, ese por eso que me tengo q quedar en Mj. Aparte de que el equipo mínimo necesario me da la impresión de que es más potente del que tengo para acceder a Mj.

Enviado desde mi CPH2343 mediante Tapatalk

Colaboradores

Stable Diffusion: Tutoriales y cosas interesantes

sirdrak

Re:Stable Diffusion: Tutoriales y cosas interesantes

sirdrak

Re:Stable Diffusion: Tutoriales y cosas interesantes

LordPep

Re:Stable Diffusion: Tutoriales y cosas interesantes

sirdrak

Re:Stable Diffusion: Tutoriales y cosas interesantes

Fran Scythe

Re:Stable Diffusion: Tutoriales y cosas interesantes

sirdrak

Re:Stable Diffusion: Tutoriales y cosas interesantes

Fran Scythe

Re:Stable Diffusion: Tutoriales y cosas interesantes