Stable Diffusion: Tutoriales y cosas interesantes

sirdrak · Agosto 07, 2024, 11:31:11 PM

Cita de: Manchi en Agosto 07, 2024, 10:38:30 PM
Ya te digo, la del tío durmiendo y las de las tres chicas enseñando que la IA ya sabe hace manos me han dejao to loco

Totalmente... He estado haciendo pruebas con imágenes 'cotidianas' y los resultados son flipantes, cuelan totalmente por fotos reales... He probado a hacer imágenes como si fueran de una cámara de vigilancia chunga en plena noche, y fotos cotidianas de gente caminando por la calle y es brutal... Y la comida... Y además es capaz de hacer 'screenshots' de videojuegos (sobre todo modernos), ya que parece que conoce bastantes. Voy a poner aquí ejemplos variados 'de mi cosecha':

Para las capturas de videojuegos lo único que puse fué 'A 'nombre del juego' screenshot', pero si le escribes un prompt muy detallado puede hacer imágenes que parezcan el juego real. También genera capturas de juegos ficticios igual de bien. Además, se le puede escribir en Español y se le pueden escribir prompts muy muy largos.

sirdrak · Agosto 13, 2024, 01:34:18 PM

Bueno pues el tema de Flux está que arde... La comunidad se ha volcado por completo con él y ya están saliendo avances y cosas interesantes... Vamos a comentar algunas de ellas:

- Como sabéis, Flux, al ser tan grande, de inicio para ser usado al 100% en fp16 pedía una gráfica con 24 GB de VRAM (es decir una RTX 3090 o una RTX 4090). Después salieron versiones en fp8, que permitían ejecutar los modelos en equipos con gráficas con 12 GB de VRAM con una pérdida de calidad mínima. Pues bién, resulta que Illyasviel, nada menos que el creador de ControlNET, de Fooocus y de Forge, tras estar durante 7 días picando código 14 horas diarias, ha dado un paso más en la optimización de modelos para generación de imágenes aplicando técnicas de optimización que hasta ahora se usaban exclusivamente en LLMs, de forma que no sólo ha dado soporte a Flux en Forge, sino que ha hecho posible ejecutarlo en másquinas con 6/8 GB de VRAM e incluso menos, tanto la variante Dev como la variante Schnell. Para ello ha sacado una versión optimizada BNB FN4 de ambos modelos con muy buenos resultados y siendo incluso más rápidas que usando ComfyUI, lo que supone una proeza.

- A pesar de la dificultad que en principio parecía suponer el gran tamaño de Flux a la hora de entrenarlo para crear LoRas o nuevos Checkpoints (que parecían requerir ya de gráficas profesionales para entrenar), finalmente están empezando a aparecer LoRas y técnicas para entrenarlos con 24 GB de VRAM. Ya hay LoRas para conseguir más realismo en fotos, otro para generar más imágenes de tipo 'no-profesional', etc...

Lotario · Agosto 13, 2024, 05:29:59 PM

Me encantaría entrenar a una IA con mapas o tableros modulares, por ejemplo los del zombicide, para que genere tableros de ese estilo. A ver cuándo...

sirdrak · Agosto 14, 2024, 12:56:38 AM

Cita de: Lotario en Agosto 13, 2024, 05:29:59 PM
Me encantaría entrenar a una IA con mapas o tableros modulares, por ejemplo los del zombicide, para que genere tableros de ese estilo. A ver cuándo...

Por lo visto, según leí en reddit al poco de salir Flux, la versión Schnell es muy buena creando mapas con vista cenital para juegos de rol/tablero y tal... Y en versiones anteriores de Stable Diffusion había LoRas para hacer mapas de ese estilo también.

Ejemplos de mapas generados por Flux Schnell:

LordPep · Agosto 14, 2024, 02:59:03 PM

Brutalísimo eso de los mapas, bueno eso y todo. Una pasada lo que se consigue mejorar en cada avance!

Gracias por copartirlo compañero @sirdrak !

Lotario · Agosto 14, 2024, 04:54:22 PM

Cita de: sirdrak en Agosto 14, 2024, 12:56:38 AM
Por lo visto, según leí en reddit al poco de salir Flux, la versión Schnell es muy buena creando mapas con vista cenital para juegos de rol/tablero y tal... Y en versiones anteriores de Stable Diffusion había LoRas para hacer mapas de ese estilo también.

Brutales, en nada podré hacerme mis propios tableros para una campaña de Alien. Qué ganas!!

tylerdurden8 · Agosto 15, 2024, 12:33:21 AM

Cita de: Manchi en Agosto 07, 2024, 10:38:30 PM
Ya te digo, la del tío durmiendo y las de las tres chicas enseñando que la IA ya sabe hace manos me han dejao to loco

Totalmente

Cita de: Ganix en Agosto 07, 2024, 10:57:47 PM
Y que sabrás tu de fotografía!
Mejor deja a los fotógrafos profesionales que opinen. Oh wait!

La de las manos, me ha llamado la atención por que la falange distal (he tendió que mirar como se llamaba), está más rosada que las demás. Me he mirado las manos, y efectivamente las mías son algo más rosadas que las otras. No tanto como en la foto, pero es así.
Que miedito me da esto, si se hace mal uso de ello.

Jajajajjajajajaj

@sirdrak de la última serie que has puesto, la primera imagen de todas, la del tranvía es de locos

sirdrak · Agosto 15, 2024, 12:47:46 PM

Cita de: tylerdurden8 en Agosto 15, 2024, 12:33:21 AM
Totalmente

Jajajajjajajajaj

@sirdrak de la última serie que has puesto, la primera imagen de todas, la del tranvía es de locos

Sí, en las fotografías cotidianas es donde más sorprende por su realismo... He estado haciendo más y algunas son brutales... Una pequeña muestra (y con el modelo Schnell, que es peor en fotorrealismo que la versión Dev):

Ojo a los reflejos en el agua de la imagen... Es una de las cosas donde fallaban a menudo las IAs anteriores a esta. Y en la siguiente, el efecto de refracción en la parte del cuerpo de la chica sumergida en el mar es impresionante también:

Otra cosa que hice, a modo de diversión, fue crear fotogramas de una peli ficticia de 'Muerte en el Nilo' de Agatha Christie:

También me entretuve en hacer un meme con Kratos que luego convertí en un vídeo/gif animado para usarlo en la aplicación de mensajería del avioncito de papel y sitios similares, animando la imagen con Dream Machine de Luma Labs, una de las IAs de moda para crear vídeos de ahora:

El amigo Kratos bebiendo café mientras ojea el PlayViking

Y por cierto, este Flux si que tiene bien aprendida la anatomía y hace unas chavalas de esas que quitan el hipo xD Por ejemplo:

O esta 'Evil Peach', en una realidad paralela en la que ha aceptado su lado oscuro:

Y en otro orden de cosas, está esto evolucionando a hipervelocidad... Hoy mismo me he levantado con la novedad de que han conseguido aplicar técnicas GGUF de cuantización que se usan en los LLM para reducir sus tamaño sin apenas afectar la calidad de los resultados, a Flux, optimizando aún más su rendimiento y calidad (que hace sólo día y medio el creador de Forge había conseguido hacer que funcionase en equipos con gráficas con sólo 6 GB de VRAM o menos). He aquí una imagen comparativa:

Y ya están saliendo los primeros LoRas y checkpoints, como uno de Walter White:

Y por supuesto, ya han sacado un LoRA y un primer checkpoint que capacita a Flux hacer desnudos correctamente... (Siempre son las primeras cosas en salir)

sirdrak · Agosto 16, 2024, 12:09:42 PM

Sobre lo que comentaba en el post anterior de las nuevas optimizaciones para hacer funcionar Flux con muchos menos recursos y con una pérdida de calidad mínima, ayer lo estuve probando en Forge y la verdad es que parece magia... Las imágenes de la versión con optimizaciones Q8 son idénticas en un 96-98% respecto al modelo tal cual fué publicado, pero usando la mitad de VRAM y con más velocidad. He hecho un par de imágenes comparativas del estilo de los pasatiempos 'buscas las diferencias' para que podáis comprobarlo. Como podéis ver a nivel de calidad y detalle son idénticas. Además ayer ya les dieron soporte en Forge a los LoRa para este tipo de modelos. Lo interesante es que no hay que hacer distintas versiones de estos para cada tipo de modelo, sino que si, por ejemplo, se entrena el LoRa En Flux.Dev, este funciona también en Schnell y en las versiones BNB FN4 y las versiones Q nuevas...

sirdrak · Agosto 18, 2024, 12:54:06 PM

Se nos va de las manos el tema de las versiones de Flux optimizadas GGUF de las que hablé antes... Cada día sacan nuevas versiones más optimizadas que las anteriores. A este paso ya mismo lo hacen funcionar en una tostadora o un consolador femenino, como el Doom (lo del consolador no es broma)... Hasta ayer, las que mejores resultados me han dado han sido Q8 en calidad (indistinguible de la versión original 'tal cual') y Q5 en eficencia/calidad... Ahora hay un montón nuevos, así que ya tengo entretenimiento para todo el día haciendo pruebas... La cosa está ahora tal que así:

sirdrak · Septiembre 01, 2024, 07:49:33 PM

Bueno, pues parece ser que el que Flux tenga como text encoder un LLM completo (el T5), beneficia y facilita bastante el entrenar LoRas... Parece ser que dan mejor resultado usando pocas imágenes de entrenamiento (entre 10 y 30) e incluso sin etiquetar dichas imágenes porque el LLM ya entiende perfectamente lo que está viendo sin que nosotros se lo expliquemos... Como primera prueba me he entretenido en entrenar uno de la Bruja Avería con sólo 11 imágenes y poniendo únicamente como etiqueta la palabra para invocar al personaje, que en mi caso es 'b-averia'... El resultado es bastante bueno, como podéis ver en estas imágenes:

Mi LoRa se puede descargar de aquí: https://civitai.com/models/710616

Vince · Septiembre 02, 2024, 10:41:21 AM

Joder, tío, cada vez que posteas, más me sorprendo.

Fardelejo · Septiembre 02, 2024, 11:36:02 PM

Grandísimo hilo y grandísimo @sirdrak.
Lo de la bruja avería me ha matado, no me lo esperaba 😂😂😂

Manchi · Septiembre 03, 2024, 06:09:08 AM

Cita de: Fardelejo en Septiembre 02, 2024, 11:36:02 PM
Grandísimo hilo y grandísimo @sirdrak.
Lo de la bruja avería me ha matado, no me lo esperaba 😂😂😂

No te rías, no te rías... De la bruja Avería.

Todavía amanecerás con el televisor roto

tylerdurden8 · Septiembre 03, 2024, 10:47:51 PM

Cita de: Manchi en Septiembre 03, 2024, 06:09:08 AM
No te rías, no te rías... De la bruja Avería.

Todavía amanecerás con el televisor roto

La cartera ya la tiene así

Noticias:

Colaboradores del foro

Stable Diffusion: Tutoriales y cosas interesantes

Mensaje #60

sirdrak

Mensaje #61

sirdrak

Mensaje #62

Lotario

Mensaje #63

sirdrak

Mensaje #64

LordPep

Mensaje #65

Lotario

Mensaje #66

tylerdurden8

Mensaje #67

sirdrak

Mensaje #68

sirdrak

Mensaje #69

sirdrak

Mensaje #70

sirdrak

Mensaje #71

Vince

Mensaje #72

Fardelejo

Mensaje #73

Manchi

Mensaje #74

tylerdurden8