Stable Diffusion: Tutoriales y cosas interesantes

Iniciado por sirdrak, Marzo 09, 2023, 12:26:04 PM

Tema anterior - Siguiente tema

0 Miembros y 1 Visitante están viendo este tema.

Mensaje #60

sirdrak

Cita de: Manchi en Agosto 07, 2024, 10:38:30 PM
Ya te digo, la del tío durmiendo y las de las tres chicas enseñando que la IA ya sabe hace manos me han dejao to loco  :o

Totalmente... He estado haciendo pruebas con imágenes 'cotidianas' y los resultados son flipantes, cuelan totalmente por fotos reales... He probado a hacer imágenes como si fueran de una cámara de vigilancia chunga en plena noche, y fotos cotidianas de gente caminando por la calle y es brutal... Y la comida... Y además es capaz de hacer 'screenshots' de videojuegos (sobre todo modernos), ya que parece que conoce bastantes. Voy a poner aquí ejemplos variados 'de mi cosecha':


































Para las capturas de videojuegos lo único que puse fué 'A 'nombre del juego' screenshot', pero si le escribes un prompt muy detallado puede hacer imágenes que parezcan el juego real. También genera capturas de juegos ficticios igual de bien. Además, se le puede escribir en Español y se le pueden escribir prompts muy muy largos.


Mensaje #61

sirdrak

Bueno pues el tema de Flux está que arde... La comunidad se ha volcado por completo con él y ya están saliendo avances y cosas interesantes... Vamos a comentar algunas de ellas:

- Como sabéis, Flux, al ser tan grande, de inicio para ser usado al 100% en fp16 pedía una gráfica con 24 GB de VRAM (es decir una RTX 3090 o una RTX 4090). Después salieron versiones en fp8, que permitían ejecutar los modelos en equipos con gráficas con 12 GB de VRAM con una pérdida de calidad mínima. Pues bién, resulta que Illyasviel, nada menos que el creador de ControlNET, de Fooocus y de Forge, tras estar durante 7 días picando código 14 horas diarias, ha dado un paso más en la optimización de modelos para generación de imágenes aplicando técnicas de optimización que hasta ahora se usaban exclusivamente en LLMs, de forma que no sólo ha dado soporte a Flux en Forge, sino que ha hecho posible ejecutarlo en másquinas con 6/8 GB de VRAM e incluso menos, tanto la variante Dev como la variante Schnell. Para ello ha sacado una versión optimizada BNB FN4 de ambos modelos con muy buenos resultados y siendo incluso más rápidas que usando ComfyUI, lo que supone una proeza.

- A pesar de la dificultad que en principio parecía suponer el gran tamaño de Flux a la hora de entrenarlo para crear LoRas o nuevos Checkpoints (que parecían requerir ya de gráficas profesionales para entrenar), finalmente están empezando a aparecer LoRas y técnicas para entrenarlos con 24 GB de VRAM. Ya hay LoRas para conseguir más realismo en fotos, otro para generar más imágenes de tipo 'no-profesional', etc...

Mensaje #62

Lotario

Me encantaría entrenar a una IA con mapas o tableros modulares, por ejemplo los del zombicide, para que genere tableros de ese estilo. A ver cuándo...

Mensaje #63

sirdrak

Cita de: Lotario en Agosto 13, 2024, 05:29:59 PM
Me encantaría entrenar a una IA con mapas o tableros modulares, por ejemplo los del zombicide, para que genere tableros de ese estilo. A ver cuándo...

Por lo visto, según leí en reddit al poco de salir Flux, la versión Schnell es muy buena creando mapas con vista cenital para juegos de rol/tablero y tal... Y en versiones anteriores de Stable Diffusion había LoRas para hacer mapas de ese estilo también.

Ejemplos de mapas generados por Flux Schnell:





Mensaje #64

LordPep

Brutalísimo eso de los mapas, bueno eso y todo. Una pasada lo que se consigue mejorar en cada avance!

Gracias por copartirlo compañero @sirdrak !
Carpe Ludum

Mensaje #65

Lotario

Cita de: sirdrak en Agosto 14, 2024, 12:56:38 AM
Por lo visto, según leí en reddit al poco de salir Flux, la versión Schnell es muy buena creando mapas con vista cenital para juegos de rol/tablero y tal... Y en versiones anteriores de Stable Diffusion había LoRas para hacer mapas de ese estilo también.
Brutales, en nada podré hacerme mis propios tableros para una campaña de Alien. Qué ganas!!

Mensaje #66

tylerdurden8

Cita de: Manchi en Agosto 07, 2024, 10:38:30 PM
Ya te digo, la del tío durmiendo y las de las tres chicas enseñando que la IA ya sabe hace manos me han dejao to loco  :o

Totalmente  :o

Cita de: Ganix en Agosto 07, 2024, 10:57:47 PM
Y que sabrás tu de fotografía!
Mejor deja a los fotógrafos profesionales que opinen. Oh wait!

La de las manos, me ha llamado la atención por que la falange distal (he tendió que mirar como se llamaba), está más rosada que las demás. Me he mirado las manos, y efectivamente las mías son algo más rosadas que las otras. No tanto como en la foto, pero es así.
Que miedito me da esto, si se hace mal uso de ello.


Jajajajjajajajaj  ;)



@sirdrak de la última serie que has puesto, la primera imagen de todas, la del tranvía es de locos  :o
Si tengo que sacar un 6 para ganar... Ya puedo ir felicitando al rival...

Mensaje #67

sirdrak

#67
Cita de: tylerdurden8 en Agosto 15, 2024, 12:33:21 AM
Totalmente  :o

Jajajajjajajajaj  ;)



@sirdrak de la última serie que has puesto, la primera imagen de todas, la del tranvía es de locos  :o

Sí, en las fotografías cotidianas es donde más sorprende por su realismo... He estado haciendo más y algunas son brutales... Una pequeña muestra (y con el modelo Schnell, que es peor en fotorrealismo que la versión Dev):


Ojo a los reflejos en el agua de la imagen... Es una de las cosas donde fallaban a menudo las IAs anteriores a esta. Y en la siguiente, el efecto de refracción en la parte del cuerpo de la chica sumergida en el mar es impresionante también:








Otra cosa que hice, a modo de diversión, fue crear fotogramas de una peli ficticia de 'Muerte en el Nilo' de Agatha Christie:












También me entretuve en hacer un meme con Kratos que luego convertí en un vídeo/gif animado para usarlo en la aplicación de mensajería del avioncito de papel y sitios similares, animando la imagen con Dream Machine de Luma Labs, una de las IAs de moda para crear vídeos de ahora:


El amigo Kratos bebiendo café mientras ojea el PlayViking


Y por cierto, este Flux si que tiene bien aprendida la anatomía y hace unas chavalas de esas que quitan el hipo xD Por ejemplo:



O esta 'Evil Peach', en una realidad paralela en la que ha aceptado su lado oscuro:



Y en otro orden de cosas, está esto evolucionando a hipervelocidad... Hoy mismo me he levantado con la novedad de que han conseguido aplicar técnicas GGUF de cuantización que se usan en los LLM para reducir sus tamaño sin apenas afectar la calidad de los resultados, a Flux, optimizando aún más su rendimiento y calidad (que hace sólo día y medio el creador de Forge había conseguido hacer que funcionase en equipos con gráficas con sólo 6 GB de VRAM o menos). He aquí una imagen comparativa:



Y ya están saliendo los primeros LoRas y checkpoints, como uno de Walter White:





Y por supuesto, ya han sacado un LoRA y un primer checkpoint que capacita a Flux hacer desnudos correctamente... (Siempre son las primeras cosas en salir)


Mensaje #68

sirdrak

#68
Sobre lo que comentaba en el post anterior de las nuevas optimizaciones para hacer funcionar Flux con muchos menos recursos y con una pérdida de calidad mínima, ayer lo estuve probando en Forge y la verdad es que parece magia... Las imágenes de la versión con optimizaciones Q8 son idénticas en un 96-98% respecto al modelo tal cual fué publicado, pero usando la mitad de VRAM y con más velocidad. He hecho un par de imágenes comparativas del estilo de los pasatiempos 'buscas las diferencias' para que podáis comprobarlo. Como podéis ver a nivel de calidad y detalle son idénticas. Además ayer ya les dieron soporte en Forge a los LoRa para este tipo de modelos. Lo interesante es que no hay que hacer distintas versiones de estos para cada tipo de modelo, sino que si, por ejemplo, se entrena el LoRa En Flux.Dev, este funciona también en Schnell y en las versiones BNB FN4 y las versiones Q nuevas...



Mensaje #69

sirdrak

Se nos va de las manos el tema de las versiones de Flux optimizadas GGUF de las que hablé antes... Cada día sacan nuevas versiones más optimizadas que las anteriores. A este paso ya mismo lo hacen funcionar en una tostadora o un consolador femenino, como el Doom (lo del consolador no es broma)... Hasta ayer, las que mejores resultados me han dado han sido Q8 en calidad (indistinguible de la versión original 'tal cual') y Q5 en eficencia/calidad... Ahora hay un montón nuevos, así que ya tengo entretenimiento para todo el día haciendo pruebas... La cosa está ahora tal que así:


Mensaje #70

sirdrak

#70
Bueno, pues parece ser que el que Flux tenga como text encoder un LLM completo (el T5), beneficia y facilita bastante el entrenar LoRas... Parece ser que dan mejor resultado usando pocas imágenes de entrenamiento (entre 10 y 30) e incluso sin etiquetar dichas imágenes porque el LLM ya entiende perfectamente lo que está viendo sin que nosotros se lo expliquemos... Como primera prueba me he entretenido en entrenar uno de la Bruja Avería con sólo 11 imágenes y poniendo únicamente como etiqueta la palabra para invocar al personaje, que en mi caso es 'b-averia'... El resultado es bastante bueno, como podéis ver en estas imágenes:









Mi LoRa se puede descargar de aquí: https://civitai.com/models/710616

Mensaje #71

Vince

Joder, tío, cada vez que posteas, más me sorprendo.
No me toques los dados.

Mensaje #72

Fardelejo

Grandísimo hilo y grandísimo @sirdrak.
Lo de la bruja avería me ha matado, no me lo esperaba 😂😂😂

Mensaje #73

Manchi

Cita de: Fardelejo en Septiembre 02, 2024, 11:36:02 PM
Grandísimo hilo y grandísimo @sirdrak.
Lo de la bruja avería me ha matado, no me lo esperaba 😂😂😂

No te rías, no te rías... De la bruja Avería.

Todavía amanecerás con el televisor roto  ;D
Novia cornuda y algo plasta (incluso fea) número 7 de Dionisio

¿Mythic? NCUP, hoygan.

Yo lo que pasa es que soy un populista, que ahora se lleva mucho, un pagafantas, un planchabragas y un demagogo.

¡Quiero que me informen bien! ¡Pero que también me sorprendan! ¡Pero que no se retrasen!

Tú lo que quieres es un huevo kinder.

Mensaje #74

tylerdurden8

Cita de: Manchi en Septiembre 03, 2024, 06:09:08 AM
No te rías, no te rías... De la bruja Avería.

Todavía amanecerás con el televisor roto  ;D

La cartera ya la tiene así  ;D ;D ;D
Si tengo que sacar un 6 para ganar... Ya puedo ir felicitando al rival...