Stable Diffusion: Tutoriales y cosas interesantes

Aficiones y hobbies > Inteligencia artificial en los juegos de mesa

<< < (8/12) > >>

LordPep:
Buenísimo hilo,

he estado probando cosas con SD, en Leonardo, Playground y similares, y aunque al probar con prompts sencillos se consiguen cosas muy chulas a la que vas indagando y experimentando más te das cuenta del increíble potencial de estas herramientas.

Todavía no he visto en directo (aunque sí en algún vídeo) estos modelos integrados en herramientas como photoshop y similares pero me parece abrumador!

Gracias por compartirlo! Esto es un no parar! Siempre hay algo nuevo que aprender :o ;D

sirdrak:
Bueno, pues llevaba un tiempo sin postear novedades interesantes, así que comentaré algunas de los últimos meses... La mayoría de los que usamos Stable Diffusion en local, como sabéis, usamos Automatic1111 como interfaz a través del navegador para generar las imágenes, al ser la más completa y que más opciones tiene (los modos img2img, inpaint, las extensiones, los script para hacer upscaling, matrices de imágenes, etc...), pero no es la única, algo que se ha hecho patente y más notorio desde la silida de SD XL, debido a las mayores exigencias de esta versión de Stable Diffusion. La pega de Automatic1111 es que es la menos eficiente, de forma que requiere más potencia que las otras opciones para generar las mismas imágenes con la misma configuración de hardware. Por ello hoy voy a hablar de las otras opciones existentes para generar imágenes en local...

Las otras opciones actuales son las siguientes:

- ComfyUI: Es una interfaz muy versátil y rápida para generar imágenes con Stable Diffusion, y de hecho es la que utilizan directamente y recomiendan Stability.ai, la empresa creadora de Stable Diffusion. Tiene todas las posibilidades que tiene Automatic1111 e incluso algunas que no tiene aún a día de hoy relacionadas con las novedades de SD XL, como la posibilidad de usar simultáneamente dos prompts diferentes para el positivo y dos prompt diferentes para el negativo usando los dos 'Clips' que soporta nativamente XL al mismo tiempo (los Clips son básicamente el intérprete que hace que la IA entienda lo que le pedimos en lenguaje natural). Además fué la primera en tener soporte completo de los modelos base y refiner de XL (soporte que no llegó a Automatic1111 hasta su versión 1.6.0, la actual). Sus ventajas son que requiere mucho menos hardware para generar imágenes y además es extremadamente rápido, incluso a la hora de hacer reescalados, es muy fácil de instalar (es simplemente descomprimir una carpeta, ejecutar la primera vez un actualizador y luego sólo un .bat y a funcionar) y las imágenes que genera son de muy buena calidad. Otra característica que tiene, es que basta con arrastrar una imagen generada previamente con él al espacio de trabajo para que ya salga todo configurado incluído su prompt como cuando se generó dicha imagen, cosa que también se puede hacer con un archivo de configuración .json. Las pegas son que su interfaz es completamente antiintuitiva y compleja... De hecho casi se podría decir que no tiene interfaz, pues funciona a base de un sistema de módulos interconectados entre sí que recuerda a los lenguajes de programación visuales por objetos como los que usan Blender o Unreal Engine, lo que puede echar a muchísima gente para atrás por su aparente complejidad. En la siguiente imagen podéis ver un ejemplo:

Eso sí, si se tiene una máquina más limitada, es mucho mejor que Automatic1111... Por ejemplo, con ComfyUI es mucho más rápido generar imágenes en buena calidad de SD XL con una gráfica de sólo 6GB de VRAM o menos, de forma que la diferencia puede ser de hacer en menos de 30 segundos lo que en Automatic1111 puede llevar varios minutos. Se puede descargar aquí, de su Github: https://github.com/comfyanonymous/ComfyUI

- Fooocus y Fooocus-MRE: Llegamos a las dos opciones más recientes, esta vez enfocadas de forma exclusiva en generar imágenes de SD XL y hacerlo de la forma más sencilla posible, ideal para las personas que sólo quieren generar imágenes de la forma más sencilla posible sin usar opciones avanzadas. Ha sido creada nada menos que por los responsables de la extensión más importante y revolucionaria existente hasta la fecha de Stable Diffusion, ControlNET, de la que ya os he hablado en ocasiones anteriores. Tiene las ventajas de ser extremadamente fácil de instalar (al igual que con ComfyUI, es descargar y descomprimir un archivo, y en la carpeta resultante ejecutar un archivo .bat y a funcionar). Ni siquiera es necesario buscar aparte los modelos básicos para empezar porque los descarga automáticamente en el primer inicio (SD XL base y el refiner). Además, es también muy rápido y también consume menos recursos que Automatic1111, muy cerca de lo que hace ComfyUI en este sentido. Respecto a la interfaz y opciones, primero hablaré de Foocus y luego de las opciones extras que tiene Fooocus-MRE, que es un fork del primero.

En Fooocus, la mayor parte de la interfaz la ocupa la parte donde aparecen las imágenes generadas, y debajo simplemente un espacio para escribir el prompt. Luego hay una casilla para mostrar las opciones avanzadas de forma que nos permite escribir también prompt negativo, elegir entre una buena cantidad de resoluciones pero todas ellas fijas (esto es así porque son las resoluciones de las imágenes con las que se realizó el entrenamiento de SD XL, que lo que hace es que el resultado tenga la mejor calidad posible) y elegir entre priorizar calidad o rapidez en la generación de las imágenes. Todas estas opciones se muestran en un panel en el lateral derecho, que tiene tres pestañas con más opciones extra: La mencionada, una para elegir un estilo para las imágenes (otra de las novedades de SD XL) y otra que nos permite elegir el checkpoint a usar como modelo base, y el que se va a usar como Refiner, y además varias casillas para elegir y usar LoRAs y seleccionar su fuerza. Nada más... Como se puede ver, todo enfocado a una sencillez extrema y obtener buenos resultados sin complicaciones.

En Fooocus-MRE, que como comenté es un fork creado a partir del código fuente del Fooocus original con el objeto de añadir más opciones a la generación de imágenes, se incorporan opciones propias de Automatic1111 para las personas que quieren hacer cosas más avanzadas manteniendo la sencillez de uso y la interfaz de Fooocus y con las ventajas de su buen rendimiento. Las opciones que se incorporan nuevas son las siguientes:

* Modo img2img
* Posibilidad de configurar los mismos parámetros avanzados en la creación de las imágenes que en Automatic1111 (número de pasos, sampler, punto en el que se pasa del modelo Base al Refiner durante el proceso de generación, CFG, Clip Skip, etc...)
* Soporte de los LoRA especiales de Stability.ai que dan soporte de ControlNET a SD XL
* Posibilidad de usar resoluciones 'custom' en la generación de imágenes.
* Posibilidad de hacer Upscaling en el modo img2img.
* Posibilidad de usar estilos personalizados.
* Soporte de inpainting y outpainting.

Aquí podéis ver el aspecto que tiene la interfaz:

Y se pueden descargar desde sus respectivos Githubs:

* Fooocus: https://github.com/lllyasviel/Fooocus
* Fooocus-MRE: https://github.com/MoonRide303/Fooocus-MRE

Por último, os quiero recomendar también un modelo fotográfico de Stable Diffusion 1.5 que me ha sorprendido por su realismo y sus espectaculares texturas de la piel, dando resultado imágenes como esta:

Y aquí un recorte de la cara para que podáis apreciar mejor el realismo de la piel:

Como podéis ver, totalmente indistinguible de la realidad 100%... El modelo se llama epiCRealism, concretamente su última versión, llamada Natural Sin, que ha sido entrenada con imágenes de personas normales y no de modelos fotográficos, por eso consigue ese realismo. Se puede descargar de aquí: https://civitai.com/models/25694/epicrealism

Para obtener resultados como los de mi imagen, os recomiendo la siguiente configuración a la hora de generar imágenes con él:

- Resolución de 512x512, 512x768 o 768x512, de 20 a 30 pasos, CFG scale de 5 y de sampler Euler A o SDE 2M ++ Karras.
- Usar prompts simples evitando términos como masterpiece, best quality, 8k, intricate, high detail, (extremely detailed face), (extremely detailed hands), (extremely detailed hair) y similares ya que no son necesarios.
- En el prompt negativo usar cartoon, painting, illustration, (worst quality, low quality, normal quality:2)
- Al usar la opción Hires.fix, seleccionar 1'5x o 2x upscale, como upscaler 4x_NMKD-Superscale-SP_178000_G (luego pongo dónde se descarga) y un denoise de 0'35
- Si luego se hace upscaling en img2img con el script de SD Upscale, usar el mismo upscaler mencionado antes (basta con descargarlo y meterlo en la carpeta models/ESRGAN para que aparezca disponible en ambos modos).

El mencionado upscaler se puede descargar de aquí: https://huggingface.co/gemasai/4x_NMKD-Superscale-SP_178000_G/tree/main

tylerdurden8:
Me parece increíble que esa foto no sea real :o

A ver cuanto tardan en hacer pelis directamente con IA... Al tiempo ::)

Vince:
Gracias por tus aportes y explicaciones, @sirdrak

Fardelejo:
Qué bien está quedando este hilo, ¡muchas gracias!

Navegación

[0] Índice de Mensajes

[#] Página Siguiente

[*] Página Anterior

Mierda, no hemos podido dar tus gracias.

Agradeciendo...

Ir a la versión completa