Stable Diffusion: Tutoriales y cosas interesantes

Aficiones y hobbies > Inteligencia artificial en los juegos de mesa

<< < (2/12) > >>

sirdrak:
Hoy me ha dado por hacer animalillos 'cuquis' con un modelo que es de la versión 1.5:

;D

sirdrak:
He caído en la cuenta de que algunas cosas que he puesto en otros hilos irían mejor recopiladas aquí, así que eso voy a hacer, y de paso comento también las últimas cosas interesantes que he estado probando....

Primero, lo que comenté a modo de mini-tutorial sobre como estructurar los 'prompts' para conseguir mejores imágenes:

Mis prompt no suelen ser muy complejos, la clave está en usar el Negative Prompt para mejorar la calidad de la imagen y en usar la información correctamente estructurada. Normalmente tiene más peso lo primero que se escribe, y se debe seguir un orden en la descripción, más o menos así: Tipo de imagen que se quiere generar (si es una foto, una ilustración, un render 3D, etc..), personajes que aparecen (una mujer y dos hombres, etc...), descripción del personaje (caracterñisticas físicas, ropa, etc...), que está haciendo (sentado, corriendo, tomando una taza de café, etc...), elementos que hay alrededor del personaje o al fondo, dónde se encuentran los personajes (escenario) y finalmente, cómo es la iluminación, los planos de cámara e incluso la configuración de la cámara de fotos (modelo de la cámara, óptica, etc...). Además, también es importante usar las opciones que hay para dar más peso a ciertos términos de la descripción sobre otros. Si pones una palabra o conjunto de ellas entre paréntesis, le estás indicando a la IA que le dé más importancia a dicho término. Cuantos más paréntesis le pongas, más peso va a tener. También se puede poner en su lugar con el siguiente formato: (pelo rubio:1.2), de esta forma le estás indicando la importancia en un porcentaje en base uno (es decir, en el ejemplo sería un 120%). Esto se puede usar también para restarle importancia poniendo valores por debajo de 1 (o escribir el término entre corchetes en lugar de paréntesis).

Luego en el Prompt Negativo, hay cosas que te facilitan mucho la labor sin tener que escribir prompts kilométricos, como es usar embbedings negativos. Los embeddings es lo que había antes de la aparición de los LoRA y tienen la misma función, es decir, incluir personajes, estilos o conceptos, y se usan como si fueran un término más del prompt, simplemente escribiendo su nombre. Hay varios para el prompt negativo que se usan para desechar imágenes de mala calidad, evitar en la medida de lo posible personajes deformes y conseguir mejores manos. En mi caso particular uso EasyNegative y bad-hands-5. Simplemente con estos dos, y como mucho alguna cosa más para eliminar cosas de las imágenes que vayas probando (por ejemplo logos o marcas de agua) ya consigues imágenes de buena calidad en general. Os voy a mostrar un ejemplo de hasta que punto cambia una imagen usar el EasyNegative:

La siguiente imagen se ha generado con el siguiente prompt usando la versión 2 de mi LoRA de Azpiri:

1woman, blonde hair, short hair, sword, wielding, armor, huge breasts, navel, dragon, columns, lava, detailed background, stone wall in the background<lora:AzpiriV4:0.8>

Y en el prompt negativo únicamente esto:

EasyNegative, bad-hands-5

Resultado:

(sí, ya sé que está sujetando la espada por el lado equivocado ;D, es una imagen random que he generado de forma rápida para el ejemplo)

Y si ahora quito todo lo del prompt negativo, manteniendo todo lo demás y usando la misma semilla (un código numérico que se genera con cada imagen que te permite volver a reproducirla exactamente y comprobar los cambios usando modelos diferentes o cambiando cosas de la descripción), la imagen cambia a esto:

Como véis, mucho peor, manca, y con fallos de todo tipo, sin detalle, etc...

Otra combinación 'que hace magia' en el prompt negativo sin necesidad de usar embbedings es simplemente escribir esto:

(worst quality, low quality:1.4)

En la imagen anterior, lo que resulta es lo siguiente:

Como podéis ver, algo intermedio pero más cercano a la primera imagen que a la segunda, ya con una calidad más aceptable (aunque el bad-hands-5 le vendría genial para arreglar esas manos).

En el caso de Stable Diffusion, a la hora de escribir el prompt se puede hacer de dos formas, como habéis visto en el ejemplo, que es usando etiquetas estandarizadas en los servicios de alojamiento de imágenes de Anime y Hentai (Danbooru se llaman, el mismo nombre que un servicio de estos muy famoso: https://danbooru.donmai.us/), o usando el modo Clip, que es en lenguaje natural directamente, como cuando le hablas a ChatGPT. Sin embargo, lo más común es usar el de etiquetas de anime porque es más directo a la hora de cambiar cosas y se puede usar con otras IA diferentes. El Clip se suele usar más con imágenes realistas (aunque no sé la razón). Y siempre en inglés, a pesar de que entiende el español, pero en inglés es mucho más efectivo.

Y Ahora, lo de mi LoRA con el estilo de Azpiri, que ya dí por concluído tras tres versiones diferentes (todas disponibles y todas interesantes igualmente, por lo que conviene tenerlas todas por sus particularidades si se quiere sacar provecho a todo el potencial del estilo, aunque la más flexible sería la última). A continuación pongo ejemplos de imágenes generadas con cada versión:

- Versión 1 (original), entrenada por el método del vídeo de Aitrepreneur que posteé al principio, con 80 imágenes de entrenamiento, 1 única epoch y 100 repeticiones por imagen:

- Primer intento de optimizar el LoRA con nuevos métodos y reducir su tamaño de 144 MB a sólo 37. Esta vez se emplearon más imágenes pero el entrenamiento fué insuficiente, por lo que los fondos no los realizaba siguiendo el estilo de Azpiri, pero a cambio quedó una especie de nuevo estilo con chicas espectaculares y escenarios detallados, por lo que decidí compartirlo también. La llamé versión 'Soft' al ser el resultado más suave y detallado. El entrenamiento se hizo con 100 imágenes, 3 repeticiones por imagen y 15 epoch (con lo cual las repeticiones totales por imagen fueron 3x15 = 45). También aumentó (mucho) la tendencia del LoRA de sacar a las chicas desnudas o casi desnudas, por lo que había que hacer uso del 'prompt negativo' poniéndo allí 'nude', 'topless', 'nipples' y 'nfsw' si se querían hacer imágenes 'normales':

- La versión final y auténtica versión 2 del LoRA. Después de muchas pruebas e iteraciones partiendo del nuevo método pero pasando de algunas de las indicaciones, conseguí mi objetivo y pude aunar las características de las dos versiones previas en una sola versión. Descubrí que se pueden aumentar el número de repeticiones por imagen totales sin que 'se queme' el LoRA más fácilmente aumentando el número de epoch en lugar del número de repeticiones por epoch, así que conseguí el resultado buscado esta vez usando 140 imágenes, con 4 repeticiones por imagen y 27 epoch (repeticiones totales por imagen 4x27 = 108). E incluso creo que podría haber seguido haciendo iteraciones porque el resultado seguía siendo bueno en todos los epoch. El resultado final es un LoRA que es 100% fiel a Azpiri como en la primera versión usando el Lora a 0.85 - 1 en el prompt (a un 85-100%), y que se vuelve un estilo suave y detallado como el de la versión 'Soft' entre un 0.7 - 0.84, pero sin el problema de los fondos genéricos de aquella:

* Estilo 100% Azpiri:

* Estilo más suave y detallado:

Todo aquél que lo quiera usar, lo puede descargar de Civitai: https://civitai.com/models/22982

Es importante leer lo que pone en la descripción para conseguir buenos resultados.

Sobre lo que he comentado antes, aclarar que los epoch ('épocas') durante el entrenamiento son como 'puntos de control' que hace la utilidad con la que se crea el LoRA cada cierto tiempo de forma periódica, en una cantidad indicada por el usuario, lo que permite que si al final el LoRA se queda 'sobreentrenado' (lo que genera que se 'quemen' las imágenes al usarlo) se puedan utilizar epoch anteriores evitando repetir el proceso. Cada epoch es un LoRA totalmente funcional. Incluso a veces estos epoch pueden tener características propias interesantes frente a la versión final aunque esta sea correcta, por lo que merece la pena experimentar con ellos a veces.

El otro método alternativo para hacer LoRAs que seguí para las dos últimas versiones es el de esta guía: https://civitai.com/models/22530

Como digo, las recomendaciones que da no se tienen por qué seguir al 100%, sobre todo en lo referente al número máximo de epoch y repeticiones, y si en un primer momento el resultado no es lo que buscáis al entrenar vuestro LoRA, id probando aumentando el número de epoch sin miedo por encima de lo que recomienda.

Y ahora voy con lo último que he estado probando. En primer lugar, como ya mencióne en otro hilo, estuve probando un LoRA para hacer mundos en miniatura con resultados tan espectaculares como estos:

Recomiendo probarlo con los checkpoints (modelos completos) RevAnimated 1.1 y RPG4, por el nivel de detalle que aportan. Se puede descargar el LoRA mencionado de aquí: https://civitai.com/models/28531/miniature-world-style

Y en segundo lugar, he estado probando un servicio gratuíto online que convierte imágenes 2D en 3D usando una IA, que luego se pueden descargar como un gif animado o un mp4, y otros formatos como 3D SBS para verlas en VR o en una tele con 3D stereoscópico... He hecho pruebas con resultados como estos:

Tan sólo hay que ir y registrarse aquí: https://convert.leiapix.com/

Como mejor quedan los gifs es descargando las animaciones en mp4 y luego pasándolas a gif en Convertio, que da muy buena calidad: https://convertio.co/es/mp4-gif/

tylerdurden8:
Los mundos en miniatura son una pasada :o

Remiel:
En la parte de prompts negativos, hay alguna página que te diga los que existe y para que sirve cada uno? Como por ejemplo tu has hecho que has puesto 1 que sirve para manos.

sirdrak:

--- Cita de: Remiel en Abril 11, 2023, 08:36:09 pm ---En la parte de prompts negativos, hay alguna página que te diga los que existe y para que sirve cada uno? Como por ejemplo tu has hecho que has puesto 1 que sirve para manos.

--- Fin de la cita ---

No, pero no hace falta usar muchos... Con usar un par de los mas conocidos ya vale... De todas formas, en Civitai haciendo una búsqueda del término Negative Embedding salen la mayoría:https://civitai.com/tag/negative%20embedding

Hay algunos que están hechos para usar específicamente con uno o más modelos y otros generales, pero en general, lo más recomendable es usar EasyNegative, bad-hands-5 (este ha desaparecido de Civitai, no sé por qué), bad-artist, badhandv4... Generalmente basta con el primero (que en mi opinión es el mejor) y uno de los otros, (por ejemplo badhandv4), y también es buena idea poner en el prompt negativo (worst quality, low quality:1.4). Con eso en realidad no hace falta más, a veces basta con sólo EasyNegative y muchas otras ni siquiera hacen falta los embeddings. Es cuestion de probar. Yo sólo uso los dos primeros. También hay que comentar que a veces es contraproducente poner muchos términos en el Negative Prompt (en algunos checkpoints), y otras en los que los Negative Embeddings pueden afectar a un estilo que estés usando. Siempre conveniente usar el método de prueba y error.

Por cierto, esta tarde he visto un modelo que seguro que os llamará la atención... Se trata de un modelo que hace específicamente mapas para juegos de rol y de tablero... Algunos ejemplos:

Se puede descargar de aquí: https://civitai.com/models/23240/dandd-battlemaps

Navegación

[0] Índice de Mensajes

[#] Página Siguiente

[*] Página Anterior

Mierda, no hemos podido dar tus gracias.

Agradeciendo...

Ir a la versión completa