Stable Diffusion es una IA generativa de imágenes capaz de crear una imagen a partir de una descripción en texto. Las más importantes son Dall-E, Midjourney, y esta, Stable Diffussion. Las dos primeras tienen varias pegas, siendo la primera que son de pago (aunque te dejan hacer una cierta cantidad de imágenes de prueba), pero la tercera es Open Source y se puede usar libremente sin ningún tipo de limitación, instalarla en local en tu Pc (con lo que no dependes de ningún servicio online) y además tiene muchísima comunidad detrás entrenando modelos específicos para crear imágenes fotorrealistas, crear Anime, imitar estilos de casi cualquier dibujante, etc... Además es muy fácil entrenar un modelo tú mismo para hacer lo mencionado o incluir en las imágenes a personas, personajes, estilos, etc...
Para crear una imagen, una vez en su interfaz, hay un formulario que tiene arriba dos líneas... En la primera es donde escribes la descripción y los términos que quieres que cumplan los componentes de la imagen (tipo de imagen, si es una foto, una ilustración o un render, qué personajes salen, que están haciendo, su descripción detallada, dónde se encuentran, como es el escenario, la iluminación, etc...). Esto es lo que se llama un 'prompt', el término que se usa para las descripciones. La segunda línea es el llamado 'prompt negativo', y es en el que se pone lo que NO queremos que tenga la imagen, los problemas de la imagen que queremos evitar, etc... Y nos sirve para mejorar la calidad de imagen, descartar imágenes borrosas, con personajes deformes, etc...
Luego hay una serie de parámetros que también podemos controlar, como la resolución de la imagen, el número de iteracciones que tendrá que hacer la IA para sacar la imagen final (a más iteraciones más detalle añadido, aunque en ciertos tipos de imágenes conviene que sea bajo), y lo literal que queremos que sea la IA a la hora de interpretar nuestra descripción (a veces es interesante dejar que sea flexible y que no aplique todo lo de la descripción para que sea más creativa).
Cita de: Lotario en Febrero 18, 2023, 12:31:02 PM
Me gustaría probarlo, ¿qué tengo que hacer?
Lo primero que hay que tener en cuenta es que necesitas tener una gráfica más o menos potente (tampoco es necesario que sea lo último de lo último ni mucho menos) que como mínimo tenga 6 GB de VRAM, 8 GB para poder procesar tus propios modelos (aunque si no los tuviera y aún así quisieras entrenar a la IA, también se puede hacer online mediante Google Colab y servicios similares). Hay una guía muy buena que explica paso a paso cómo instalar todo lo necesario, desde Python hasta las dependencias y Stable Diffusion WebUI, así cómo que modelos básicos descargar y dónde conseguir más, todo con sus enlaces correspondientes. Es la del siguiente enlace:
https://rentry.co/UnofficialUnstableGuide
Luego, una vez lo tienes todo instalando y funcionando (usa una interfaz gráfica a través del navegador de internet pero de forma local, es decir, que no necesitas internet para usarla), puedes descargar muchos modelos de la comunidad que mejoran muchísimo su potencial, al estar entrenados para mejorar las imágenes de tipos específicos (hay modelos para fotografía ultrarrealista, un montón para Anime y Hentai de todos los estilos que se os ocurran, para paisajes, para fantasía, etc...). Son lo que se conocen como Checkpoint y para usarlos basta con descargarlos y meterlos en la carpeta models/Stable-Diffusion para que ya se puedan seleccionar en la interfaz. Además de estos modelos 'grandes', hay otros más pequeños para cosas mucho más concretas, como incluir personajes o personas en las imágenes o estilos artísticos nuevos, los que se conocen como LoRa y Embbedings, que van en las carpetas del mismo nombre. Tienen la ventaja de que se pueden usar conjuntamente con cualquier modelo 'grande' y puedes incluso usar varios a la vez, ocupando muchísimo menos. Además, estos son fáciles de crear para cualquiera y puedes entrenar los tuyos propios tú mismo con tan sólo tener, por ejemplo, 20 o 30 imágenes del personaje o estilo que quieras incluir (logicamente, a mayor cantidad de imágenes para entrenar, mejores resultados).
De los checkpoints, recomiendo como imprescindibles los siguientes:
- Anything V. 3 para anime
- Realistic Vision V 1.3 para imágenes fotorrealistas (es el que usé con los personajes del Gauntlet) y también es muy bueno Art & Eros en el mismo estilo
- DreamShaper para ilustraciones en todo tipo de estilos
- Los modelos de la serie Orangemix (AbyssOrangeMix, EerieOrangeMix y BloodOrangeMix) para anime y hentai (unos están más indicados para lo primero y otros para lo segundo, y también unos van más en un estilo de ilustración y otros más en estilo anime de Tv y cine)
Luego lo demás es opcional, y el tema de los LoRa y los Embeddings no es necesario en absoluto salvo que queras usar el estilo muy concreto de algún dibujante o meter a tu personaje favorito de anime o videojuegos, y hay muchísimos.
Las webs de referencia para descargarlos son dos:
- Civitai, que es la que más uso y mucho más visual con ejemplos de cada modelo (y hasta puedes ver los 'prompts' de las imágenes, es decir, la secuencia y configuración para crearlas e incluso su semilla -por lo que la puedes replicar exactamente-): https://civitai.com/ (https://civitai.com/)
- Hugginface, que es más 'árida' ya que es del estilo de Github, pero por contra allí también encuentras modelos que no están en Civitai, y cuya dirección es la siguiente: https://huggingface.co/ (https://huggingface.co/)
Y luego, para aprender y resolver cualquier duda, es casi imprescindible visitar el Discord de 'Unstable Diffusion', a mí me ha ayudado muchísimo lo que se habla por allí, y he descubierto cosas como lo de los modelos experimentales ControlNet... Su enlace de invitación es este: https://discord.com/invite/bq4jrdDvDa (https://discord.com/invite/bq4jrdDvDa)
Cita de: Fardelejo en Febrero 19, 2023, 05:40:37 PM
Tengo una duda desde la ignorancia. Imaginad que quiero hacer un cómic con unos personajes que se repiten en múltiples imágenes (viñetas). ¿Hay alguna forma de generar diferentes ilustraciones de un personaje que hayas definido antes?
Si, se puede entrenar un embedding o un LoRA para que la IA 'aprenda' cómo es el personaje, que ropa lleva, etc... y desde ese momento sea capaz de presentarlo en cualquier pose y respetando la ropa... También tiene lo interesante de poder regular el grado de fidelidad del LoRA, y de esta forma crear nuevos personajes con características del personaje del LoRA o mezclaro con otro (y vale también para introducir persona reales y mezclarlas con otras, por ejemplo Scarlett Johansson al 50% con Winona Ryder). Además también podrás crear el personaje en otros 'estilos', ya sea haciendo un dibujo animado una persona real o al contrario...
Hay en Youtube un tutorial muy bueno para crear tus propios LoRAs, pero recomiendo hacerlo cuando ya se tenga algo de rodaje con Stable Diffusion:
https://www.youtube.com/watch?v=70H03cv57-o
Otra cosa interesante sobre el mismo tema, que puede ayudar mucho a conseguir que los personajes de una imagen salgan de la forma que queramos, son los modelos especiales ControlNet, que añaden una capa extra de control a la imagen generada partiendo de una imagen previa, y de lo que hablan en el siguiente vídeo:
https://www.youtube.com/watch?v=OxFcIv8Gq8o
Uno de los puntos débiles de las IA de este tipo es a la hora de generar manos o dedos... Ha salido una nueva extensión de Stable Diffusion WebUI para corregir las manos... Esta de la que hablan en el siguiente vídeo:
https://www.youtube.com/watch?v=EwWkLMhR23I
Además, ha salido otra extensión muy útil que permite al generar una imagen, dividir esta en secciones y poder definir un personaje concreto para cada una, incluso usando LoRAs independientes en cada sección, lo que permite (por fin) controlar por completo la generación de grupos de personajes y lo que hacen. También hay un vídeo sobre esto:
https://www.youtube.com/watch?v=uR89wZMXiJ8
De esta forma, poco a poco van mejorando y limando los problemillas ya conocidos...
Qué grande! Muchas gracias, compañero.
Me quedo por aquí ;D
Mil gracias, buscaba un hilo como este.
Venga quiero empezar a ver creaciones, que a mí se me han acabado los créditos gratis de midjourney.
Hoy me ha dado por hacer animalillos 'cuquis' con un modelo que es de la versión 1.5:
(https://i.imgur.com/b2KWbBk.png)
(https://i.imgur.com/gClY6qK.png)
(https://i.imgur.com/VcJswBR.png)
(https://i.imgur.com/4KCTLmk.png)
(https://i.imgur.com/1jb3mIz.png)
(https://i.imgur.com/Iia1tC1.png)
(https://i.imgur.com/C6horcR.png)
(https://i.imgur.com/r2TEbXy.png)
(https://i.imgur.com/oy5AxCW.png)
(https://i.imgur.com/lQJTos6.png)
(https://i.imgur.com/BSBaj3G.png)
(https://i.imgur.com/RnjkAYI.png)
(https://i.imgur.com/LPuZCVI.png)
(https://i.imgur.com/pgWdVyO.png)
(https://i.imgur.com/m04Gzef.png)
(https://i.imgur.com/Bb0Ra5y.png)
(https://i.imgur.com/zwsiO2r.png)
(https://i.imgur.com/dOeowaA.png)
(https://i.imgur.com/qZEMAyr.png)
(https://i.imgur.com/Rx9Iguz.png)
(https://i.imgur.com/5VL6ASG.png)
(https://i.imgur.com/nh4UtBD.png)
(https://i.imgur.com/ND9Etys.png)
(https://i.imgur.com/v63Ltsa.png)
(https://i.imgur.com/FwLkye7.png)
(https://i.imgur.com/qllhwl1.png)
;D
He caído en la cuenta de que algunas cosas que he puesto en otros hilos irían mejor recopiladas aquí, así que eso voy a hacer, y de paso comento también las últimas cosas interesantes que he estado probando....
Primero, lo que comenté a modo de mini-tutorial sobre como estructurar los 'prompts' para conseguir mejores imágenes:
Mis prompt no suelen ser muy complejos, la clave está en usar el Negative Prompt para mejorar la calidad de la imagen y en usar la información correctamente estructurada. Normalmente tiene más peso lo primero que se escribe, y se debe seguir un orden en la descripción, más o menos así: Tipo de imagen que se quiere generar (si es una foto, una ilustración, un render 3D, etc..), personajes que aparecen (una mujer y dos hombres, etc...), descripción del personaje (caracterñisticas físicas, ropa, etc...), que está haciendo (sentado, corriendo, tomando una taza de café, etc...), elementos que hay alrededor del personaje o al fondo, dónde se encuentran los personajes (escenario) y finalmente, cómo es la iluminación, los planos de cámara e incluso la configuración de la cámara de fotos (modelo de la cámara, óptica, etc...). Además, también es importante usar las opciones que hay para dar más peso a ciertos términos de la descripción sobre otros. Si pones una palabra o conjunto de ellas entre paréntesis, le estás indicando a la IA que le dé más importancia a dicho término. Cuantos más paréntesis le pongas, más peso va a tener. También se puede poner en su lugar con el siguiente formato: (pelo rubio:1.2), de esta forma le estás indicando la importancia en un porcentaje en base uno (es decir, en el ejemplo sería un 120%). Esto se puede usar también para restarle importancia poniendo valores por debajo de 1 (o escribir el término entre corchetes en lugar de paréntesis).
Luego en el Prompt Negativo, hay cosas que te facilitan mucho la labor sin tener que escribir prompts kilométricos, como es usar embbedings negativos. Los embeddings es lo que había antes de la aparición de los LoRA y tienen la misma función, es decir, incluir personajes, estilos o conceptos, y se usan como si fueran un término más del prompt, simplemente escribiendo su nombre. Hay varios para el prompt negativo que se usan para desechar imágenes de mala calidad, evitar en la medida de lo posible personajes deformes y conseguir mejores manos. En mi caso particular uso EasyNegative y bad-hands-5. Simplemente con estos dos, y como mucho alguna cosa más para eliminar cosas de las imágenes que vayas probando (por ejemplo logos o marcas de agua) ya consigues imágenes de buena calidad en general. Os voy a mostrar un ejemplo de hasta que punto cambia una imagen usar el EasyNegative:
La siguiente imagen se ha generado con el siguiente prompt usando la versión 2 de mi LoRA de Azpiri:
1woman, blonde hair, short hair, sword, wielding, armor, huge breasts, navel, dragon, columns, lava, detailed background, stone wall in the background<lora:AzpiriV4:0.8>
Y en el prompt negativo únicamente esto:
EasyNegative, bad-hands-5
Resultado:
(https://i.imgur.com/9ZGRy2u.png)
(sí, ya sé que está sujetando la espada por el lado equivocado ;D, es una imagen random que he generado de forma rápida para el ejemplo)
Y si ahora quito todo lo del prompt negativo, manteniendo todo lo demás y usando la misma semilla (un código numérico que se genera con cada imagen que te permite volver a reproducirla exactamente y comprobar los cambios usando modelos diferentes o cambiando cosas de la descripción), la imagen cambia a esto:
(https://i.imgur.com/7u3NSwx.png)
Como véis, mucho peor, manca, y con fallos de todo tipo, sin detalle, etc...
Otra combinación 'que hace magia' en el prompt negativo sin necesidad de usar embbedings es simplemente escribir esto:
(worst quality, low quality:1.4)
En la imagen anterior, lo que resulta es lo siguiente:
(https://i.imgur.com/KaBZHsS.png)
Como podéis ver, algo intermedio pero más cercano a la primera imagen que a la segunda, ya con una calidad más aceptable (aunque el bad-hands-5 le vendría genial para arreglar esas manos).
En el caso de Stable Diffusion, a la hora de escribir el prompt se puede hacer de dos formas, como habéis visto en el ejemplo, que es usando etiquetas estandarizadas en los servicios de alojamiento de imágenes de Anime y Hentai (Danbooru se llaman, el mismo nombre que un servicio de estos muy famoso: https://danbooru.donmai.us/ (https://danbooru.donmai.us/)), o usando el modo Clip, que es en lenguaje natural directamente, como cuando le hablas a ChatGPT. Sin embargo, lo más común es usar el de etiquetas de anime porque es más directo a la hora de cambiar cosas y se puede usar con otras IA diferentes. El Clip se suele usar más con imágenes realistas (aunque no sé la razón). Y siempre en inglés, a pesar de que entiende el español, pero en inglés es mucho más efectivo.
Y Ahora, lo de mi LoRA con el estilo de Azpiri, que ya dí por concluído tras tres versiones diferentes (todas disponibles y todas interesantes igualmente, por lo que conviene tenerlas todas por sus particularidades si se quiere sacar provecho a todo el potencial del estilo, aunque la más flexible sería la última). A continuación pongo ejemplos de imágenes generadas con cada versión:
- Versión 1 (original), entrenada por el método del vídeo de Aitrepreneur que posteé al principio, con 80 imágenes de entrenamiento, 1 única epoch y 100 repeticiones por imagen:
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b7feac17-b018-4a58-0b4e-6f58f66a6400/width=1536/302108)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/918ca65f-1b81-43f2-17ad-1859cb529600/width=1264/302118)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c190a089-3f51-42f0-d815-9377c08c3900/width=1536/302114)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/609bf617-3b60-413e-d237-dfdc05bf0900/width=1264/302117)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/943d430c-2531-41c2-3546-37cc2ee0bc00/width=1536/302116)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/6797bf29-e050-4cb6-9b12-1e77be399200/width=1264/302111)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ef9ba153-09f7-4b00-1349-41aea4959900/width=1264/302110)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/3de49683-bbbf-480c-5eed-c8f194ec4000/width=1536/302115)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/9cbf815f-e581-41d2-4b88-b4888d405400/width=1536/302113)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/4d236529-159a-49d1-ceb5-ba668f8c2700/width=1280/302112)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/aa68bcb8-5536-433c-16d4-0998f311d600/width=1152/302109)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/3f40a73c-5650-4aa0-ecf8-76c6f7dafb00/width=1152/302215)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/3a3f7ae4-958e-4d74-a820-e9b31fa98300/width=1152/302214)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/a049d4dc-a05d-4c70-91a5-007a3ddcb400/width=1536/302213)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/e630d3b0-fe17-4a1f-d5c5-026ac8f3b800/width=840/302211)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ef735f28-c437-449c-0f01-63f511fa3d00/width=1536/302210)
- Primer intento de optimizar el LoRA con nuevos métodos y reducir su tamaño de 144 MB a sólo 37. Esta vez se emplearon más imágenes pero el entrenamiento fué insuficiente, por lo que los fondos no los realizaba siguiendo el estilo de Azpiri, pero a cambio quedó una especie de nuevo estilo con chicas espectaculares y escenarios detallados, por lo que decidí compartirlo también. La llamé versión 'Soft' al ser el resultado más suave y detallado. El entrenamiento se hizo con 100 imágenes, 3 repeticiones por imagen y 15 epoch (con lo cual las repeticiones totales por imagen fueron 3x15 = 45). También aumentó (mucho) la tendencia del LoRA de sacar a las chicas desnudas o casi desnudas, por lo que había que hacer uso del 'prompt negativo' poniéndo allí 'nude', 'topless', 'nipples' y 'nfsw' si se querían hacer imágenes 'normales':
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/f1d3bd84-30ea-44ff-72d1-f9c04a464400/width=1264/338128)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/d4bd3037-a33c-48f1-0071-26fc2000f900/width=1024/338127)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/1cd1d216-f0dd-448a-1a9a-46305eae2800/width=1024/338126)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/5ca03b17-15b0-479c-96a7-ad3d018f5000/width=1280/338124)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/85395fdf-a6c6-48cb-e508-95e1e48dbe00/width=1280/338123)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/3fa27d5f-e05e-4999-1de3-388424fff600/width=1280/338121)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/57d77918-d317-45c1-76b9-b457bda28500/width=1280/338119)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/6493f29e-a55c-4213-3acd-1f6cb5261100/width=1024/338133)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/2f384124-4021-4dc4-3fc6-185da9c7d800/width=1024/338120)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/7bb6021d-6fe5-407e-6ab1-a8d07c0eb200/width=1024/338135)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/eb32ccc3-29dd-42f1-8621-c6d77cb46c00/width=1024/338137)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/72f9245f-5a6f-431a-05b7-be952e8baf00/width=1024/338136)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/597ad931-8729-4621-63b2-e98365333600/width=1280/338125)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/80a4313c-642c-4408-a8e3-ecab81e5e200/width=1024/338134)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/67ced552-1993-4b57-1634-60711c74a900/width=1280/338122)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/de531ab7-6a07-4aa3-d393-48c6a006b400/width=1536/338132)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/30251767-826e-4538-002b-4b2fd8b5a100/width=1024/338131)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/445330c1-b91f-45ff-0f26-283f0b9a4900/width=1024/338130)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/9d3a764f-4f9b-42d3-d747-6e421a6ff100/width=1264/338129)
- La versión final y auténtica versión 2 del LoRA. Después de muchas pruebas e iteraciones partiendo del nuevo método pero pasando de algunas de las indicaciones, conseguí mi objetivo y pude aunar las características de las dos versiones previas en una sola versión. Descubrí que se pueden aumentar el número de repeticiones por imagen totales sin que 'se queme' el LoRA más fácilmente aumentando el número de epoch en lugar del número de repeticiones por epoch, así que conseguí el resultado buscado esta vez usando 140 imágenes, con 4 repeticiones por imagen y 27 epoch (repeticiones totales por imagen 4x27 = 108). E incluso creo que podría haber seguido haciendo iteraciones porque el resultado seguía siendo bueno en todos los epoch. El resultado final es un LoRA que es 100% fiel a Azpiri como en la primera versión usando el Lora a 0.85 - 1 en el prompt (a un 85-100%), y que se vuelve un estilo suave y detallado como el de la versión 'Soft' entre un 0.7 - 0.84, pero sin el problema de los fondos genéricos de aquella:
* Estilo 100% Azpiri:
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b8f61ec5-5974-4ab4-d618-8ea6fab13000/width=1024/380493)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/91222e44-c83f-4c31-8027-0ecac17bf300/width=1024/380491)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/2303cb9e-f28d-4d6c-1ad3-f179c0dafd00/width=1024/380489)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/02d93038-bdea-4e09-db0f-0fad744ccd00/width=1024/380503)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b3287a87-d3df-4484-5957-e404c2c78f00/width=1024/380483)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/4c8ff509-3d79-4cc9-a294-b9bdfaf95100/width=1024/380482)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/d51eb043-eb12-4b67-ad48-841003d48400/width=1024/380481)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b868bc35-54e4-4a1d-7a9d-406944a26d00/width=1024/380480)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/d19b2ed6-fdcc-4db1-5815-59d7a66fbb00/width=1024/380479)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/30fb0952-c68e-4516-558e-4450ae7deb00/width=1024/380478)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/f26e5e09-17eb-4597-7707-9ec371f32b00/width=1024/380477)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b17d0b59-331c-490c-d85d-e9b8ceb89b00/width=1024/380476)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/5331cf0c-4b2b-42f2-94a8-4235a00f8500/width=1024/380475)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ede191c1-1185-42a2-f11a-0e83873f1a00/width=1024/380474)
(https://i.imgur.com/lnG2wqD.png)
(https://i.imgur.com/DubjedY.png)
(https://i.imgur.com/48RApVu.png)
(https://i.imgur.com/VlAZikp.png)
(https://i.imgur.com/Ac38e4r.png)
(https://i.imgur.com/4Q2tfqM.png)
(https://i.imgur.com/uM7Rf66.png)
(https://i.imgur.com/e11V7XS.png)
(https://i.imgur.com/Bzx0PoD.png)
* Estilo más suave y detallado:
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c24350c7-d2b6-4290-3467-5cd68be1a000/width=1024/380492)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/922d416a-0ac8-4cdd-46c1-1201a96c0e00/width=1024/380488)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/571fd6c2-4f29-44e6-2e1a-d07995b6c200/width=1024/380487)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/6d963cb4-3f22-4698-4096-0eeb4f741000/width=1024/380485)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/5e1198ac-cf4e-452c-ed11-e4cbc996ab00/width=1024/380484)
(https://i.imgur.com/5PZ4LVe.png)
(https://i.imgur.com/VjrAPu0.png)
(https://i.imgur.com/XhGXopR.png)
(https://i.imgur.com/Plh6lb1.png)
(https://i.imgur.com/uVsVE2E.png)
(https://i.imgur.com/G9IIUwD.png)
(https://i.imgur.com/bvoOR2m.png)
(https://i.imgur.com/LaXxKJX.png)
(https://i.imgur.com/PRd8ON1.png)
Todo aquél que lo quiera usar, lo puede descargar de Civitai: https://civitai.com/models/22982 (https://civitai.com/models/22982)
Es importante leer lo que pone en la descripción para conseguir buenos resultados.
Sobre lo que he comentado antes, aclarar que los epoch ('épocas') durante el entrenamiento son como 'puntos de control' que hace la utilidad con la que se crea el LoRA cada cierto tiempo de forma periódica, en una cantidad indicada por el usuario, lo que permite que si al final el LoRA se queda 'sobreentrenado' (lo que genera que se 'quemen' las imágenes al usarlo) se puedan utilizar epoch anteriores evitando repetir el proceso. Cada epoch es un LoRA totalmente funcional. Incluso a veces estos epoch pueden tener características propias interesantes frente a la versión final aunque esta sea correcta, por lo que merece la pena experimentar con ellos a veces.
El otro método alternativo para hacer LoRAs que seguí para las dos últimas versiones es el de esta guía: https://civitai.com/models/22530 (https://civitai.com/models/22530)
Como digo, las recomendaciones que da no se tienen por qué seguir al 100%, sobre todo en lo referente al número máximo de epoch y repeticiones, y si en un primer momento el resultado no es lo que buscáis al entrenar vuestro LoRA, id probando aumentando el número de epoch sin miedo por encima de lo que recomienda.
Y ahora voy con lo último que he estado probando. En primer lugar, como ya mencióne en otro hilo, estuve probando un LoRA para hacer mundos en miniatura con resultados tan espectaculares como estos:
(https://i.imgur.com/jMowlmH.png)
(https://i.imgur.com/vlXvL2G.png)
(https://i.imgur.com/a6wGXPN.png)
(https://i.imgur.com/RqmJrWn.png)
(https://i.imgur.com/cOhtDca.png)
(https://i.imgur.com/BS1aASx.jpg)
(https://i.imgur.com/Z1w9V1o.jpg)
(https://i.imgur.com/edhwwIF.png)
(https://i.imgur.com/ddbjV2d.png)
(https://i.imgur.com/Rojy7Dx.jpg)
(https://i.imgur.com/AgF149P.jpg)
Recomiendo probarlo con los checkpoints (modelos completos) RevAnimated 1.1 y RPG4, por el nivel de detalle que aportan. Se puede descargar el LoRA mencionado de aquí: https://civitai.com/models/28531/miniature-world-style (https://civitai.com/models/28531/miniature-world-style)
Y en segundo lugar, he estado probando un servicio gratuíto online que convierte imágenes 2D en 3D usando una IA, que luego se pueden descargar como un gif animado o un mp4, y otros formatos como 3D SBS para verlas en VR o en una tele con 3D stereoscópico... He hecho pruebas con resultados como estos:
(https://i.imgur.com/qFY6PM1.gif)
(https://i.imgur.com/IRaOLoY.gif)
(https://i.imgur.com/XeEbEE2.gif)
(https://i.imgur.com/c0oDUFo.gif)
Tan sólo hay que ir y registrarse aquí: https://convert.leiapix.com/ (https://convert.leiapix.com/)
Como mejor quedan los gifs es descargando las animaciones en mp4 y luego pasándolas a gif en Convertio, que da muy buena calidad: https://convertio.co/es/mp4-gif/ (https://convertio.co/es/mp4-gif/)
Los mundos en miniatura son una pasada :o
En la parte de prompts negativos, hay alguna página que te diga los que existe y para que sirve cada uno? Como por ejemplo tu has hecho que has puesto 1 que sirve para manos.
Cita de: Remiel en Abril 11, 2023, 08:36:09 PM
En la parte de prompts negativos, hay alguna página que te diga los que existe y para que sirve cada uno? Como por ejemplo tu has hecho que has puesto 1 que sirve para manos.
No, pero no hace falta usar muchos... Con usar un par de los mas conocidos ya vale... De todas formas, en Civitai haciendo una búsqueda del término Negative Embedding salen la mayoría:https://civitai.com/tag/negative%20embedding (https://civitai.com/tag/negative%20embedding)
Hay algunos que están hechos para usar específicamente con uno o más modelos y otros generales, pero en general, lo más recomendable es usar EasyNegative, bad-hands-5 (este ha desaparecido de Civitai, no sé por qué), bad-artist, badhandv4... Generalmente basta con el primero (que en mi opinión es el mejor) y uno de los otros, (por ejemplo badhandv4), y también es buena idea poner en el prompt negativo (worst quality, low quality:1.4). Con eso en realidad no hace falta más, a veces basta con sólo EasyNegative y muchas otras ni siquiera hacen falta los embeddings. Es cuestion de probar. Yo sólo uso los dos primeros. También hay que comentar que a veces es contraproducente poner muchos términos en el Negative Prompt (en algunos checkpoints), y otras en los que los Negative Embeddings pueden afectar a un estilo que estés usando. Siempre conveniente usar el método de prueba y error.
Por cierto, esta tarde he visto un modelo que seguro que os llamará la atención... Se trata de un modelo que hace específicamente mapas para juegos de rol y de tablero... Algunos ejemplos:
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/2f593482-c787-4b21-b4ba-09a52a607c00/width=1024/06496-2925228407-battlemap%20dungeon%20lava%20ruins.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/6a769e63-9546-4f76-88c5-b1fe34d70500/width=2048/06873-762673948-battlemap%20dungeon%20rocky%20cave%20with%20river.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/0fd486dd-7f67-49bc-cc6e-ed7162b1bf00/width=1536/06976-1707935593-battlemap%20outdoor%20tavern%20inn,%20path.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/96927149-ee68-408d-b558-a5ae92ebf900/width=1536/07942-3709250644-battlemap%20outdoor%20tropical%20island%20in%20sea,%20pirate%20bay.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/8f0ec2d5-4a08-4170-dfd5-4b696c820d00/width=1536/08617-449927169-battlemap%20%20dungeon%20mossy%20rooms%20barracks.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/04126476-3acb-4f86-b3a9-0795f9cf0900/width=1280/07636-278338229-battlemap%20inside%20alien%20spaceship.jpeg)
(https://imagecache.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/5a8fcf73-9df5-42ab-59c5-eceb2f53fa00/width=1536/08044-89754190-battlemap%20dungeon%20Catacombs.jpeg)
Se puede descargar de aquí: https://civitai.com/models/23240/dandd-battlemaps (https://civitai.com/models/23240/dandd-battlemaps)
Hola
Y hay alguna forma de usarlo via web sin tener que instalar nada, pero que sea igual de preciso ?
Por que lo que he encontrado da unas imágenes bastante malas...
Cita de: NoobMinis en Mayo 02, 2023, 01:34:28 PM
Hola
Y hay alguna forma de usarlo via web sin tener que instalar nada, pero que sea igual de preciso ?
Por que lo que he encontrado da unas imágenes bastante malas...
Sí que había una forma, aunque Google lo ha complicado un poco.... Se podía hacer a través de Google Colab, que es un servicio de Google que permite 'alquilar' temporalmente equipos de forma remota con gráficas profesionales para proyectos de IA e investigación. Si tienes una cuenta de Gmail, se pueden usar gratis 4 horas al día. Por esta razón, había usuarios que habían creado 'cuadernos' para ejecutar Stable Diffusion WebUI (la misma interfaz que ejecutas en local en tu ordenador) online de esta manera. Sin embargo, parece ser que había demasiada gente usando de esta forma el servicio y Google decidió limitar su uso para Stable Diffusion WebUI en particular, aunque mediante un pequeño truco algunos lo han podido 'esquivar' y sigue funcionando. Si tienes cuenta de pago, sin embargo, ahí no limitan su uso y de hecho Google ya ha dicho que en esas cuentas no se va a limitar, y que si se ha hecho en las gratuítas ha sido por un tema de recursos.
Cita de: sirdrak en Mayo 03, 2023, 11:52:33 AM
Sí que había una forma, aunque Google lo ha complicado un poco.... Se podía hacer a través de Google Colab, que es un servicio de Google que permite 'alquilar' temporalmente equipos de forma remota con gráficas profesionales para proyectos de IA e investigación. Si tienes una cuenta de Gmail, se pueden usar gratis 4 horas al día. Por esta razón, había usuarios que habían creado 'cuadernos' para ejecutar Stable Diffusion WebUI (la misma interfaz que ejecutas en local en tu ordenador) online de esta manera. Sin embargo, parece ser que había demasiada gente usando de esta forma el servicio y Google decidió limitar su uso para Stable Diffusion WebUI en particular, aunque mediante un pequeño truco algunos lo han podido 'esquivar' y sigue funcionando. Si tienes cuenta de pago, sin embargo, ahí no limitan su uso y de hecho Google ya ha dicho que en esas cuentas no se va a limitar, y que si se ha hecho en las gratuítas ha sido por un tema de recursos.
Mil gracias por la explicación pero me pierdo un poco en temas informáticos.....
Investigare un poco pero la verdad es que no doy un duro por mi :D :D :D
Aún no estamos en ese punto, no creo que tardemos mucho, pero por ahora aún no. Para usar Google Colab necesitas no diré que tener conocimientos de programación, pero a una persona que no ha tocado este tipo de cosas ni con un palo ven esto:
https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb#scrollTo=_RrbYQVQXK6I (https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb#scrollTo=_RrbYQVQXK6I)
Y se les puede hacer cuesta arriba.
Lo más sencillo para lo que tú buscas sería Midjourney yo creo. Tienes que crearte una cuenta, unirte a discord y unirte al canal de Midjourney y poco más, pero si lo prefieres también tienes tutoriales en Youtube a patadas y en 5 minutos puedes estar metiendo prompts para generar imágenes. La pega, si quieres darle un uso más o menos asiduo es de pago. Si lo único que quieres es marranear un poco para ver como es esto de la IA para generar imágenes te puede valer.
Cita de: Remiel en Mayo 04, 2023, 11:25:44 PM
Aún no estamos en ese punto, no creo que tardemos mucho, pero por ahora aún no. Para usar Google Colab necesitas no diré que tener conocimientos de programación, pero a una persona que no ha tocado este tipo de cosas ni con un palo ven esto:
https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb#scrollTo=_RrbYQVQXK6I (https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb#scrollTo=_RrbYQVQXK6I)
Y se les puede hacer cuesta arriba.
Lo más sencillo para lo que tú buscas sería Midjourney yo creo. Tienes que crearte una cuenta, unirte a discord y unirte al canal de Midjourney y poco más, pero si lo prefieres también tienes tutoriales en Youtube a patadas y en 5 minutos puedes estar metiendo prompts para generar imágenes. La pega, si quieres darle un uso más o menos asiduo es de pago. Si lo único que quieres es marranear un poco para ver como es esto de la IA para generar imágenes te puede valer.
Aunque yo no los he usado, en el Discord de Unstable Diffusion, en la sección es Español, hay cuadernos de Colab ya preparados y en Español y la diferencia con eso es que ejecutan directamente la interfaz Web de Stable Diffusion, la misma que se usa en local, por lo que no es tan árido... Ya vienen preconfigurados incluso con varios modelos precargados para elegir. Lo mejor es pasar por aquél Discord y preguntar allí.
Cita de: Remiel en Mayo 04, 2023, 11:25:44 PM
Aún no estamos en ese punto, no creo que tardemos mucho, pero por ahora aún no. Para usar Google Colab necesitas no diré que tener conocimientos de programación, pero a una persona que no ha tocado este tipo de cosas ni con un palo ven esto:
https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb#scrollTo=_RrbYQVQXK6I (https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb#scrollTo=_RrbYQVQXK6I)
MARE DE DEU !!!! hahahahahaha !
Si, si que hecha para atras !
Si claro lo que quiero es marranear y probar un poco, lo de pagar pues no creo que sea lo que necesito.
Cita de: sirdrak en Mayo 04, 2023, 11:58:32 PM
Aunque yo no los he usado, en el Discord de Unstable Diffusion, en la sección es Español, hay cuadernos de Colab ya preparados y en Español y la diferencia con eso es que ejecutan directamente la interfaz Web de Stable Diffusion, la misma que se usa en local, por lo que no es tan árido... Ya vienen preconfigurados incluso con varios modelos precargados para elegir. Lo mejor es pasar por aquél Discord y preguntar allí.
Voy a probar esto a ver si encuentro el canal !
Gracias chicxs !
Pues nada ya tengo un Colab..... y ahora que ??? ?
He cogido uno de Unstable que se llama "General Gost Colab Actualizado" (SD 1.5 & Civitai) pero no se que hacer con el, lo ejecuto y se carga... pero mas de ahi no se avanzar,
Alguno de vosotros sabeis como seguir o donde encontrar info ?
Cita de: NoobMinis en Mayo 06, 2023, 03:11:30 PM
Pues nada ya tengo un Colab..... y ahora que ??? ?
He cogido uno de Unstable que se llama "General Gost Colab Actualizado" (SD 1.5 & Civitai) pero no se que hacer con el, lo ejecuto y se carga... pero mas de ahi no se avanzar,
Alguno de vosotros sabeis como seguir o donde encontrar info ?
Ya he visto que estás en el Discord de Unstable Diffusion... Justo en los mensajes de antes de tu saludo estaban explicando un poco cómo se usa... Básicamente, ejecutas el cuaderno y conforme el mismo cuaderno te explica, seleccionas los modelos que quieras usar de los que tenga (aunque creo que luego tu puedes cargar otros, pero los que propone están bién). Los modelos (checkpoints) están especializados en cosas diferentes (por ejemplo URPM es para fotorrealismo e imágenes nfsw, mientras que para anime están los Anything, Orangemix y similares).No elijas todos porque no cabrán todos en la cuenta, con seleccionar 2 o 3 estará bién... Al terminar de ejecutar el cuaderno, te dará una dirección ip, que pone algo así como 'Running on local URL: <aquí una dirección IP>' y debajo 'Running on public URL: <otra dirección IP>'. Bien, pues abres la segunda en una ventana nueva y te abrirá la interfaz de Stable Diffusion UI como si lo ejecutaras en local y ya podrás generar imágenes, escribir el prompt, seleccionar la resolución, etc...
Cita de: sirdrak en Mayo 06, 2023, 05:07:49 PM
Ya he visto que estás en el Discord de Unstable Diffusion... Justo en los mensajes de antes de tu saludo estaban explicando un poco cómo se usa... Básicamente, ejecutas el cuaderno y conforme el mismo cuaderno te explica, seleccionas los modelos que quieras usar de los que tenga (aunque creo que luego tu puedes cargar otros, pero los que propone están bién). Los modelos (checkpoints) están especializados en cosas diferentes (por ejemplo URPM es para fotorrealismo e imágenes nfsw, mientras que para anime están los Anything, Orangemix y similares).No elijas todos porque no cabrán todos en la cuenta, con seleccionar 2 o 3 estará bién... Al terminar de ejecutar el cuaderno, te dará una dirección ip, que pone algo así como 'Running on local URL: <aquí una dirección IP>' y debajo 'Running on public URL: <otra dirección IP>'. Bien, pues abres la segunda en una ventana nueva y te abrirá la interfaz de Stable Diffusion UI como si lo ejecutaras en local y ya podrás generar imágenes, escribir el prompt, seleccionar la resolución, etc...
Gracias pero no me carga,.... me da un error
/content/stable-diffusion-webui
sed: can't read /content/stable-diffusion-webui/modules/shared.py: No such file or directory
🚀Tiempo de ejecución: 00:07:02
python3: can't open file '/content/stable-diffusion-webui/launch.py': [Errno 2] No such file or directory
Pues me ha dado por probarlo, con una máquina en la cloud que tengo, con las indicaciones de @sirdrak (https://www.darkstone.es/index.php?action=profile;u=1568) del primer post, mirando el tutorial de instalación y ya luego un poco de investigación y mirando un poco por civitai...
(https://i.imgur.com/Ej5U05h.png)
(https://i.imgur.com/n64eS04.png)
Aún le tengo que dar un poco porque los colores me salen muy oscuros o con pocos detalles o menos de lo que me gustaría, quizá me cueste expresarme con el inglés para ser más descriptivo...
¿Algún otro tutorial interesante que pueda conseguir esos resultados?
Lo curioso, con las últimas pruebas es que consigues unos resultados básicos y a base de iterar y de usar una imagen pregenerada de base, vas consiguiendo mejores imágenes, con más detalles y mejorando extremidades, dedos, etc. Es curiosa la forma de trabajar...
Cita de: trent en Mayo 12, 2023, 08:04:53 PM
Pues me ha dado por probarlo, con una máquina en la cloud que tengo, con las indicaciones de @sirdrak (https://www.darkstone.es/index.php?action=profile;u=1568) del primer post, mirando el tutorial de instalación y ya luego un poco de investigación y mirando un poco por civitai...
(https://i.imgur.com/Ej5U05h.png)
(https://i.imgur.com/n64eS04.png)
Aún le tengo que dar un poco porque los colores me salen muy oscuros o con pocos detalles o menos de lo que me gustaría, quizá me cueste expresarme con el inglés para ser más descriptivo...
¿Algún otro tutorial interesante que pueda conseguir esos resultados?
Lo curioso, con las últimas pruebas es que consigues unos resultados básicos y a base de iterar y de usar una imagen pregenerada de base, vas consiguiendo mejores imágenes, con más detalles y mejorando extremidades, dedos, etc. Es curiosa la forma de trabajar...
Pues lo del color de las imágenes tiene pinta de ser porque no le tienes asignado un VAE al modelo que estés usando para generarlas... Un VAE es como un modelo de apoyo que se usa para mejorar los colores y corregir algunos defectos en la generación de imágenes... Algunos modelos lo traen ya 'incrustado' dentro, pero muchos otros no. Para poner un VAE, básicamente tienes que descargar uno (realmente sólo hay 4 o 5 y los más usados son un par, de hecho yo la mayoría de las veces uso siempre el mismo), y luego meterlo en la carpeta de Stable Diffusion Web UI llamada VAE que está dentro de la carpeta Models. Ya dentro de la interfaz, sólo hay que ir a la pestaña Settings, allí a la opción Stable Diffusion y uno de los primeros desplegables es el del VAE, en el que podrás seleccionar el que quieras entre los disponibles. Luego le das al botón Apply changes para que aplique los cambios y listo. El mas versátil y que uso siempre es este (descargar la versión que pone safetensors):
https://huggingface.co/stabilityai/sd-vae-ft-mse-original/tree/main (https://huggingface.co/stabilityai/sd-vae-ft-mse-original/tree/main)
Por cierto, ya que estoy, voy a comentar algunas novedades muy interesantes que aumentan aún más el potencial de Stable Diffusion. Anteriormente ya os hablé de la extensión ControlNet, que tiene varios modelos que añaden una capa extra de control a la generación de imágenes usando como referencia una imagen de partida, con modelos que permiten clonar posturas de personajes, hacer un mapa de profundidad de la imagen de partida para aplicarlo a la imagen final y muchas cosas más. Hace poco, la extensión se actualizó a su versión 1.1 e introdujo varios nuevos tipos de modelos con nuevas funcionalidades, algunas de ellas muy interesantes. De todas ellas yo destacaría las siguientes:
- Los modelos que permiten colorear un lineart de un dibujo sin modificar dicho dibujo. Esto es el sueño de todo artista, porque ahorra muchísimo trabajo, todo el paso que va desde el trazado del dibujo hasta el coloreado, añadir sombras, luces, un fondo y efectos especiales al dibujo final, como podéis ver en los siguientes ejemplos del Github de la extensión:
(https://github.com/lllyasviel/ControlNet-v1-1-nightly/raw/main/github_docs/imgs/lineart_3.png)
(https://github.com/lllyasviel/ControlNet-v1-1-nightly/raw/main/github_docs/imgs/anime_3.png)
(https://github.com/lllyasviel/ControlNet-v1-1-nightly/raw/main/github_docs/imgs/anime_4.png)
Incluso se pueden recolorear y cambiar los colores de una ilustración completa con colores y todo:
(https://github.com/lllyasviel/ControlNet-v1-1-nightly/raw/main/github_docs/imgs/anime_6.png)
Pero además de lo anterior, la última novedad es de ayer, y se trata de un modo llamado 'Reference only', que no necesita ni siquiera de un modelo de ControlNet específico, sino sólo de una imagen de partida como referencia y un prompt, y que lo que hace básicamente es crear imágenes similares a la original pero haciendo lo que le indiques en el prompt. De esta forma parece que por fin será posible hacer que una persona o personaje, partiendo únicamente de una imagen suya inicial, salga en varias posiciones o con diferentes expresiones de manera consistente sin necesidad de entrenar un LoRA para ello.... Lo mejor es ver un ejemplo en el siguiente video:
https://www.youtube.com/watch?v=ddcySSbjkNQ
Lo que se ve ya es una pasada, pero es que a la velocidad que evoluciona creo que solamente estamos en el principio.
He visto este tutorial que pasa por encima de algunas cosas que ya se han comentado aquí y al menos en los videos que he visto la explicación es bastante sencillo y clara para una persona no muy metida en el tema. Aparte no sé si alguien ha probado ese instalador pero es muy fácil e intuitivo para otras instalaciones que he visto. En el link que proporciona @sirdrak (https://www.darkstone.es/index.php?action=profile;u=1568) en el post inicial es la que aparece en el apartado Easy method.
https://www.youtube.com/playlist?list=PLDEJW5aR0tLuhFBmnSGnUhM_6vuQJqry6 (https://www.youtube.com/playlist?list=PLDEJW5aR0tLuhFBmnSGnUhM_6vuQJqry6)
Aquí el video de instalación de Stable Diffusion sobre Google Colab:
https://www.youtube.com/watch?v=J31VoIJDMSU (https://www.youtube.com/watch?v=J31VoIJDMSU)
Por ahora solo he visto 4 videos pero pinta bien. En un canal con pocas visitas pero pinta que se van subiendo videos con cierta asiduidad.
Pedazo de tutorial. Enhorabuena ;)
Pues ahora, en mis experimentos con la IA, he dado accidentalmente con una combinación de modelos que me generan imágenes de un estilo que recuerdan a las espectaculares portadas de los juegos de ordenadores de 8 bits de Dinamic de Luis Royo... Básicamente estaba probando el LoRA que entrené con el estilo de Azpiri sobre un modelo para generar imágenes semirrealistas muy popular que se llama RevAnimated (que os he mencionado en otras ocasiones), junto con otro mini-modelo experimental que descargué que lo que hace es añadir mayor detalle a las imágenes, tal que así:
De esto:
(https://i.imgur.com/0nqWrbX.jpg)
A esto:
(https://i.imgur.com/jv89Tdm.jpg)
Sin embargo, en la combinación que hice el resultado fue no sólo que añadía más detalle sino que cambiaba de forma espectacular el estilo con imágenes que bien podrían ser directamente portada de algún juego de la época (sin edición de ningún tipo, directamente). El ejemplo más claro es este:
(https://i.imgur.com/Xu0B8sh.png)
Como véis, tiene esa gran cantidad de detalles, cuerpo femenino espectacular y contrastes rojo/naranja y azules, fuego/explosiones/agua y similares que se veían en carátulas como las de juegos como Navy Moves o Satán de Luis Royo. Y ahora pondré algunos otros ejemplos de temáticas variadas para que podáis ver:
(https://i.imgur.com/LEgHoLy.jpg)
(https://i.imgur.com/WsmRhEi.jpg)
(https://i.imgur.com/O07qlP5.jpg)
(https://i.imgur.com/6LF0XzA.png)
(https://i.imgur.com/dglie4L.png)
(https://i.imgur.com/xaHStNJ.jpg)
(https://i.imgur.com/st4sRer.jpg)
(https://i.imgur.com/eTWAwWe.jpg)
(https://i.imgur.com/bp9BJYf.jpg)
(https://i.imgur.com/wU8yBwE.jpg)
(https://i.imgur.com/uxBmwQV.jpg)
(https://i.imgur.com/V4PWPsc.jpg)
(https://i.imgur.com/9I4YpTA.jpg)
(https://i.imgur.com/BP3Lyyx.jpg)
(https://i.imgur.com/sWomA7W.jpg)
(https://i.imgur.com/smWmpTa.jpg)
(https://i.imgur.com/zWBp0bT.jpg)
(https://i.imgur.com/mqwyDcJ.png)
(https://i.imgur.com/XnsDc5i.jpg)
(https://i.imgur.com/SthxrWr.jpg)
El modelo para añadir más detalle se puede descargar aquí:
https://civitai.com/models/82098?modelVersionId=87153 (https://civitai.com/models/82098?modelVersionId=87153)
Y aquí la última versión del checkpoint Rev Animated 1.2.2:
https://civitai.com/models/7371?modelVersionId=46846 (https://civitai.com/models/7371?modelVersionId=46846)
Además, entre otras novedades interesantes hay dos muy importantes... La primera es la aparición de una extensión llamada Roop que permite poner la cara de una persona de una imagen previa a la imagen que estés generando, con una sola foto y sin necesidad de entrenar un LoRA, que funciona muy bién, y la segunda, y más importante, es que está a punto de salir la siguiente versión de Stable Diffusion, Stable Diffusion XL, que es un paso adelante muy importante que rivaliza literalmente con la calidad de las imágenes de la última versión de Midjourney pero sin censura y por supuesto gratis al ser opensource. Estos días Stability.Ai (la empresa responsable de Stable Diffusion) puso a disposición del público SDXL 0.9 una versión cercana a la final, para que la gente la pudiera probar accediento a su web oficial. Después se filtró el modelo y la misma Stability.Ai decidió ponerlo oficialmente para descarga debido a ello, aunque la versión final sale el día 18 de este mes.
Llevo un par de meses sin tener tiempo para poder dedicarle, la verdad es que tanto Roop como Stable Diffusion XL parecen muy interesantes. A ver si cuando los pruebes nos muestras algunos ejemplos.
De hecho ya los he probado jejeje Con Roop por ejemplo le he hecho unas imágenes a una amiga que quería que la pusiese como Wonder Woman y como Harley Quinn y quedan simplemente perfectas (no las pongo aquí por cuestiones de privacidad). Sin embargo, aprovechando que estamos en elecciones, he probado a poner a los diferentes políticos como personajes de Zelda Tears of the Kingdom:
(https://i.imgur.com/dPXjeP5.jpg)
(https://i.imgur.com/DKGE6Qf.jpg)
(https://i.imgur.com/bjs6iCM.jpg)
(https://i.imgur.com/EFID3EE.jpg)
(https://i.imgur.com/UcX0Sqy.jpg)
Y con la versión 0.9 de SD XL, simplemente probándola en la web oficial (que sólo puedes poner prompt positivo y nada más, no hay ni prompt negativo) ya salen resultados espectaculares:
(https://i.imgur.com/4setzfM.jpg)
(https://i.imgur.com/lOYgzNV.jpg)
(https://i.imgur.com/XiY0XHZ.jpg)
(https://i.imgur.com/BuACUA4.jpg)
(https://i.imgur.com/8p4J8r3.jpg)
(https://i.imgur.com/jAiFdmc.jpg)
(https://i.imgur.com/6be6OtW.jpg)
(https://i.imgur.com/BFauipH.jpg)
(https://i.imgur.com/EOEGKF5.jpg)
(https://i.imgur.com/gXqrhZ6.jpg)
(https://i.imgur.com/538EsRu.jpg)
(https://i.imgur.com/p9f685S.jpg)
(https://i.imgur.com/MlJ6rqO.jpg)
(https://i.imgur.com/l45AFIn.jpg)
(https://i.imgur.com/BCfXIUT.jpg)
Incluso es un filón para hacer memes, como estos de mi cosecha del Papa jugando a una recreativa en un pub:
(https://i.imgur.com/FSuGGwd.jpg)
(https://i.imgur.com/FvvFN9W.jpg)
O estos de Donald Trump en la marcha del Orgullo:
(https://i.imgur.com/B6oqylO.jpg)
(https://i.imgur.com/7iPJOBO.jpg)
(https://i.imgur.com/aDTagA8.jpg)
Cita de: sirdrak en Julio 15, 2023, 01:04:50 AM
Pues ahora, en mis experimentos con la IA, he dado accidentalmente con una combinación de modelos que me generan imágenes de un estilo que recuerdan a las espectaculares portadas de los juegos de ordenadores de 8 bits de Dinamic de Luis Royo... Básicamente estaba probando el LoRA que entrené con el estilo de Azpiri sobre un modelo para generar imágenes semirrealistas muy popular que se llama RevAnimated (que os he mencionado en otras ocasiones), junto con otro mini-modelo experimental que descargué que lo que hace es añadir mayor detalle a las imágenes, tal que así:
De esto:
(https://i.imgur.com/0nqWrbX.jpg)
A esto:
(https://i.imgur.com/jv89Tdm.jpg)
Sin embargo, en la combinación que hice el resultado fue no sólo que añadía más detalle sino que cambiaba de forma espectacular el estilo con imágenes que bien podrían ser directamente portada de algún juego de la época (sin edición de ningún tipo, directamente). El ejemplo más claro es este:
(https://i.imgur.com/Xu0B8sh.png)
Como véis, tiene esa gran cantidad de detalles, cuerpo femenino espectacular y contrastes rojo/naranja y azules, fuego/explosiones/agua y similares que se veían en carátulas como las de juegos como Navy Moves o Satán de Luis Royo. Y ahora pondré algunos otros ejemplos de temáticas variadas para que podáis ver:
(https://i.imgur.com/LEgHoLy.jpg)
(https://i.imgur.com/WsmRhEi.jpg)
(https://i.imgur.com/O07qlP5.jpg)
(https://i.imgur.com/6LF0XzA.png)
(https://i.imgur.com/dglie4L.png)
(https://i.imgur.com/xaHStNJ.jpg)
(https://i.imgur.com/st4sRer.jpg)
(https://i.imgur.com/eTWAwWe.jpg)
(https://i.imgur.com/bp9BJYf.jpg)
(https://i.imgur.com/wU8yBwE.jpg)
(https://i.imgur.com/uxBmwQV.jpg)
(https://i.imgur.com/V4PWPsc.jpg)
(https://i.imgur.com/9I4YpTA.jpg)
(https://i.imgur.com/BP3Lyyx.jpg)
(https://i.imgur.com/sWomA7W.jpg)
(https://i.imgur.com/smWmpTa.jpg)
(https://i.imgur.com/zWBp0bT.jpg)
(https://i.imgur.com/mqwyDcJ.png)
(https://i.imgur.com/XnsDc5i.jpg)
(https://i.imgur.com/SthxrWr.jpg)
El modelo para añadir más detalle se puede descargar aquí:
https://civitai.com/models/82098?modelVersionId=87153 (https://civitai.com/models/82098?modelVersionId=87153)
Y aquí la última versión del checkpoint Rev Animated 1.2.2:
https://civitai.com/models/7371?modelVersionId=46846 (https://civitai.com/models/7371?modelVersionId=46846)
Además, entre otras novedades interesantes hay dos muy importantes... La primera es la aparición de una extensión llamada Roop que permite poner la cara de una persona de una imagen previa a la imagen que estés generando, con una sola foto y sin necesidad de entrenar un LoRA, que funciona muy bién, y la segunda, y más importante, es que está a punto de salir la siguiente versión de Stable Diffusion, Stable Diffusion XL, que es un paso adelante muy importante que rivaliza literalmente con la calidad de las imágenes de la última versión de Midjourney pero sin censura y por supuesto gratis al ser opensource. Estos días Stability.Ai (la empresa responsable de Stable Diffusion) puso a disposición del público SDXL 0.9 una versión cercana a la final, para que la gente la pudiera probar accediento a su web oficial. Después se filtró el modelo y la misma Stability.Ai decidió ponerlo oficialmente para descarga debido a ello, aunque la versión final sale el día 18 de este mes.
Los resultados son simplemente espectaculares y, como dices, podrían pasar por portadas de juegos de casette de los 8 bits, que tenían un estilo muy característico.
Enviado desde mi M2103K19PG mediante Tapatalk
Pobre Link que habrá hecho él para merecer esto :'(
Estos dos últimos días me he entretenido en volver a hacer una prueba que recordaréis de cuando llevaba poco tiempo experimentando con Stable Diffusion: Crear imágenes de los personajes de Gauntlet usando Stable Diffusion y la extensión ControlNET a partir de los bocetos que dibujé hace unos años. Sin embargo, esta vez lo he hecho con la última versión de la extensión, y con el estilo con el que he creado las últimas imágenes, con el siguiente espectacular resultado:
(https://i.imgur.com/BfB7yjZ.png)
(https://i.imgur.com/JTRRHnB.png)
(https://i.imgur.com/oA5JLoZ.png)
(https://i.imgur.com/lfDGwA5.png)
Joer, a los deltoides del bárbaro le sobran media docena de músculos, pero en general la ilustración es impresionante.
Cita de: Fardelejo en Julio 20, 2023, 10:45:16 PM
Joer, a los deltoides del bárbaro le sobran media docena de músculos, pero en general la ilustración es impresionante.
La verdad es que sí, este estilo con el que dí por casualidad combinando LoRAs y RevAnimated es ideal para este tipo de ilustraciones tipo carátula ochentera, portada de 'Heavy Metal', Barbarian o similares... Mientras creaba las imágenes estaba escuchando esto de fondo:
https://www.youtube.com/watch?v=D2p2G2TafxM
https://www.youtube.com/watch?v=u2DnZ38Rwk8
Bueno, pues finalmente salió hace un mes la versión definitiva oficial de Stable Diffusion XL, que ya de primeras dá unos resultados interesantes en sus imágenes aunque a costa de necesitar algo más de potencia. Aquí podéis ver algunos ejemplos generados de mi cosecha (con el modelo oficial tal cual, sin usar LoRAs ni nada):
(https://i.imgur.com/w5rw3QH.png)
(https://i.imgur.com/vOpj2kx.png)
(https://i.imgur.com/wUr6WXQ.png)
(https://i.imgur.com/LhdG2S8.jpg)
(https://i.imgur.com/NLSwN3E.jpg)
(https://i.imgur.com/xtpHvWD.jpg)
(https://i.imgur.com/5Tz1AhD.png)
(https://i.imgur.com/vJ020GD.png)
(https://i.imgur.com/eR2JORR.png)
(https://i.imgur.com/7cPRY2B.png)
(https://i.imgur.com/G2UUv8w.png)
(https://i.imgur.com/4NQ82c8.png)
(https://i.imgur.com/XGLKfCw.png)
(https://i.imgur.com/yeSiwYo.png)
(https://i.imgur.com/CisTity.png)
(https://i.imgur.com/lEivvOe.png)
(https://i.imgur.com/Edw44IV.png)
(https://i.imgur.com/t7Kehgw.png)
(https://i.imgur.com/kjTnibu.png)
(https://i.imgur.com/sB4tU2E.png)
(https://i.imgur.com/3I6Sjii.png)
(https://i.imgur.com/awNbkyr.png)
(https://i.imgur.com/IZGsHvq.png)
(https://i.imgur.com/lTtCR3j.png)
(https://i.imgur.com/9BY43Tv.png)
(https://i.imgur.com/kpNe0om.png)
(https://i.imgur.com/qPgPici.png)
(https://i.imgur.com/WRrYrdW.png)
(https://i.imgur.com/uI156lK.png)
(https://i.imgur.com/gghjBzM.png)
(https://i.imgur.com/PvLVeZ4.png)
(https://i.imgur.com/bbH4Dno.png)
(https://i.imgur.com/sbPEs1m.png)
(https://i.imgur.com/oAQ03YK.png)
(https://i.imgur.com/y7l9KF0.png)
(https://i.imgur.com/wommffs.png)
(https://i.imgur.com/tafuwOJ.png)
(https://i.imgur.com/Y2CgtQL.png)
(https://i.imgur.com/WIGBSdw.png)
(https://i.imgur.com/LqBB7Cf.png)
(https://i.imgur.com/sXXJqJk.png)
(https://i.imgur.com/GXpOMaA.png)
(https://i.imgur.com/pUuIsHp.png)
(https://i.imgur.com/NWwFMir.png)
(https://i.imgur.com/RemMgmE.png)
Con guiños a 'Expediente X' y al artista nórdico Simon Stålenhag. Muy prometedor, y ya con la comunidad empezando a entrenar cosas en dicho modelo...
Y ahora algo muy interesante... Al principio, posteé un video tutorial de creación de LoRAs del youtuber Aitrepreneur, pues bién... Ayer publicó otro para el que, en esta ocasión, ha hecho muchísimas pruebas, se ha documentado bien y hasta ha tenido asesoramiento directo de nada menos que los creadores de Stable Diffusion, Stability.Ai, por lo que es el vídeo más interesante que he visto de entrenamiento. Aunque en principio está orientado a hacer LoRAs para SD XL, lo que explica se puede aplicar de forma general para mejorar bastante la calidad de los LoRAs. Muy recomendable verlo:
https://www.youtube.com/watch?v=N_zhQSx2Q3c
Además, en la descripción del vídeo, aporta archivos preconfigurados para el entrenamiento según el tipo de LoRA y sets de imágenes de regularización, lo que es muy interesante.
qué prompts has usado?......es una BRUTALIDAD
Cita de: Galor en Agosto 12, 2023, 01:47:36 PM
qué prompts has usado?......es una BRUTALIDAD
Pues la gracia es que se pueden conseguir cosas como estas con prompts sencillos porque entiende mucho mejor lo que el escribes, e incluso en muchos casos, sin usar el prompt negativo. Además, si en lugar de Automatic1111 usas ComfyUI, se puede usar una de las novedades que tiene este modelo, que es que tiene dos CLIPs diferentes para los prompts en lugar de uno: El original de SD anteriores (Clip L) y el nuevo, que es el de Open.Ai (Clip G), por lo que se puede escribir un prompt con el prompt positivo/negativo dividido en dos partes para que cada una la interprete (a la vez) un CLIP distinto, consiguiendo un entendimiento mucho más preciso. El de las primeras chicas sí que es más elaborado, porque lo probé de unos ejemplo de otro modelo de SD 1.5, pero creo que se podría simplificar bastante ya que no es necesario estar nombrando a artistas y múltiples modelos de cámara, etc... para conseguir los mismos resultados. Voy a poner un ejemplo de cada uno:
- De las chicas del principio:
breathtaking cinematic photo majestic and regal full body profile portrait, sexy photo of a beautiful (curvy) woman with short light brown hair in (lolita outfit:1.4), (panties:1.4), (mega booty:1.5), (large breasts:1.6), (nsfw:1.2), low angle, looking at the camera, (thighs), (small waist:1.0), intricate, epic, elegant, highly detailed skin, sharp focus, beautiful volumetric lighting, epic light, ultra detailed, by leesha hannigan, ross tran, thierry doizon, kai carpenter, ignacio fernandez rios . 35mm photograph, film, bokeh, professional, 4k, highly detailed . award-winning, professional, highly detailedPrompt Negativo:
2girl, 2girls, more than 2 people, illustration, cartoon, 3d, disfigured, bad art, deformed, poorly drawn, extra limbs, blurry, boring, sketch, lackluster, repetitive, cropped, umbrella, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, extra butt, extra ass, mutated hands, poorly drawn hands, poorly drawn face, mutation, no face, missing face, no head, missing head, no eyes, missing eyes, bad anatomy, bad proportions, cloned face, disfigured, more than 2 nipples, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, mutated hands, fused fingers, too many fingers, long neck, drawing, painting, crayon, sketch, graphite, impressionist, noisy, blurry, soft, deformed, ugly, ugly, deformed, noisy, blurry, distorted, grainyDe los animales bebiendo café/cerveza:
a {male|female} humanoid {rabbit|rat|lizard|cat|dog|alien|penguin|llama|dragon|fox} drinking {beer|coffee|milk} at a coffee shop, portrait photograph, fujifilm, highly detailedEste no tiene prompt negativo
Las chicas youtuber:
45yo woman, beautiful detailed eyes, looking at viewer, colored hair, lewd smile, sugerent, erotic, cat ears headphones, detailed hair, detailed lips, skin spots, detailed skin, big breasts, in a gamer room, Gaming Pc, neon lights, masterpiece, best quality, cinematic, volumetric lighting, very detailed, high resolution, sharp, sharp image, 4k, 8k, 35 mmPrompt negativo:
EasyNegative, badhandsv4, text, watermark, low quality, medium quality, blurry, censored, deformed, mutated, anime, toon, render, 3d, ilustrationLas de invasiones alienígenas sobre granjas, granjeros y campos de trigo:
breathtaking masterpiece, science fiction, (big motherbase in the sky:1.8), alien invasion, an old farmer walking, denim jumpsuit, straw hat, (in front of a farm), wheat field, tractor, clouds, detailed background, colorful, 4k, 8k, cinematic lighting, epic light, ultra detailed, . award-winning, professional, highly detailedNegative prompt:
EasyNegative, (low quality, normal quality, worst quality:1.4), illustration, cartoon, 3d, disfigured, bad art, deformed, poorly drawn, drawing, painting, crayon, sketch, graphite, impressionist, noisy, blurry, soft, deformed, ugly, ugly, deformed, noisy, blurry, distorted, grainy, text, name, logos, author firm, watermark, Patreon, ugly, deformed, noisy, blurry, distorted, grainy
Vaya, llevo como un mes haciendo cosas con el SD y hasta ahora no me había dado cuenta de este post.
Muy bueno.
Buenísimo hilo,
he estado probando cosas con SD, en Leonardo, Playground y similares, y aunque al probar con prompts sencillos se consiguen cosas muy chulas a la que vas indagando y experimentando más te das cuenta del increíble potencial de estas herramientas.
Todavía no he visto en directo (aunque sí en algún vídeo) estos modelos integrados en herramientas como photoshop y similares pero me parece abrumador!
Gracias por compartirlo! Esto es un no parar! Siempre hay algo nuevo que aprender :o ;D
Bueno, pues llevaba un tiempo sin postear novedades interesantes, así que comentaré algunas de los últimos meses... La mayoría de los que usamos Stable Diffusion en local, como sabéis, usamos Automatic1111 como interfaz a través del navegador para generar las imágenes, al ser la más completa y que más opciones tiene (los modos img2img, inpaint, las extensiones, los script para hacer upscaling, matrices de imágenes, etc...), pero no es la única, algo que se ha hecho patente y más notorio desde la silida de SD XL, debido a las mayores exigencias de esta versión de Stable Diffusion. La pega de Automatic1111 es que es la menos eficiente, de forma que requiere más potencia que las otras opciones para generar las mismas imágenes con la misma configuración de hardware. Por ello hoy voy a hablar de las otras opciones existentes para generar imágenes en local...
Las otras opciones actuales son las siguientes:
- ComfyUI: Es una interfaz muy versátil y rápida para generar imágenes con Stable Diffusion, y de hecho es la que utilizan directamente y recomiendan Stability.ai, la empresa creadora de Stable Diffusion. Tiene todas las posibilidades que tiene Automatic1111 e incluso algunas que no tiene aún a día de hoy relacionadas con las novedades de SD XL, como la posibilidad de usar simultáneamente dos prompts diferentes para el positivo y dos prompt diferentes para el negativo usando los dos 'Clips' que soporta nativamente XL al mismo tiempo (los Clips son básicamente el intérprete que hace que la IA entienda lo que le pedimos en lenguaje natural). Además fué la primera en tener soporte completo de los modelos base y refiner de XL (soporte que no llegó a Automatic1111 hasta su versión 1.6.0, la actual). Sus ventajas son que requiere mucho menos hardware para generar imágenes y además es extremadamente rápido, incluso a la hora de hacer reescalados, es muy fácil de instalar (es simplemente descomprimir una carpeta, ejecutar la primera vez un actualizador y luego sólo un .bat y a funcionar) y las imágenes que genera son de muy buena calidad. Otra característica que tiene, es que basta con arrastrar una imagen generada previamente con él al espacio de trabajo para que ya salga todo configurado incluído su prompt como cuando se generó dicha imagen, cosa que también se puede hacer con un archivo de configuración .json. Las pegas son que su interfaz es completamente antiintuitiva y compleja... De hecho casi se podría decir que no tiene interfaz, pues funciona a base de un sistema de módulos interconectados entre sí que recuerda a los lenguajes de programación visuales por objetos como los que usan Blender o Unreal Engine, lo que puede echar a muchísima gente para atrás por su aparente complejidad. En la siguiente imagen podéis ver un ejemplo:
(https://i.redd.it/d93znogxlbfb1.png)
Eso sí, si se tiene una máquina más limitada, es mucho mejor que Automatic1111... Por ejemplo, con ComfyUI es mucho más rápido generar imágenes en buena calidad de SD XL con una gráfica de sólo 6GB de VRAM o menos, de forma que la diferencia puede ser de hacer en menos de 30 segundos lo que en Automatic1111 puede llevar varios minutos. Se puede descargar aquí, de su Github: https://github.com/comfyanonymous/ComfyUI (https://github.com/comfyanonymous/ComfyUI)
- Fooocus y Fooocus-MRE: Llegamos a las dos opciones más recientes, esta vez enfocadas de forma exclusiva en generar imágenes de SD XL y hacerlo de la forma más sencilla posible, ideal para las personas que sólo quieren generar imágenes de la forma más sencilla posible sin usar opciones avanzadas. Ha sido creada nada menos que por los responsables de la extensión más importante y revolucionaria existente hasta la fecha de Stable Diffusion, ControlNET, de la que ya os he hablado en ocasiones anteriores. Tiene las ventajas de ser extremadamente fácil de instalar (al igual que con ComfyUI, es descargar y descomprimir un archivo, y en la carpeta resultante ejecutar un archivo .bat y a funcionar). Ni siquiera es necesario buscar aparte los modelos básicos para empezar porque los descarga automáticamente en el primer inicio (SD XL base y el refiner). Además, es también muy rápido y también consume menos recursos que Automatic1111, muy cerca de lo que hace ComfyUI en este sentido. Respecto a la interfaz y opciones, primero hablaré de Foocus y luego de las opciones extras que tiene Fooocus-MRE, que es un fork del primero.
En Fooocus, la mayor parte de la interfaz la ocupa la parte donde aparecen las imágenes generadas, y debajo simplemente un espacio para escribir el prompt. Luego hay una casilla para mostrar las opciones avanzadas de forma que nos permite escribir también prompt negativo, elegir entre una buena cantidad de resoluciones pero todas ellas fijas (esto es así porque son las resoluciones de las imágenes con las que se realizó el entrenamiento de SD XL, que lo que hace es que el resultado tenga la mejor calidad posible) y elegir entre priorizar calidad o rapidez en la generación de las imágenes. Todas estas opciones se muestran en un panel en el lateral derecho, que tiene tres pestañas con más opciones extra: La mencionada, una para elegir un estilo para las imágenes (otra de las novedades de SD XL) y otra que nos permite elegir el checkpoint a usar como modelo base, y el que se va a usar como Refiner, y además varias casillas para elegir y usar LoRAs y seleccionar su fuerza. Nada más... Como se puede ver, todo enfocado a una sencillez extrema y obtener buenos resultados sin complicaciones.
En Fooocus-MRE, que como comenté es un fork creado a partir del código fuente del Fooocus original con el objeto de añadir más opciones a la generación de imágenes, se incorporan opciones propias de Automatic1111 para las personas que quieren hacer cosas más avanzadas manteniendo la sencillez de uso y la interfaz de Fooocus y con las ventajas de su buen rendimiento. Las opciones que se incorporan nuevas son las siguientes:
* Modo img2img
* Posibilidad de configurar los mismos parámetros avanzados en la creación de las imágenes que en Automatic1111 (número de pasos, sampler, punto en el que se pasa del modelo Base al Refiner durante el proceso de generación, CFG, Clip Skip, etc...)
* Soporte de los LoRA especiales de Stability.ai que dan soporte de ControlNET a SD XL
* Posibilidad de usar resoluciones 'custom' en la generación de imágenes.
* Posibilidad de hacer Upscaling en el modo img2img.
* Posibilidad de usar estilos personalizados.
* Soporte de inpainting y outpainting.
Aquí podéis ver el aspecto que tiene la interfaz:
(https://user-images.githubusercontent.com/130458190/268508933-1d40c428-c30f-4e3f-b419-017bd395d00b.png)
Y se pueden descargar desde sus respectivos Githubs:
* Fooocus: https://github.com/lllyasviel/Fooocus (https://github.com/lllyasviel/Fooocus)
* Fooocus-MRE: https://github.com/MoonRide303/Fooocus-MRE (https://github.com/MoonRide303/Fooocus-MRE)
Por último, os quiero recomendar también un modelo fotográfico de Stable Diffusion 1.5 que me ha sorprendido por su realismo y sus espectaculares texturas de la piel, dando resultado imágenes como esta:
(https://i.imgur.com/7BXDjm1.jpg)
Y aquí un recorte de la cara para que podáis apreciar mejor el realismo de la piel:
(https://i.imgur.com/CMHbofY.jpg)
Como podéis ver, totalmente indistinguible de la realidad 100%... El modelo se llama epiCRealism, concretamente su última versión, llamada Natural Sin, que ha sido entrenada con imágenes de personas normales y no de modelos fotográficos, por eso consigue ese realismo. Se puede descargar de aquí: https://civitai.com/models/25694/epicrealism (https://civitai.com/models/25694/epicrealism)
Para obtener resultados como los de mi imagen, os recomiendo la siguiente configuración a la hora de generar imágenes con él:
- Resolución de 512x512, 512x768 o 768x512, de 20 a 30 pasos, CFG scale de 5 y de sampler Euler A o SDE 2M ++ Karras.
- Usar prompts simples evitando términos como masterpiece, best quality, 8k, intricate, high detail, (extremely detailed face), (extremely detailed hands), (extremely detailed hair) y similares ya que no son necesarios.
- En el prompt negativo usar cartoon, painting, illustration, (worst quality, low quality, normal quality:2)
- Al usar la opción Hires.fix, seleccionar 1'5x o 2x upscale, como upscaler 4x_NMKD-Superscale-SP_178000_G (luego pongo dónde se descarga) y un denoise de 0'35
- Si luego se hace upscaling en img2img con el script de SD Upscale, usar el mismo upscaler mencionado antes (basta con descargarlo y meterlo en la carpeta models/ESRGAN para que aparezca disponible en ambos modos).
El mencionado upscaler se puede descargar de aquí: https://huggingface.co/gemasai/4x_NMKD-Superscale-SP_178000_G/tree/main (https://huggingface.co/gemasai/4x_NMKD-Superscale-SP_178000_G/tree/main)
Me parece increíble que esa foto no sea real :o
A ver cuanto tardan en hacer pelis directamente con IA... Al tiempo ::)
Gracias por tus aportes y explicaciones, @sirdrak (https://www.darkstone.es/index.php?action=profile;u=1568)
Qué bien está quedando este hilo, ¡muchas gracias!
Bueno, pues esto es un no parar de novedades de IA últimamente... Voy a comentar las más importantes.
Primero, os voy a compartir un vídeo de Olivio que explica un técnica muy sencilla usando el modo img2img para hacer más realista una imagen y mejorar el detalle de la piel usando el modelo con el que hice a la chica ultrarrealista, epiCRealism, pero también funciona con otros modelos realistas como Photon o Realistic Visions. Básicamente consiste en cargar la imagen que queremos mejorar o usar como referencia en el modo img2img, seleccionar como sampler DPM ++ SDE Karras (muy importante este paso), poner 30 pasos en la generación de la imagen y usar un denoise entre 0.3 y 0.4 (dependerá de la imagen). Con esto, y con un prompt que describa la imagen (ya que se puede hacer incluso con imágenes normales no IA) y sin reescalar, generamos la nueva imagen, que veremos que tiene una piel con más detalle. Tras esto, la podemos mejorar aún más pulsando el botón que hay bajo la imagen con el icono de una escuadra, que la enviará a la pestaña de extras para hacer un reescalado, donde podremos aumentar la resolución de la imagen x2, x3, x4, etc... y de paso añadiendo más detalle, usando como reescalador un modelo opcional que indican en el vídeo, que sólo hay que descargar y meter en la carpeta models/ESRGAN. El modelo es 8x_NMKD-Superscale_150000_G.pth y se descarga aqui: https://huggingface.co/uwg/upscaler/tree/main/ESRGAN (https://huggingface.co/uwg/upscaler/tree/main/ESRGAN)
Y aquí el vídeo de Olivio en el que se pueden ver los resultas y lo explica... Decir que también sirve para cambiar una imagen de un estilo a otro, por ejemplo, una imagen de anime convertirla en una con personas reales o viceversa, con resultados espectaculares (mostraré un par de ejemplo más abajo):
https://www.youtube.com/watch?v=TrcwBSlczfQ
Los ejemplos que comento...
Original:
(https://i.imgur.com/fgY0dUA.png)
Pasada a 'carne y hueso realista IA':
(https://i.imgur.com/SWl3uee.jpg)
Otro ejemplo:
Original:
(https://i.imgur.com/zWBp0bT.jpg)
A imagen realista:
(https://i.imgur.com/vVNurKg.jpg)
Y ahora vamos con 'el plato principal'... Open.ai, la empresa creadora del famosísima ChatGPT, fué la empresa pionera en IAs generativas de imágenes, creando su IA Dall-E antes de la aparición de todas las demás. Esta semana pasada presentó la última versión de dicha IA, Dall-E 3, que tiene varios aspectos revolucionarios y está integrada tanto en ChatGPT 4 como en el chat de Bing. Debido a usa como base dicho modelo de lenguaje, su comprensión de lo que le pedimos en el prompt supera con mucha diferencia lo que son capaces de hacer todas las demás. Desde ayer, casi por sorpresa, ya se puede probar y usar gratis, tanto a través del chat de Bing integrado con el navegador Edge como con Copilot (siempre que no vivas en Europa, como es nuestro caso, que no nos ha llegado aún dicha funcionalidad a Windows 11 por cuestiones de legislación europea) integrado en Windows 11 desde la actualización 'Momento 4' de esta semana.
La otra forma de utilizarla, y que es la que yo he usado, es visitar la página oficial de Bing para crear imágenes, visitando esta dirección: https://www.bing.com/create (https://www.bing.com/create)
Tan sólo hay que loguearse con una cuenta Microsoft (Outlook, Xbox, etc...) y ya se pueden crear imágenes de forma ilimitada y gratuíta. Puede ser que se acceda la primera vez a la página y que en vez de Dall-E 3, salga la versión anterior. Esto se comprueba pidiéndole que nos genere una imagen en la que aparezca un texto, pues una de las novedades de Dall-E 3 es que hace el texto prácticamente perfecto. Si no lo hace, se trata de Dall-E 2. En ese caso basta con probar con otro navegador, aunque indican que las mayores posibilidades de éxito se dan con Firefox y con Brave. Yo lo hice ayer con Firefox y me salió bién a la primera.
Ahora vamos con las novedades y mi experiencia con las pruebas que le hice ayer (me pase todo el día haciendo pruebas tratando de llevar sus posibilidades al límite):
- Entiende perfectamente lo que le escribes en lenguaje natural mucho mejor que cualquier otra IA de este tipo, por lo que ya no hay que hacer apenas 'ingeniería de prompt', ni usar prompt negativo ni nada, para que te muestre en la imagen todo lo que le pides por complejo que sea, incluyendo varios personajes diferentes en una misma imagen, elementos con varios colores sin que se mezclen o confundan, etc...
- Hace las manos casi perfectas la gran mayoría de las veces, muy por encima del resto. También los ojos, sin necesidad de hacer nada.
- Es capaz de generar imágenes en una cantidad de estilos y tipos abrumador, es muy raro que salga alguna imagen 'que no sirva'.
- La calidad de las imágenes es muy buena, por encima de Stable Diffusion XL sin ninguna duda.
- Ya no es necesario escribir el prompt en inglés... En Español lo entiende igual de bien.
- Es capaz de sacar de forma perfecta personajes haciendo acciones complejas de representar en las otras IA sin usar modelos extra u otras opciones complejas, como un personaje montando correctamente en bicicleta o en moto, o tensando la cuerda de un arco con una flecha.
- Es capaz de hacer imágenes en que aparezcan varios personajes juntos en contacto directo sin que se mezclen sus extremidades o salgan cosas aberrantes, o al menos pasa mucho mucho menos con una gran diferencia.
- Conoce perfectamente una gran cantidad de personajes populares, de videojuegos etc... Y también los juegos, por lo que hasta es capaz de representar 'pantallazos' de los mismos. Lo mismo con las consolas. Por poner un ejemplo, le pedí una imagen de Link jugando con una Super Nintendo al Super Mario World, y en la imagen sale Link con el mando en la mano reproducido perfectamente, y en el cartucho la etiqueta (aunque debido a su pequeño tamaño en la imagen ya no está muy definida) se nota perfectamente que es la de Mario sobre Yoshi que lleva precisamente el cartucho de dicho juego... Algo increíble.
- Es capaz de hacer pixelart (y hojas de sprites usables) perfectamente.
- Lo ya mencionado del texto... Escribe las frases perfectamente la gran mayoría de las veces.
- Es capaz de generar las imágenes como si fueran capturas de pantalla de un juego real perfectamente (por ejemplo un link en bicicleta en el Zelda BOTW o un juego imaginario de PS2 o de Nintendo 64).
Ahora las cosas malas... Lógicas dado que son un servicio online de una empresa privada de EEUU y dueña ademas de ChatGPT:
- Hay censura, esta vez más notable que otras veces. Se censura todo lo que es minimamente relativo a sexo (simplemente proniendo 'breasts', poniendo 'vestido con transparencias', etc... te censura las imágenes), palabras o actitudes conflictivas (por ejemplo si pones 'drunk', aunque puedes luego representar a una persona en ese estado e incluso fumando porros si describes su actitud y apariencia sin mencionar esa palabra o similares)
- Se han censurado también muchas figuras públicas de la actualidad, sobre todo políticos, de forma que ya no se pueden hacer 'memes' con el Papa o Donald Trump por ejemplo (tampoco con políticos españoles). Es más, cuando incluyes sus nombres en el prompt incluso te dice que te pueden suspender el servicio si vuelves a reincidir (en este caso ni siquiera se procesa el prompt, o sea, las imágenes no se generan). Sin embargo, otros muchos actores y personalidades conocidas sí que salen perfectamente, como Albert Einstein o Michael Jackson.
- Todas las imágenes parecen llevar una marca de agua interna que las identifica claramente como generadas por IA. A veces este tipo de marcas comparten datos personales del usuario que las ha generado, por lo que son un problema para la privacidad, aunque por otro lado, no creo que sea complicado modificar las imágenes fácilmente para que no aparezcan como generadas por IA.
Respecto al tema de la censura, y por lo que he podido observar, curiosamente no me parece que sea el modelo el que tiene la censura, sino que es el servicio online el que la aplica, ya que las imágenes censuradas sí se llegan a generar, y se ha visto por algún vídeo que, a diferencia de las otras IA de este tipo, la violencia y el gore no están censuradas y las genera sin problemas (ya se sabe, aquello de la doble moral de escandalizarse por mostrar algo de piel pero no por la violencia, la sangre y las cosas repulsivas). Yo no he probado a generar imágenes de este tipo (ya que no me gustan) pero he visto que lo comentaban en un vídeo de Youtube...
Ahora voy con varios ejemplos de las pruebas que he hecho... Primero, se me ocurrió intentar generar a los personajes del Gauntlet sólo con un prompt a ver qué calidad de imágenes conseguía (empiezo por estas imágenes porque son ideales a la temática del foro), y la verdad es que el resultado es bastante espectacular... Empecemos con la valkiria:
(https://i.imgur.com/yeqHRLJ.jpg)
(https://i.imgur.com/Fi7BULQ.jpg)
(https://i.imgur.com/2ttc5Oc.jpg)
(https://i.imgur.com/xBffExQ.jpg)
(https://i.imgur.com/Hd8hEAg.jpg)
(https://i.imgur.com/cTEm5ew.jpg)
(https://i.imgur.com/F1AYwj6.jpg)
(https://i.imgur.com/QjbKBAK.jpg)
(https://i.imgur.com/ihcHGfL.jpg)
Ahora vamos con Merlin el mago:
(https://i.imgur.com/cbb2HKe.jpg)
(https://i.imgur.com/6hJTiPW.jpg)
(https://i.imgur.com/OrQ0dYH.jpg)
(https://i.imgur.com/Ip0upii.jpg)
(https://i.imgur.com/5PsmILG.jpg)
(https://i.imgur.com/BUJ7qb8.jpg)
Vamos con Thor el bárbaro... Curiosamente no había forma de que me lo sacase afeitado, sin barba, pero los resultados son espectaculares...
(https://i.imgur.com/iafeAtb.jpg)
(https://i.imgur.com/JJKPv0N.jpg)
(https://i.imgur.com/Hjp3hx5.jpg)
(https://i.imgur.com/KQa9Anv.jpg)
(https://i.imgur.com/ss7PkNp.jpg)
(https://i.imgur.com/SHZ4bNm.jpg)
(https://i.imgur.com/l6PQl7T.jpg)
(https://i.imgur.com/qX74Jgw.jpg)
(https://i.imgur.com/PIZjENj.jpg)
Y por último, con Questor el elfo... Este me sorprendió por el tema antes comentado del arco y las flechas, y también me resultó curioso que con el primer prompt que usé me lo generaba siempre como si fuera una figura de acción realista, así que tuve que indicar que era una ilustración al estilo de Advanced Dungeons & Dragons:
(https://i.imgur.com/xNO1XsP.jpg)
(https://i.imgur.com/9gzu8vS.jpg)
(https://i.imgur.com/dqz8CaS.jpg)
(https://i.imgur.com/azB2yhM.jpg)
(https://i.imgur.com/gJdiO2H.jpg)
(https://i.imgur.com/qS0Rk4e.jpg)
(https://i.imgur.com/R3Vk99v.jpg)
(https://i.imgur.com/8Nr0QTa.jpg)
El anime también lo hace muy bién y en muchos estilos:
(https://i.imgur.com/RIJz1nQ.jpg)
(https://i.imgur.com/eOvvy2l.jpg)
(https://i.imgur.com/n9yA8vX.jpg)
(https://i.imgur.com/t7gajJR.jpg)
(https://i.imgur.com/OZ6v1Jc.jpg)
(https://i.imgur.com/pPhvzBZ.jpg)
Y haciendo cosas complejas, le pedí una imagen con el siguiente prompt:
A drawing of a thin man wearing a top hat and holding an umbrella followed by a cat and an elephant crossing on a rope, as if they were tightrope walkers, between two buildings. A certain magical and nostalgic air.
Bastante complejo seguir todo lo que pide para cualquier IA generadora de imágenes... Pues vamos a ver el resultado:
(https://i.imgur.com/5pt4dPP.jpg)
(https://i.imgur.com/0B90PJ2.jpg)
(https://i.imgur.com/R8XsG3d.jpg)
Impresionante, sin duda... Y ahora vamos con lo que mencioné de crear a varios personajes diferentes en una misma imagen, montando en bicicleta, personajes juntos en contacto directo que no se mezclan, etc...:
Link y Zelda celebrando el fin de Ganon:
(https://i.imgur.com/L3JdV7i.jpg)
(https://i.imgur.com/yQXpJ6D.jpg)
(https://i.imgur.com/MrWIDR6.jpg)
(https://i.imgur.com/kHnqnwc.jpg)
Zelda de fiesta con varias amigas (para comprobar lo del contacto directo):
(https://i.imgur.com/lWZHtKC.jpg)
(https://i.imgur.com/O50dLYZ.jpg)
(https://i.imgur.com/dlmGIKz.jpg)
(https://i.imgur.com/WjVCxon.jpg)
(https://i.imgur.com/2BbPXn0.jpg)
Link en bicicleta en varios estilos:
(https://i.imgur.com/zSSkJN1.jpg)
(https://i.imgur.com/igelyyB.jpg)
(https://i.imgur.com/VfZbdF2.jpg)
(https://i.imgur.com/ckVm6Mx.jpg)
(https://i.imgur.com/85aNPNa.jpg)
(https://i.imgur.com/uUyu1mA.jpg)
(https://i.imgur.com/SWgAmBO.jpg)
(https://i.imgur.com/wm2a0uv.jpg)
Ahora vamos a ver qué pasa si mezclamos a Link, a Michael Jackson, a los juegos de Super Mario y la Super Nintendo:
(https://i.imgur.com/ZMoEYNI.jpg)
(https://i.imgur.com/yCVnaJ3.jpg)
(https://i.imgur.com/7BKvlr9.jpg)
(https://i.imgur.com/El9LuTb.jpg)
(https://i.imgur.com/SjaoeG8.jpg)
(https://i.imgur.com/P7UXleu.jpg)
(https://i.imgur.com/MBR92dB.jpg)
(https://i.imgur.com/N9MOQzm.jpg)
(https://i.imgur.com/83l0Lbk.jpg)
(https://i.imgur.com/OZ4DGN1.jpg)
(https://i.imgur.com/Os2ynE5.jpg)
(https://i.imgur.com/dzLAh3K.jpg)
Y ya que estamos... Qué tal un Einstein resucitado en la forma de un androide karateka en una ciudad estilo Cyberpunk?
(https://i.imgur.com/W94xqCr.jpg)
(https://i.imgur.com/w92GvzF.jpg)
(https://i.imgur.com/12Kzt1C.jpg)
(https://i.imgur.com/lBjTwJk.jpg)
(https://i.imgur.com/b1Bkt5U.jpg)
Ahora pasamos a otra prueba que hice en su día con SD XL: Intentar generar imágenes del estilo de 'Tales of the loop', de Simon Stålenhag:
(https://i.imgur.com/GeMolYX.jpg)
(https://i.imgur.com/JU6j2CX.jpg)
(https://i.imgur.com/t26mOcz.jpg)
(https://i.imgur.com/iD4KGIQ.jpg)
(https://i.imgur.com/vx5E1gd.jpg)
(https://i.imgur.com/8oajyxB.jpg)
(https://i.imgur.com/qII2ZsZ.jpg)
(https://i.imgur.com/2JsK3EZ.jpg)
(https://i.imgur.com/UBkVsUO.jpg)
(https://i.imgur.com/k3dUt2j.jpg)
Y ahora unos ejemplos de hojas de sprites de pixelart:
(https://i.imgur.com/rklZ69t.jpg)
(https://i.imgur.com/CnxfkIS.jpg)
(https://i.imgur.com/7i6wnRz.jpg)
(https://i.imgur.com/wxjDdAT.jpg)
(https://i.imgur.com/DdoKcLl.jpg)
Para acabar otras imágenes más:
(https://i.imgur.com/ioYfnUl.jpg)
(https://i.imgur.com/ZsffIiU.jpg)
(https://i.imgur.com/wlCk9T2.jpg)
(https://i.imgur.com/HJqw1c7.jpg)
(https://i.imgur.com/POW926I.jpg)
(https://i.imgur.com/IL2W7uF.jpg)
(https://i.imgur.com/vNO64dG.jpg)
(https://i.imgur.com/pksKLeb.jpg)
(https://i.imgur.com/Wrvw1R1.jpg)
(https://i.imgur.com/hiAjprE.jpg)
(https://i.imgur.com/uzTXMBK.jpg)
(https://i.imgur.com/JsBW29g.jpg)
(https://i.imgur.com/V1Gq24I.jpg)
(https://i.imgur.com/bsVNj2N.jpg)
(https://i.imgur.com/9F79876.jpg)
(https://i.imgur.com/HhrzpIC.jpg)
(https://i.imgur.com/5HrwxF8.jpg)
(https://i.imgur.com/LS9Jrgk.jpg)
(https://i.imgur.com/53LhDKq.jpg)
(https://i.imgur.com/TeSudlK.jpg)
(https://i.imgur.com/C4kB8D3.jpg)
(https://i.imgur.com/wlCk9T2.jpg)
Que esto no sea real... :o :o :o
A eate hilo le falta porno
Enviado desde mi CPH2173 mediante Tapatalk
Que disparate, se me han caído los huevos con esta última entrada
Enviado desde mi CPH2343 mediante Tapatalk
He hecho algunas pruebas rápidas y al menos por ahora creo que tengas algo de experiencia Stable Diffusion por ahora da mejores resultados o al menos a mi, será que estoy más acostumbrado a sus prompts, pero si que es cierto que es espectacular lo bien que DALL-E 3 hace las cosas que se le atragantan a Stable diffusion.
Cita de: Remiel en Octubre 05, 2023, 11:43:45 PM
He hecho algunas pruebas rápidas y al menos por ahora creo que tengas algo de experiencia Stable Diffusion por ahora da mejores resultados o al menos a mi, será que estoy más acostumbrado a sus prompts, pero si que es cierto que es espectacular lo bien que DALL-E 3 hace las cosas que se le atragantan a Stable diffusion.
Si, después de muchas pruebas veo que sus puntos débiles son, por ejemplo, el fotorrealismo, que lo hace mucho mejor Stable Diffusion a pesar de no sacar las manos tan perfectas ni de entender los prompts tan bien... Y luego está el tema de la censura... Me salen muchas imágenes bloqueadas incluso con cosas inocentes, y además parece que la van variando, porque por ejemplo, si te fijas, el día que hice las pruebas que mostré antes pude hacer imágenes con Michael Jackson, y sin embargo, desde ayer ya no se puede (te sale la advertencia de que el prompt incumple las condiciones del servicio y no lo procesa siquiera). Esto me viene a confirmar que lo que es el modelo en sí, no tiene realmente censura de ningún tipo, sino que es el servicio online el que se encarga de aplicarla (y de esta manera la pueden variar a lo largo del tiempo si lo ven necesario, como el caso mencionado). Una lástima, porque si un modelo como ese cayese en manos de la comunidad opensource, el potencial que se podría sacar sería enorme...
Bueno compañeros... Este último mes estuve bastante ocupado y no pude poner nada sobre las novedades en IA, pero han salido un verdadero aluvión de ellas y casi cada semana hay algo nuevo. Vamos a ver si os pongo al día:
Parece que, aunque están en un estadio más primitivo que las IAs generativas de imágenes, acaba de estallar el boom de las IAs generadoras de vídeos, bien a partir de un prompt de texto, de una imagen inicial o incluso de un vídeo. En la situación actual de este cambiante panorama, los principales actores implicados que tenemos son los siguientes:
* RunwayML Gen-2: Es la pionera de este tipo de IAs... Tiene una prueba gratuíta pero funciona mediante servicios de suscripción (y bastante caros además). Permite la generación de vídeos directamente a partir te texto, o bien a partir de una imagen. Tienen herramientas que ya se están empezando a incluir en sus competidoras más avanzadas, como controles para el movimiento de cámara y un pincel que permite indicar expresamente qué partes de la imagen se van a animar y cuales no. La pega que tiene es que en los vídeos que parten de una imagen es el que peor consistencia tiene, con lo que las caras y los objetos se deforman mucho.
*Pika, de Pika Labs: El primer competidor serio del anterior y que se caracteriza por funcionar desde su canal oficial de Discord, de forma similar a como funciona Midjourney. Sin embargo, su uso es gratuíto, y la calidad de los vídeos (sobre todo de los generados a poartir de una imagen) es mucho mejor que la de Runway, manteniendo bastante bien la consistencia y animando muy bien personajes y seres vivos. Su uso es totalmente gratuíto y da buen resultado. Actualmente acaban de anunciar la salida de su versión avanzada, Pika 1.0, que funcionará a partir de su web oficial en lugar de por Discord y que tiene novedades realmente impresionantes (mejor que veáis el vídeo oficial que habla por sí sólo). Ya está disponible pero se accede de momento por lista de espera y aún hay pocas personas que lo hayan probado, pero parece que cumple lo que promete. Como muestra os voy a enseñar algunos gifs que he creado a partir de imágenes que yo mismo he generado, que aunque no se ven tan bien como el vídeo original (por el paso a 256 colores y tal) pueden dar una buena idea de lo interesante que es el tema. Primero pondré el vídeo oficial de Pika 1.0 y luego algunos de los gifs:
https://www.youtube.com/watch?v=6zcOfUbAmQo
Creados por mí:
(https://i.imgur.com/LXlwAjH.gif)
(https://i.imgur.com/uItUg0h.gif)
(https://i.imgur.com/xz5ofpY.gif)
(https://i.imgur.com/ZH85JmH.gif)
(https://i.imgur.com/AzPWgg8.gif)
Y la gente ha creado vídeos tan impresionantes como el siguiente (creado con la versión 'normal' de Pika, no con la nueva 1.0):
https://www.youtube.com/watch?v=NX3oOpO-NP4
* Stable Video Diffusion: Sí compañeros... Stability.ai, la misma empresa responsable de Stable Diffusion, ha presentado también su IA opensource generadora de vídeos... Los dos primeros modelos que ha presentado, en principio tienen la limitación de que no puedes guiar la animación mediante un prompt como en las anteriores (por ahora) peeeero tiene las ventajas de poder instalarse en local, estar los modelos a disposición de la comunidad (lo que implica que podrán ser modificados, reentrenados y mejorados por los usuarios), y de que los vídeos conseguidos muchas veces tienen mayor nitidez y calidad que los de las dos anteriores. Por ahora sólo se pueden usar con ComfyUI, pero funcionan muy bien incuso con gráficas con sólo 8 GB de VRAM. Los dos modelos presentados, SVD y SVD_XT, en principio sólo se diferencian en que el primero está entrenado para generar clips de un máximo de 14 fps, mientras que el segundo los puede generar hasta de 25 fps. Sin embargo, en mis pruebas parece que el mejores vídeos genera es el segundo. La clave para conseguir buenos resultados parece estar en partir de imágenes en formato 16:9 (o 9:16) y sacar los vídeos a una resolución de 1024x576, que parece ser que es la de los vídeos usados para entrenar los modelos. Además de la resolución, el número de fps y el número total de fotogramas, se puede controlar la cantidad de movimiento de la escena y hasta qué punto vamos a permitir que la IA pueda deformar la imagen original de partida.
Os voy a mostrar algunos de los gifs que he hecho con esta IA:
(https://i.imgur.com/ek2MegN.gif)
(https://i.imgur.com/NLfWi0C.gif)
(https://i.imgur.com/jbOeY4J.gif)
(https://i.imgur.com/HhtTDpS.gif)
(https://i.imgur.com/EFjRVqv.gif)
(https://i.imgur.com/0k60JXz.gif)
(https://i.imgur.com/k0DHpAW.gif)
(https://i.imgur.com/St2xQ5v.gif)
Bastante impresionante el resultado como se puede ver... Y sí, una de las animaciones es de un homenaje que hice a la mítica portada del primer Castlevania. Además los vídeos luego se pueden mejorar pasándolos por Topaz Video AI para reescalarlos a 1080p e incluso 4K e incluso a 60 fps...
Pasamos ahora a novedades relativas a las IAs generativas de imágenes. Quizás lo mas interesante sea la aparición de dos nuevas IAs de este tipo que tienen la particularidad de ser Opensource, como Stable Diffusion, con lo cual ahora tendremos más opciones libres entre las que escoger. Hay que decir, después de probarlas, que no están a la altura de SD XL (que es la versión de SD con la que se autocomparan), pero tienen potencial puesto que están a disposición de la comunidad... Concretamente se trata de Pixart-alpha y de Playground V2, siendo la mejor de las dos la segunda. Además, en el caso de Playground, al haber sido entrenada de forma similar a SD XL, se puede utilizar en Automatic1111 con sólo descargar el modelo, aunque no es compatible con los LoRA ni las extensiones por ahora.
Además de esto, otra novedad bastante interesante es la aparición de un nuevo tipo de modelos, un LoRA y un sampler, los llamados LCM (Latent Consistency Model), que permiten generar las imágenes a una velocidad extrema, usando menos de 4 pasos para generar la imagen. El asunto es tan importante que incluso Stability.ai ha sacado una versión oficial LCM de SD XL y de SD 2.1, llamados SD XL Turbo y SD Turbo respectivamente. La contrapartida es que se pierde n poco de calidad en las imágenes generadas. La consecuencia de esto ha sido la aparición de aplicaciones que permiten que en un lado de la pantalla se pueda dibujar mientras en el otro, en tiempo real y de forma dinámica, se van formando las imágenes de acuerdo a tu dibujo conforme progresa este... Es bastante impresionante. El primer paso lo dió una empresa española con su web Krea.ai, a la que podéis acceder aquí: https://www.krea.ai/ (https://www.krea.ai/)
Además, el famoso programa de retoque y dibujo Krita, ha incorporado un plug-in que permite hacer justo eso mismo usando Stable Diffusion y los modelos LCM. Os dejo un vídeo donde podéis ver un ejemplo de lo comentado:
https://www.youtube.com/watch?v=tCtshypObhw
A grandes rasgos y de forma un tanto resumida, estas son las novedades más importantes... No obstante, hay en preparación una serie de cosas que pueden ser bastante impactantes también cuando estén disponibles, que sería las siguientes:
- Una extensión para Automatic1111 que de forma automática corrige las manos de los personajes durante el proceso de generación de la imagen.
- Un nuevo procedimiento que puede hacer que cualquier modelo de Stable Diffusion entienda los prompts igual de bien o mejor que Dall-E 3, la mejor IA generativa en este aspecto.
- Una extensión para animar personas y personajes sin inconsistencias a partir tan sólo de una imagen inicial y de un 'esqueleto' de Open Pose. Podéis ver un ejemplo del proceso en el siguiente video:
https://www.youtube.com/watch?v=8PCn5hLKNu4
Wow!
Es una pasada como avanza esto! Me ha flipado todo pero el última vídeo ... OMG brutal!
Ya hay youtubers que tienen acceso a Pika 1.0 y las posibilidades que tiene son brutales... Yo estoy en la lista de espera, por lo que cualquier día de estos la podré probar también. En este vídeo podéis ver la opinión de una de las personas que la han estado probando y viendo como se utiliza:
https://www.youtube.com/watch?v=tEhiA3THDd8
Hola, @sirdrak podrías comentar algo de la versión 6 de Midjourney? Concretamente me tiene intrigado el comando /tune. Aunque aún no lo he utilizado, me da la impresión de que es un intento de respuesta a estas IAs tipo Stable Diffusion para poder "afinar" o crear tu propio estilo.
Enviado desde mi CPH2343 mediante Tapatalk
Cita de: Fran Scythe en Enero 03, 2024, 12:46:00 PM
Hola, @sirdrak (https://www.darkstone.es/index.php?action=profile;u=1568) podrías comentar algo de la versión 6 de Midjourney? Concretamente me tiene intrigado el comando /tune. Aunque aún no lo he utilizado, me da la impresión de que es un intento de respuesta a estas IAs tipo Stable Diffusion para poder "afinar" o crear tu propio estilo.
Enviado desde mi CPH2343 mediante Tapatalk
Lo cierto es que no uso Midjourney ni ninguna otra de pago, prefiero el Opensource... Midjourney sigue siendo la más avanzada a nivel visual y en fotorrealismo, pero no deja de ser un modelo especializado entrenado con muchos recursos funcionando sobre Stable Diffusion... En estos últimos tiempos las IAs privativas están intentando incorporar algunas de las opciones de Stable Diffusion, como por ejemplo hizo Firefly de Adobe, al incorporar modos de edición equivalentes al img2img y al inpainting de SD. Sin embargo, en el tema de poder entrenar tus propios modelos no están ni van a estar nunca a la altura de las IAs Opensource, por no mencionar que salen novedades en formas de extensiones (en el caso de Automatic1111), nodos personalizados y workflows (en el caso de ComfyUI) de forma contínua, por lo que siempre van a tener más funcionalidades, más avanzadas y con mayor control que las otras de pago. En serio, no merece la pena pagar una suscripción... Con los modelos adecuados y currándotelo bién puedes conseguir resultados similares e incluso superiores a los de Midjourney o directamente hacer cosas imposibles en él...
No, si leyéndote a lo largo del hilo me doy cuenta de todo esto que comentas, mi problema es que soy manco y no llego a ese nivel de conocimiento, ese por eso que me tengo q quedar en Mj. Aparte de que el equipo mínimo necesario me da la impresión de que es más potente del que tengo para acceder a Mj.
Enviado desde mi CPH2343 mediante Tapatalk
Bueno, hace tiempo que no actualizo sobre novedades de IA para generar imágenes, pero con lo acontecido esta semana, creo que es necesario hacerlo, pero primero vamos por partes:
- Desde febrero han ido saliendo versiones de SD XL cuyo objetivo era poder generar imágenes con un número menor de pasos y pr tan mucha mayor rapidez. Empezó con SD XL Turbo y le siguió SD XL lighting, que conseguía una calidad algo mayor.
- Tras muchos meses de modelos de anime más o menos mediocres desde la salida de SD XL (siendo hasta hace poco mejores los basados en SD 1.5), aparecen dos grandes modelos 'buenos' de Anime/hentai: Animagine V3 y Pony Diffusion V6. Este último es un modelo muy particular que se convierte rápidamente en el mejor modelo de SD XL y el más popular de todos los modelos de SD XL. La particularidad es que es un modelo entrenado desde cero usando la bae tecnológica de SD XL, por un usuario con tres gráficas profesionales nVidia H100 en su poder. Conjuntamente con un grupo de colaboradores, crean el modelo entrenándolo con una selección de 3 millones de imágenes etiquetadas manualmente por humanos, una por una. Por esa razón, se convierte en un modelo increíble que entiende muy bien lo que se le pide, principalmente nsfw (entrenado en hentai) pero muy válido también para imágenes nsfw. Debido a que es un modelo tan particular, se deben entrenar los LoRas de personajes y estilos específicamente para él, pero tienen un gran éxito.
- Aparecen nuevas técnicas para mejorar la compresión de los prompts de modelos 'antiguos'. Concretamente aparece ELLA, que lo que hace es utilizar un LLM, concretamente T5 XL de Google, para que sustituya a la interpretación del prompt que hace el text encoder de los modelos basados en SD 1.5. El resultado es bastante bueno, aunque no obstante hay un problema de censura de personajes famosos y otras cosas debido a que ya venía incluída con el LLM de Google. Sin embargo, la interpretación de los prompts mejora acercándose a lo que vemos con Dall-e 3. de momento sólo se puede usar en ComfyUI y sólo con modelos de SD 1.5.
- Aparece un 'workflow' para ComfyUI de reescalado con el objetivo de conseguir imágenes espectaculares intentando imitar al servicio online Magnific.ai (que es muy caro). Se convierte en el mejor método de reescalado (añadiendo nuevos detalles) actual. Su nombre es Supir.
- Se publican nuevos modelos generadores de imágenes con arquitecturas más modernas y mejor para la comprensión de prompts. Destacan Stable Cascade (de Stability.ai), Pixart Sigma (que usa un enfoque similar al de Stable Diffusion 3, sólo que utilizando un modelo pequeño y fácil y barato de entrenar conjuntamente con un LLM T5 para la interpretación de los prompts), y los recientes Hunyuan (modelo chino con un funcionamiento similar a SD3) y Lumines (otro modelo muy prometedor que además es multimodal y puede crear sonido, objetos 3D, etc...)
Ahora vamos con lo principal, y que tiene bastante miga, y que no es otra cosa que la publicación esta semana de Stable Diffusion 3 medium, la versión intermedia de SD3, que fué anunciado a primeros de año y ha resultado ser un auténtico caos. Empecemos por el principio:
- Resulta que Stability.ai en todo este tiempo no ha logrado establecer un modelo de negocio que le de beneficios, de forma que está al borde de la quiebra. A consecuencia de esto, y diversas decisiones de la directiva, paulatinamente se han ido yendo todos los ingenieros que participaron en el desarrollo de Stable Diffusion desde sus comienzos, de forma que en marzo de este año ya no quedaba ninguno. Para colmo, Emad Mostaque, CEO de la compañía y el principal defensor de que SD siga siendo opensource y libre en contra de las presiones de los inversores, también ha acabado abandonando la compañía hace un par de meses. Con esto, todos los implicados en la creación y desarrollo de SD ya no están en Stability.
- Las cuentas de Stability no salen... En el primer trimestre de 2024 han tenido unos beneficions de 5M de $ y unas pérdidas de 30M. Empiezan a sonar rumores de que la compañía está en negociaciones para su venta.
- Antes de su marcha, Emad prometió que en mayo tendríamos SD3 para instalarlo en local en su versión más grande (SD3 tendrá varias versiones de diferente tamaño con la intención de que se pueda ejecutar en el mayor número de equipos posible, concretamente las versiones 8B - 8000 millones de parámetros -, 4B, 2B -la medium actualmente publicada- y una de 900M de parámetros para equipos más humildes). Sin embargo, tras marcharse en abril, esto no sucedió y se retrasó la publicación del modelo, que en cambio sí se puso en la API de stability pero previo pago y bastante caro, por cierto. En la comunidad empezaron a circular sospechas de que Stability.ai estaba pensando en dejar de ser Opensource, como hizo Open.ai , y pasar a ofrecer sus modelos online como Dall-e 3 y similares, tras una pasarela de pago.
- Hace unas semanas, algunos empleados de Stability, Lykon concretamente (el responsable del checkpoint Dreamshaper de SD, que fué contratado por la compañía y ha sido el que ha estado encargando de publicitar SD3), empiezan a publicitar literalmente '2B is all that you need', como insinuando la publicación de SD3 medium, pero que mucha gente interpretó como que la intención era darnos a los usuarios una versión menor de SD3 y quedarse ellos los modelos grandes para sí, para ofrecerlos únicamente en su plataforma online previo pago.
- Stability.ai contrata a la ex-responsable de la censura en Twitter antes de que se convirtiera en X, despedida fulminantemente por Elon Musk nada mas llegar. Se le designa como responsable del equipo de 'seguridad' (o sea, de censura) de los modelos.
- Finalmente, se publica SD3 2B medium y se desata el caos: Resulta que los usuarios descubren no sólo que el modelo está fuertemente censurado, sino que la censura a acabado afectando a la generación normal de imágenes con personas, estropeando totalmente la anatomía y creando verdaderos horrores con simplemente pedirle cosas tan simples como 'mujer tendida sobre la hierba'. Ningún modelo anterior de SD, ni los más antiguos, han tenido problemas similares con la anatomía. Además, queda claro que está relacionado con la censura, porque SD3 funciona perfectamente con el resto de imágenes en los que no se representan personas.
- Para colmo, resulta que Stability cambia la licencia bajo la que funciona SD3, de forma que en vez de ser 100% opensource como Sd 1.5 o SD XL, y de libre uso tanto para uso no comercial como comercial, ahora SD3 es de uso libre sólo para uso no comercial. Ahora para usarla comercialmente, hay que contratar una de las licencias que hay en Stability, que son dos: Creators (para pequeños creadores, de 20$ al mes), y la Enterprise (para empresas que tengan mñas de 1M de $ de beneficios) que hay que negociar directamente con ellos y no tiene un precio fijo. Resulta que la primera limita la creación de imágenes con SD3 a 6000 al mes (no queda claro si se refiere a la generación local o a generaciones cuando se usa SD3 en servicios online). Para colmo, una vez la gente ha empezado a leer las condiciones legales de las licencias, hay claúsulas tan disparatadas como que, si se entrena algún modelo usando como base SD3 (lo que lleva la comunidad haciendo desde la existencia de SD) pasaría prácticamente a ser suyo, y que si se deja de pagar la licencia, tendrías que destruir tu modelo y todas las imágenes creadas con él.
- Por si lo anterior fuera poco, resulta que se da el caso de que el creador del modelo de Anime/Hentai más importante de Stable diffusion XL, Pony Diffusion V6 (que tiene la particularidad de que lo entrenó desde cero usando tres nVidia H100), que quiere sacar una versión para SD3, se pone en contacto con stability para intentar contratar una licencia Enterprise, ya que aunque tiene la Creators, piensa ceder su modelo en servicios de generación online (aunque igualmente estaría desponible libremente para que los usuarios lo usen localmente gratis). Se encuentra con que desde Stability lo tratan mal, con condescendencia y hasta se ríen de él (al ser el suyo un modelo nsfw, a pesar de ser el más importante de SD XL en uso), y le ignoran por completo, no permitiéndole conseguir contratar la licencia. Debido a esto, decide que ya no sacará pony para SD3.
- Las últimas noticias del culebron este son que algunos empleados de Stability han admitido que SD3 medium en realidad era una beta que se decidió publicar por el cabreo de la comunidad con el retraso de SD3 8B y que se le quitó el nombre de 'beta' en el último minuto. Aseguran que tienen pensado sacar una versión mejorada del modelo aunque no antes de publicar la versión SD3 8B. Emad Mostaque se pronuncia sobre la polémica en X y comenta que está sorprendido por lo acontecido porque cuando él se marchó de la empresa, el modelo estaba casi acabado y funcionaba perfectamente con la anatomía, por lo que dice que tiene claro que los problemas se introdujeron durante la fase de 'alineamiento para la seguridad' (la censura vamos) del modelo, posterior a su salida. Hay que comentar también, que SD3 8B, en el servicio online de Stability.ai a través de su API, no tiene los problemas que ha mostrado SD3 2B medium.
Por cierto, a las novedades antes comentadas, he de añadir una personal... Ya que os he hablado de la popularidad del modelo de anime Pony Diffusion V6 y sus virtudes, me animé por fin a sacar una versión de mi modelo de estilo de Alfonso Azpiri para Pony XL. Al ser la primera vez entrenando LoRas de SD XL me costó un poco conseguir los resultados que buscaba, pero tras varias pruebas conseguí mi LoRa de estilo, que he publicado en Civitai, al igual que el original que hice para SD 1.5. Lo que más me gusta es que es capaz de crear personajes de Azpiri muy bien, incluyendo a Lorna, Sally Gothic, Bethlehem Steele, Thaca Reem, etc... Incluso es capaz de sacar bien a Mot, aunque le cuesta un poco más. Además, se puede 'activar' el estilo 'acuarela', que Azpiri usaba a menudo, simplemente añadiendo al prompt las etiquetas 'retro artstyle, watercolor /(medium/)' y/o 'traditional media, 1980s (style)'. Os dejo algunos ejemplos:
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/4756a133-d5fc-4d8b-8661-11cfb75c2935/width=1664,quality=90/00191-1806312934.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/72f43739-ce4e-4dba-8ca6-91c239688cbb/width=1664,quality=90/00371-2005503482.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/f2b621b8-e095-4fea-ad50-d55341d5603a/width=1664,quality=90/00224-4119415487.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/08f54972-6edf-4e17-9cda-6a09c75acefa/width=1664,quality=90/00255-1505049134.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/8a9fedc0-15e6-48c3-a749-ab69ee1957d5/width=1664,quality=90/00255-2408865325.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/e3d0a7bd-ba04-4414-a25f-1a20ab975057/width=1664,quality=90/00287-2740984979.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/d27c80b8-2281-4da3-8d33-fe8f89c557c4/width=1664,quality=90/00310-3495086500.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/70166beb-c4b9-4851-8d45-c910ef10d8c4/width=1664,quality=90/00385-739255909.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/f877c817-c13b-48b9-a30b-e2405ff9809c/width=1664,quality=90/00329-2071566462.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/75fc52bf-933e-4984-a09f-c00de6f1d46f/width=1664,quality=90/00228-1998231189.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/9399e8c9-9a52-441a-90bd-03f7ac9ea70a/width=1664,quality=90/00014-1452309691.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/009e58ad-4347-4f5c-81cf-3ed84ded1337/width=1800,quality=90/00097-2826738594.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/aa76a841-f21e-4f03-8bf4-956cfaedbfc1/width=1664,quality=90/00021-2254400340.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/de648a64-67c6-46fb-ad1e-da48193180e9/width=1664,quality=90/00018-3125564932.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/31cbda12-3459-4d67-ad1c-83f7eab43aef/width=1664,quality=90/00106-3273221525.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/d361fecf-2672-4b55-801f-7ba935c6ae40/width=1800,quality=90/00147-2818197314.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/5bf6b68a-6951-42b4-b3e9-0bc1d558a58c/width=1664,quality=90/00218-864038814.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c5090783-24d6-4b47-948b-89c261f072a5/width=1664,quality=90/00201-3830109802.jpeg)
Como se puede obsevar, algunos beneficios de usar Pony XL con mi LoRa es que las manos y la anatomía son mejores,se pueden hacer imágenes con más de un personaje diferente al mismo tiempo simplemente con la descripción del prompt, mayor variedad de poses, etc... Se puede descargar aquí: https://civitai.com/models/495362/alfonso-azpiri-style-for-pony-xl (https://civitai.com/models/495362/alfonso-azpiri-style-for-pony-xl)
Antes de usarlo, es importante leer lo que pone en la descripción del modelo, ya que aconseja cómo usarlo para conseguir el mejor resultado posible, y que al ser el modelo Pony XL tan particular, tiene una serie de eiquetas propios que es imprescindible usar en los prompts.
Bueno, y hay más novedades respecto al asunto de SD3 y el culebrón de Stability.ai... Las siguientes:
- Comfyanonimous (el creador de ComfyUI, que llevaba tiempo trabajando en Stability.ai) anuncia que ha dejado él también la empresa y cuenta que en realidad parece ser que en la empresa no quieren publicar las versiones grandes 4B y 8B de SD3 y que por eso publicaron 2B a sabiendas de que estaba mal, y que se fué de la empresa porque se dió cuenta de que no tenían intención de trabajar para sacar el mejor modelo posible...
- La mayor web del mundo de recursos de Stable Diffusion, Civitai, ha decidido banear SD3 y todo modelo o contenido relacionado debido al tema de las claúsulas abusivas de las licencias comerciales de Stability.ai y el estado de SD3 medium, que está literalmente roto. Esto es algo muy gordo... Por ahora Stability.ai no ha dicho ni pío desde que todo esto comenzó.
- Parece ser que Stability.ai se salva de la bancarrota por los pelos, por una fuerte inversión de Facebook en la compañía... Ahora ha cambiado el CEO y el nuevo es el CEO de Weta Digital, la empresa de efectos especiales para cine y televisión:
June 21 (Reuters) - British artificial intelligence startup Stability AI has appointed Prem Akkaraju as its new chief executive officer, the Information reported on Friday, citing a person involved in the decision.Akkaraju, former CEO of visual effects company Weta Digital, is part of a group of investors including former Facebook President Sean Parker that has stepped in to save Stability with a cash infusion, which could result in a lower valuation for the firm, the report said.The new funding will likely shrink the stakes of some existing investors, who have collectively contributed more than $100 million, according to the report.Stability AI declined to comment.The company had said in May it was in talks with a group of investors for a large equity investment into the cash-strapped firm.
Reporting by Juby Babu in Mexico City; Editing by Shilpi Majumdar
La inyección de dinero la ha recibido nada menos que de Sean Parker, el creador de Napster y cofundador de Facebook, toda una leyenda. Está por ver el significado de esto y como afectará a la orientación de la empresa y si continuará o no apostando por el opensouerce (yo creo que no lo hará, y lo ocurrido tiene mucho que ver con esta inversión).
Por otro lado, otra novedad que se está haciendo muy popular y que merece la pena comentar, es la nueva IA para generar vídeos que da mejores resultados que las disponibles hasta ahora. Se trata de Dream Machine de Luma Labs, que permite hacer vídeos con mas nitidez y consistencia... Permite generar de forma gratuíta unos 30 vídeos al mes. Yo ya la he estado probando y algunos resultados son muy interesantes, con animaciones con mucha mayor movilidad en los personajes y menos deformaciones. En este vídeo podeís ver algunos ejemplos creados a partir de conocidos memes de internet:
https://www.youtube.com/watch?v=vOsq_kye0TE
Además, y como complemento a la anterior, hay otra IA mucho más ambiciosa de este tipo que apunta directamente a hacer la competencia a Sora de Open.ai. Es de origen chino y se llama Kling, y permite hacer vídeos realistas que ya muchas veces no se pueden distinguir de vídeos creados por métodos tradicionales. Se han adelantado a Sora en cuanto a que ya está disponible para que lo usen los usuarios. La pega es que para registrarse pide un número de teléfono chino, por lo que de momento sólo está al alcance de los usuarios chinos. En el siguiente vídeo hablan de él y se pueden ver algunos ejemplos:
https://www.youtube.com/watch?v=xnkLv-PJVMo
Bueno, pues finalmente parece que Stability.ai ha decidido recular y dar marcha atrás con sus licencias y además ha anunciado que van a sacar una versión mejorada y corregida de SD3 medium que supuestamente solucionará todos sus problemas. No se yo si este movimiento llega tarde, porque la comunidad de usuarios ya ha girado la vista a otras alternativas opensource como Pixart Sigma, Lumina y otras, además de que se ha iniciado una iniciativa de colaboración entre miembros muy prestigiosos de la comunidad para desarrollar su propia alternativa opensource y moderna a SD3.
Y sin ir más lejos, además, ha aparecido un modelo opensource basado en la tecnología de SD3, entrenado a modo de aprendizaje por CloneofSimo, que es, ni más ni menos, que el usuario responsable de hacer que la teoría de funcionamiento de los LoRA se convirtiera en una realidad en SD y que la gente pudiera crear sus propios LoRas. Este nuevo modelo se llama
AuraFlow y ya está su versión preliminar disponible a pesar de que continúa su entrenamiento y no está acabado, pero ya da resultados mejores que SD3 (y sin sus problemas).
Y ahora voy con otra novedad... Estos días estoy pasando unos días en el pueblo con mis padres y me he entretenido en preparar y entrenar un LoRa para Pony XL del estilo artístico de nada menos que Luis Royo, con resultados espectaculares (como podréis ver en las imágenes que pondré más abajo). Gracias a que Civitai desde hace un tiempo tiene un servicio online de entrenamiento, puedo hacerlo a pesar de que mi portátil no tenga suficiente VRAM para realizar el entrenamiento en local. El LoRa se puede descargar aquí:
https://civitai.com/models/572942/luis-royo-style-for-pony-xl (https://civitai.com/models/572942/luis-royo-style-for-pony-xl)
Y ahora algúnas imágenes de muestra (aviso que alguna puede ser subidilla de tono, las de ese tipo las pondré en spoiler):
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/be7a4b6e-25c4-40f4-9169-4d73b57abdda/width=1344,quality=90/00019-234336173.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/e7ceb0ec-7e83-4db9-aa5d-67e2daa042dd/width=1728,quality=90/00054-1365934252.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ed732793-27ac-41a9-a7ff-0bba2a9a5177/width=1080,quality=90/00053-1518720751.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/62b4d938-04f2-45a1-994f-4ca71de1f521/width=1728,quality=90/00059-3215751959.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ee308fef-c963-4096-88bf-15a504f18fb3/width=1344,quality=90/00092-3741445405.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/7ffb197d-3337-4b33-836b-d0c191183f86/width=1080,quality=90/00105-1732942199.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/7e0fb3d3-b67c-481f-995e-04cb7f906080/width=1344,quality=90/00040-229115527.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c89c8c9e-0fe0-4020-adf4-902d4e430a83/width=1248,quality=90/00095-1400584430.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/7761ece1-2bd9-41ea-aca5-b070a980a3f5/width=1800,quality=90/00117-350816771.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/910310a1-3a39-4ab3-b428-2646095ec90d/width=1800,quality=90/00172-4031722828.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/d1e37527-0c2e-42e9-ab82-a9792d6ba2be/width=1080,quality=90/00157-3349949566.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/5be5ffc9-2199-45cf-9983-fdfd25150a99/width=1080,quality=90/00174-635002177.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ab2ca9a2-0d3c-4e7c-8982-bbc0d5e68844/width=1344,quality=90/00235-3614525840.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/dfe85b3d-4140-4cc5-8fc4-09a5cd386461/width=1080,quality=90/00161-3763495307.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/8b00cdb3-13cb-4673-b2aa-e7f6f4cdd3e5/width=1792,quality=90/00176-265618458.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/f4ed8d77-7616-4c22-b5f5-eadf8fc76015/width=1344,quality=90/descarga.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/fe965ecc-e3d1-458f-b948-c7fff1f4216e/width=1344,quality=90/00017-374674064.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/30140952-8f0a-4b97-9589-789a28e5d0e6/width=1344,quality=90/00066-3099571436.jpeg)
Spoiler
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/80e3327a-0e85-49aa-9792-c19cb92f1c1c/width=1080,quality=90/00036-2086449607.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/a58010f6-ba94-4340-99ae-75ffe85eb9dd/width=1248,quality=90/00006-199190546.jpeg)
Además, este modelo es muy bueno para hacer imágenes de ciencia ficción o de fantasía heróica como Advanced Dungeon & Dragons, con dragones espectaculares, doncellas, hadas, reyes, etc...
Semana de sorpresas inesperadas en el mundo de la IA generativa de imágenes, y relacionada con el culebrón de Stability.ai... Hace cuatro días, y cuando ya nadie esperaba nada y la comunidad estaba buscando alternativas a Stable Diffusion tras el enorme fracaso de SD3 medium, de la nada apareció una nueva empresa llamada Black Forest Labs (que se llama así porque está establecida en Alemania cerca de la Selva Negra) anunciando que su intención era crear modelos avanzados y competitivos con los de las grandes empresas y que pudieran ser usados por todo el mundo. La empresa estaba formada por nada menos que 14 ingenieros que desarrollaron no sólo Stable Diffusion en diferentes versiones sino que inventaron el concepto de 'difusión latente' gracias al cual existen todas las IAs generativas de imágenes. La mayoría de ellos trabajaban en Stability pero se acabaron yendo todos. La empresa se creó en secreto coordinada por Emad Mostaque, el Ex-CEO y cofundador de Stability al que expulsaron en Abril.
Y la gran sorpresa no fué solo esta sino la entrada por la puerta grande al publicar en paralelo su primer modelo, Flux.1, que por fin se trata de un modelo avanzado mejor que Dall-e 3 y Midjourney V6, que hace todo lo que SD3 prometia ser y no fué y que tiene unas características de calidad de imagen y entendimiento de los prompts que dejan con la boca abierta, a lo que hay que sumar que hace muy bien las manos incluso en posiciones y situaciones complicadas en un 90% de los casos y escribir texto complejo perfectamente. Hablamos del mayor modelo opensource de creación de imágenes publicado hasta la fecha, ya que tiene 12 billones americanos de parámetros (12000 millones), lo que viene a ser 6 veces más grande que SD XL. Lo malo de esto es que tiene unas exigencias elevadas de VRAM para funcionar, siendo necesarios 24 GB de VRAM para hacer funcionar el modelo 'tal cual' en fp16 (es decir, con una RTX 3090 o una RTX 4090). No obstante, es posible ejecutar el modelo en fp8 con apenas pérdida de calidad y también el LLM T5 que hace de 'text encoder', o que hace posible hacerlo funcionar en 12 GB de VRAM o incluso menos (a costa, eso sí, de tiempo mucho más largos para generar la imagen).
Para que no les ocurriese lo mismo que a Stability (no ser capaces de monetizar sus modelos y encontrar un modelo de negocio rentable sin al mismo tiempo darle la espalda a la comunidad opensource), la estrategia que ha seguido Black Forest Labs es sacar tres versiones del modelo:
- Flux-Dev: Es la versión 'normal' del modelo, la que más calidad da disponible al público, y que tiene una licencia de uso libre para uso no comercial (aunque las imágenes generadas se pueden usar como se quiera sin limitaciones), orientada a los investigadores y a los usuarios que quieran experimentar.
- Flux-Schnell: Es una versión orientada a generar las imágenes en pocos pasos (de 4 a 8), al estilo de SD XL Turbo o Lightning, con algo menos de calidad que Dev pero superando aún así a Midjourney y Dall-E 3. En este caso, la licencia es Apache 2.0, lo que quiere decir que es una licencia opensource 100% sin ninguna restricción para su uso tanto comercial como no comercial.
- Flux-Pro: Es la mejor versión y a partir de la cual se han obtenido las otras dos. En este caso no estará disponible para los usuarios, pues su objetivo es ofrecerla únicamente a través de su API como servicio online de pago.
La aparición de Flux ha puesto patas arriba a la comunidad, que se ha volcado totalmente con él gracias a su buenísima calidad, y al mismo tiempo ha puesto aún más presión a Stability.ai, que ahora están en el proceso de 'corregir' el desastre de SD3 medium entrenando una versión 3.1 sin ninguno de los múltiples problemas de la anterior, y de dar marcha atrás como anunciaron a sus polémicas licencias. De momento Flux sólo es compatible con ComfyUI pero ya se está trabajando en añadirle soporte en A1111 e incluso Forge.
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1267262452559642715_3.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/08/1268529580285759508_1.png)
(https://blackforestlabs.ai/wp-content/uploads/2024/08/1268532719944601731_0.png)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1268208630935715891_1.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/08/1268512566032859240_3.png)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1268030332691808257_2.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1257604452198912102_3.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1266008183005249641_2.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1263822171168309323_1.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1268007375588298874_2.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1263276431341912235_2.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1266348912130785303_0.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1266361804049743885_3.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1268267884082102375_4.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1265955685338845235_3.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1265781086697426957_2.-1.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/08/1268513229156388946_0.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/08/1268533594607845548_3.png)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1268266491380371558_2.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/08/1268513654907600959_3.png)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1268237255080677526_1.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1268213420495339631_1.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1268297860450091071_3.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1268203881779822674_3.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1263379197175267380_1.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/sky2.jpg)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1267980408709189694_1.png)
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1268261047450468405_2.jpg)
Los modelos se pueden probar online aquí:
Flux-Dev: https://replicate.com/black-forest-labs/flux-dev (https://replicate.com/black-forest-labs/flux-dev)
Flux-Schnell: https://replicate.com/black-forest-labs/flux-schnell (https://replicate.com/black-forest-labs/flux-schnell)
Y se pueden descargar para su uso local aquí: https://huggingface.co/black-forest-labs (https://huggingface.co/black-forest-labs)
Hay algunas imágenes que cuelan como auténticas... :o
Cita de: tylerdurden8 en Agosto 07, 2024, 10:27:36 PM
Hay algunas imágenes que cuelan como auténticas... :o
Ya te digo, la del tío durmiendo y las de las tres chicas enseñando que la IA ya sabe hace manos me han dejao to loco :o
Cita de: tylerdurden8 en Agosto 07, 2024, 10:27:36 PM
Hay algunas imágenes que cuelan como auténticas... :o
Y que sabrás tu de fotografía!

Mejor deja a los fotógrafos profesionales que opinen. Oh wait!
Cita de: Manchi en Agosto 07, 2024, 10:38:30 PM
Ya te digo, la del tío durmiendo y las de las tres chicas enseñando que la IA ya sabe hace manos me han dejao to loco :o
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1268267884082102375_4.jpg)
La de las manos, me ha llamado la atención por que la falange distal (he tendió que mirar como se llamaba), está más rosada que las demás. Me he mirado las manos, y efectivamente las mías son algo más rosadas que las otras. No tanto como en la foto, pero es así.
Que miedito me da esto, si se hace mal uso de ello.
Cita de: Manchi en Agosto 07, 2024, 10:38:30 PM
Ya te digo, la del tío durmiendo y las de las tres chicas enseñando que la IA ya sabe hace manos me han dejao to loco :o
Totalmente... He estado haciendo pruebas con imágenes 'cotidianas' y los resultados son flipantes, cuelan totalmente por fotos reales... He probado a hacer imágenes como si fueran de una cámara de vigilancia chunga en plena noche, y fotos cotidianas de gente caminando por la calle y es brutal... Y la comida... Y además es capaz de hacer 'screenshots' de videojuegos (sobre todo modernos), ya que parece que conoce bastantes. Voy a poner aquí ejemplos variados 'de mi cosecha':
(https://i.imgur.com/VQebasx.png)
(https://i.imgur.com/QhJnSfS.png)
(https://i.imgur.com/7ewemby.png)
(https://i.imgur.com/hQuZKRz.png)
(https://i.imgur.com/l7PuzS7.png)
(https://i.imgur.com/U29nMcU.png)
(https://i.imgur.com/m4xEG7i.png)
(https://i.imgur.com/qOaYqd7.png)
(https://i.imgur.com/IdS4PMW.png)
(https://i.imgur.com/Ke4ucMM.png)
(https://i.imgur.com/VOuTJ4M.png)
(https://i.imgur.com/4Up3ykt.png)
(https://i.imgur.com/44zvpW6.png)
(https://i.imgur.com/5cuoXdO.png)
(https://i.imgur.com/OPSYGpD.png)
(https://i.imgur.com/yWiOTbe.png)
(https://i.imgur.com/kscoi72.png)
(https://i.imgur.com/XQUXD2S.png)
(https://i.imgur.com/k58pJex.png)
(https://i.imgur.com/qcglhYI.png)
(https://i.imgur.com/NPy3k4J.png)
(https://i.imgur.com/bkswDc2.png)
(https://i.imgur.com/x7ZsEGg.png)
(https://i.imgur.com/8yaLw0Q.png)
(https://i.imgur.com/0XuPzI6.png)
(https://i.imgur.com/zOaI8mI.png)
(https://i.imgur.com/EWAscJ7.png)
(https://i.imgur.com/qqt5A32.png)
(https://i.imgur.com/ZrAIGXq.png)
(https://i.imgur.com/3m48rIz.png)
(https://i.imgur.com/7vsPwKP.png)
(https://i.imgur.com/2UJyVT8.png)
Para las capturas de videojuegos lo único que puse fué 'A 'nombre del juego' screenshot', pero si le escribes un prompt muy detallado puede hacer imágenes que parezcan el juego real. También genera capturas de juegos ficticios igual de bien. Además, se le puede escribir en Español y se le pueden escribir prompts muy muy largos.
Bueno pues el tema de Flux está que arde... La comunidad se ha volcado por completo con él y ya están saliendo avances y cosas interesantes... Vamos a comentar algunas de ellas:
- Como sabéis, Flux, al ser tan grande, de inicio para ser usado al 100% en fp16 pedía una gráfica con 24 GB de VRAM (es decir una RTX 3090 o una RTX 4090). Después salieron versiones en fp8, que permitían ejecutar los modelos en equipos con gráficas con 12 GB de VRAM con una pérdida de calidad mínima. Pues bién, resulta que Illyasviel, nada menos que el creador de ControlNET, de Fooocus y de Forge, tras estar durante 7 días picando código 14 horas diarias, ha dado un paso más en la optimización de modelos para generación de imágenes aplicando técnicas de optimización que hasta ahora se usaban exclusivamente en LLMs, de forma que no sólo ha dado soporte a Flux en Forge, sino que ha hecho posible ejecutarlo en másquinas con 6/8 GB de VRAM e incluso menos, tanto la variante Dev como la variante Schnell. Para ello ha sacado una versión optimizada BNB FN4 de ambos modelos con muy buenos resultados y siendo incluso más rápidas que usando ComfyUI, lo que supone una proeza.
- A pesar de la dificultad que en principio parecía suponer el gran tamaño de Flux a la hora de entrenarlo para crear LoRas o nuevos Checkpoints (que parecían requerir ya de gráficas profesionales para entrenar), finalmente están empezando a aparecer LoRas y técnicas para entrenarlos con 24 GB de VRAM. Ya hay LoRas para conseguir más realismo en fotos, otro para generar más imágenes de tipo 'no-profesional', etc...
Me encantaría entrenar a una IA con mapas o tableros modulares, por ejemplo los del zombicide, para que genere tableros de ese estilo. A ver cuándo...
Cita de: Lotario en Agosto 13, 2024, 05:29:59 PM
Me encantaría entrenar a una IA con mapas o tableros modulares, por ejemplo los del zombicide, para que genere tableros de ese estilo. A ver cuándo...
Por lo visto, según leí en reddit al poco de salir Flux, la versión Schnell es muy buena creando mapas con vista cenital para juegos de rol/tablero y tal... Y en versiones anteriores de Stable Diffusion había LoRas para hacer mapas de ese estilo también.
Ejemplos de mapas generados por Flux Schnell:
(https://preview.redd.it/flux-schnell-is-really-good-at-ttrpg-maps-v0-lwtqpjq3vdgd1.jpg?width=1024&format=pjpg&auto=webp&s=34bc6b062a14f97b2d478322d4af40e5b8a21682)
(https://preview.redd.it/flux-schnell-is-really-good-at-ttrpg-maps-v0-olltsl36vdgd1.jpg?width=1024&format=pjpg&auto=webp&s=5db5303016b29b2360492de1101dcbad34d3e598)
(https://preview.redd.it/flux-schnell-is-really-good-at-ttrpg-maps-v0-0wan8fh6vdgd1.jpg?width=1024&format=pjpg&auto=webp&s=69b467f9b9c6cdab90fa2e37e6472432d6d3ec0c)
(https://preview.redd.it/flux-schnell-is-really-good-at-ttrpg-maps-v0-w5ns2br6vdgd1.jpg?width=1024&format=pjpg&auto=webp&s=a7250782b5e274b7d48bfbca028813779f401493)
Brutalísimo eso de los mapas, bueno eso y todo. Una pasada lo que se consigue mejorar en cada avance!
Gracias por copartirlo compañero @sirdrak (https://www.darkstone.es/index.php?action=profile;u=1568) !
Cita de: sirdrak en Agosto 14, 2024, 12:56:38 AM
Por lo visto, según leí en reddit al poco de salir Flux, la versión Schnell es muy buena creando mapas con vista cenital para juegos de rol/tablero y tal... Y en versiones anteriores de Stable Diffusion había LoRas para hacer mapas de ese estilo también.
Brutales, en nada podré hacerme mis propios tableros para una campaña de Alien. Qué ganas!!
Cita de: Manchi en Agosto 07, 2024, 10:38:30 PM
Ya te digo, la del tío durmiendo y las de las tres chicas enseñando que la IA ya sabe hace manos me han dejao to loco :o
Totalmente :o
Cita de: Ganix en Agosto 07, 2024, 10:57:47 PM
Y que sabrás tu de fotografía! 
Mejor deja a los fotógrafos profesionales que opinen. Oh wait!
(https://blackforestlabs.ai/wp-content/uploads/2024/07/1268267884082102375_4.jpg)
La de las manos, me ha llamado la atención por que la falange distal (he tendió que mirar como se llamaba), está más rosada que las demás. Me he mirado las manos, y efectivamente las mías son algo más rosadas que las otras. No tanto como en la foto, pero es así.
Que miedito me da esto, si se hace mal uso de ello.
Jajajajjajajajaj ;)
@sirdrak (https://www.darkstone.es/index.php?action=profile;u=1568) de la última serie que has puesto, la primera imagen de todas, la del tranvía es de locos :o
Cita de: tylerdurden8 en Agosto 15, 2024, 12:33:21 AM
Totalmente :o
Jajajajjajajajaj ;)
@sirdrak (https://www.darkstone.es/index.php?action=profile;u=1568) de la última serie que has puesto, la primera imagen de todas, la del tranvía es de locos :o
Sí, en las fotografías cotidianas es donde más sorprende por su realismo... He estado haciendo más y algunas son brutales... Una pequeña muestra (y con el modelo Schnell, que es peor en fotorrealismo que la versión Dev):
(https://i.imgur.com/Zc5I8ge.jpg)
Ojo a los reflejos en el agua de la imagen... Es una de las cosas donde fallaban a menudo las IAs anteriores a esta. Y en la siguiente, el efecto de refracción en la parte del cuerpo de la chica sumergida en el mar es impresionante también:
(https://i.imgur.com/HU0bX8u.png)
(https://i.imgur.com/I6G79ot.jpg)
(https://i.imgur.com/pkTXnSL.jpg)
(https://i.imgur.com/0kPz2uO.jpg)
(https://i.imgur.com/A8eFFdL.jpg)
Otra cosa que hice, a modo de diversión, fue crear fotogramas de una peli ficticia de 'Muerte en el Nilo' de Agatha Christie:
(https://i.imgur.com/srd3BnP.png)
(https://i.imgur.com/Xp4G2Zz.jpg)
(https://i.imgur.com/K5HGqnF.jpg)
(https://i.imgur.com/vjBcWHp.png)
(https://i.imgur.com/wKmkxFd.jpg)
(https://i.imgur.com/og55baP.jpg)
(https://i.imgur.com/o8D87Oc.jpg)
(https://i.imgur.com/GmLpKGE.jpg)
(https://i.imgur.com/pOi3KsU.jpg)
(https://i.imgur.com/8G5PBqA.png)
También me entretuve en hacer un meme con Kratos que luego convertí en un vídeo/gif animado para usarlo en la aplicación de mensajería del avioncito de papel y sitios similares, animando la imagen con Dream Machine de Luma Labs, una de las IAs de moda para crear vídeos de ahora:
(https://i.imgur.com/HDuenXq.jpg)
El amigo Kratos bebiendo café mientras ojea el PlayVikingY por cierto, este Flux si que tiene bien aprendida la anatomía y hace unas chavalas de esas que quitan el hipo xD Por ejemplo:
(https://i.imgur.com/r9gBrHX.jpg)
O esta 'Evil Peach', en una realidad paralela en la que ha aceptado su lado oscuro:
(https://i.imgur.com/4IrcSPP.png)
Y en otro orden de cosas, está esto evolucionando a hipervelocidad... Hoy mismo me he levantado con la novedad de que han conseguido aplicar técnicas GGUF de cuantización que se usan en los LLM para reducir sus tamaño sin apenas afectar la calidad de los resultados, a Flux, optimizando aún más su rendimiento y calidad (que hace sólo día y medio el creador de Forge había conseguido hacer que funcionase en equipos con gráficas con sólo 6 GB de VRAM o menos). He aquí una imagen comparativa:
(https://i.redd.it/t55tv97usrid1.jpeg)
Y ya están saliendo los primeros LoRas y checkpoints, como uno de Walter White:
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/0a0c2a4e-43a7-451e-b06d-e15b9725758c/original=true,quality=90/ComfyUI_temp_tjpdb_00165_.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/a3ff40a7-ea53-4d38-8fb8-e1e6cc6793b5/original=true,quality=90/ComfyUI_temp_tjpdb_00095_.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/833f542b-960e-42f2-a3d1-e84f0c10de19/original=true,quality=90/ComfyUI_temp_tjpdb_00138_.jpeg)
Y por supuesto, ya han sacado un LoRA y un primer checkpoint que capacita a Flux hacer desnudos correctamente... (Siempre son las primeras cosas en salir)
Sobre lo que comentaba en el post anterior de las nuevas optimizaciones para hacer funcionar Flux con muchos menos recursos y con una pérdida de calidad mínima, ayer lo estuve probando en Forge y la verdad es que parece magia... Las imágenes de la versión con optimizaciones Q8 son idénticas en un 96-98% respecto al modelo tal cual fué publicado, pero usando la mitad de VRAM y con más velocidad. He hecho un par de imágenes comparativas del estilo de los pasatiempos 'buscas las diferencias' para que podáis comprobarlo. Como podéis ver a nivel de calidad y detalle son idénticas. Además ayer ya les dieron soporte en Forge a los LoRa para este tipo de modelos. Lo interesante es que no hay que hacer distintas versiones de estos para cada tipo de modelo, sino que si, por ejemplo, se entrena el LoRa En Flux.Dev, este funciona también en Schnell y en las versiones BNB FN4 y las versiones Q nuevas...
(https://i.imgur.com/XaLzpz5.jpg)
(https://i.imgur.com/NSe8QJF.jpg)
Se nos va de las manos el tema de las versiones de Flux optimizadas GGUF de las que hablé antes... Cada día sacan nuevas versiones más optimizadas que las anteriores. A este paso ya mismo lo hacen funcionar en una tostadora o un consolador femenino, como el Doom (lo del consolador no es broma)... Hasta ayer, las que mejores resultados me han dado han sido Q8 en calidad (indistinguible de la versión original 'tal cual') y Q5 en eficencia/calidad... Ahora hay un montón nuevos, así que ya tengo entretenimiento para todo el día haciendo pruebas... La cosa está ahora tal que así:
(https://i.imgur.com/fknLcvA.png)
Bueno, pues parece ser que el que Flux tenga como text encoder un LLM completo (el T5), beneficia y facilita bastante el entrenar LoRas... Parece ser que dan mejor resultado usando pocas imágenes de entrenamiento (entre 10 y 30) e incluso sin etiquetar dichas imágenes porque el LLM ya entiende perfectamente lo que está viendo sin que nosotros se lo expliquemos... Como primera prueba me he entretenido en entrenar uno de la Bruja Avería con sólo 11 imágenes y poniendo únicamente como etiqueta la palabra para invocar al personaje, que en mi caso es 'b-averia'... El resultado es bastante bueno, como podéis ver en estas imágenes:
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ecdbc372-b22f-4cae-9d60-3710d92accd1/original=true,quality=90/00062-490980307.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/20ca824c-3a91-41a0-b343-c31ecd7c2ab1/original=true,quality=90/00008-4037479708.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/cff78c8a-bebf-4a84-ac0b-152559f7a193/original=true,quality=90/00019-3853454261.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/4b234d38-3809-41e1-b038-d54bf1d903c9/original=true,quality=90/00020-3504519000.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/75038cd6-bbd7-41cb-ba20-6a5f71ef9165/original=true,quality=90/00026-197237436.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/d99f1c4a-847c-4573-9683-a6a966006656/original=true,quality=90/00047-62392098.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/34063188-5c07-49c2-be93-065f72ad4d4c/original=true,quality=90/00109-3111722408.jpeg)
Mi LoRa se puede descargar de aquí: https://civitai.com/models/710616 (https://civitai.com/models/710616)
Joder, tío, cada vez que posteas, más me sorprendo.
Grandísimo hilo y grandísimo @sirdrak (https://www.darkstone.es/index.php?action=profile;u=1568).
Lo de la bruja avería me ha matado, no me lo esperaba 😂😂😂
Cita de: Fardelejo en Septiembre 02, 2024, 11:36:02 PM
Grandísimo hilo y grandísimo @sirdrak (https://www.darkstone.es/index.php?action=profile;u=1568).
Lo de la bruja avería me ha matado, no me lo esperaba 😂😂😂
No te rías, no te rías... De la bruja Avería.
Todavía amanecerás con el televisor roto ;D
Cita de: Manchi en Septiembre 03, 2024, 06:09:08 AM
No te rías, no te rías... De la bruja Avería.
Todavía amanecerás con el televisor roto ;D
La cartera ya la tiene así ;D ;D ;D
Bueno, pues he hecho un pequeño experimento y me ha salido bastante bién... Si recordáis, hace un tiempo, las imágenes que yo creaba en Stable Diffusion usaban una especie de estilo que descubrí por casualidad a combinar varios modelos (entre ellos mi versión del modelo del estilo de Azpiri de Stable Diffusion 1.5) de una determinada forma, básicamente el de estas imágenes:
(https://i.imgur.com/qRNkBzr.jpg)
(https://i.imgur.com/wTKDgPX.png)
(https://i.imgur.com/uxBmwQV.jpg)
Es decir, que no era un modelo concreto sino una combinación de varios... Pues bién, ya llevaba un tiempo pensando en entrenar un modelo con imágenes generadas de esta forma para convertirlo en un estilo normal, en modelos más modernos como Pony y Flux, con la intención de conservar la estética y tener las ventajas de dichos modelos. Así que me puse manos a la obra y entrené un LoRa con un set de imágenes de entrenamiento formado por unas 73 imágenes de las mejores generadas por mí mismo con dicho estilo (y con menos fallos de los típicos como en las manos y tal) en Flux, y bueno, pues parece que lo he clavado y a la primera. La ventaja es que ya no me salen las manos mal y puedo controlar mucho mucho mejor lo que quiero que salga en las imágenes gracias al mejor entendimiento de Flux. Unas cuantas imágenes de ejemplo:
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/4d423673-eb5a-4643-8a4b-41ea616cd633/original=true,quality=90/00118-1321578890.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/0d128485-39df-4007-8298-7437d31624d7/original=true,quality=90/00370-2427754164.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/309a3b09-e1bc-4764-8086-23ca6742cd06/original=true,quality=90/00010-3876230769.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/37992a17-39c0-49a6-bb62-3d56f248ff99/original=true,quality=90/00047-3597009423.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/12fc54c4-06a7-4f31-aadd-bd7c0514c429/original=true,quality=90/00019-773656772.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/11798e3f-b58f-414a-a528-7289dc8861ce/original=true,quality=90/00014-2185731186.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/940faa00-e1a9-499d-bdfa-2126e90a9478/original=true,quality=90/00022-538544541.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ff99378f-daf3-40ec-a52a-d8ca2a70bcbf/original=true,quality=90/00053-166934698.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/13b9f3fd-dcef-47d0-a1ad-5ab6ea9b1f37/original=true,quality=90/00108-353254707.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/fa3cecb9-fb32-4f16-a91f-735b643301a7/original=true,quality=90/00279-766730940.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c745869a-d7c5-4266-8400-bf7edcf6444d/original=true,quality=90/00341-2917036235.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/a7e8ec1f-c860-4163-a2ac-202e08d69526/original=true,quality=90/00360-1809659173.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/6ab85db7-f6af-461f-bd0f-101c132abb93/original=true,quality=90/00346-3212323469.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c52b5fac-0a54-4440-a28d-ae6066c84fc9/original=true,quality=90/00383-1758886717.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/5f090851-235f-435c-a596-0c3a41f475a4/original=true,quality=90/00413-2290461638.jpeg)
Como podéis ver, el estilo clavado al 100% pero con mejores manos y anatomía. Lo he puesto en Civitai y parece que está teniendo buena aceptación (más de 80 descargas en 2 días). Para el que lo quiera probar, se puede descargar aquí:
https://civitai.com/models/844159/western-comic-semirealistic-25d-style-for-flux (https://civitai.com/models/844159/western-comic-semirealistic-25d-style-for-flux)
Mi siguiente idea es entrenarlo en Pony y así se podrán hacer cosas 'más subidillas de tono' con dicho estilo ;D
Si les pones menos ropa a las chicas las deja ya directamente en pelotas ;D
Cita de: Manchi en Octubre 14, 2024, 12:38:27 PM
Si les pones menos ropa a las chicas las deja ya directamente en pelotas ;D
Si, es que digamos que como ha aprendido principalmente del material de Azpiri es muy tipo lo que se veía en revistas como Cimoc y Heavy Metal, y por eso tiende mucho al famoso 'bikini armor' ;D Pero a Flux, que le gustan los prompts muy largos y detallados, si le describes bien la ropa, las puede vestir como quieras... A ellos también tiene mucha tendencia a hacerlos tipo Conan a pecho descubierto jejeje Pero salen unas imágenes muy chulas a veces, como estas:
(https://i.imgur.com/wbiOGwj.jpg)
(https://i.imgur.com/ncYfUyE.jpg)
(https://i.imgur.com/Za5H644.png)
(https://i.imgur.com/6EHvBmx.jpg)
(https://i.imgur.com/RdfP3sy.png)
(https://i.imgur.com/5vND0Lj.png)
(https://i.imgur.com/Ep8cUL1.png)
(https://i.imgur.com/B6iQDfJ.png)
(https://i.imgur.com/HIg9brZ.png)
Muchas gracias @sirdrak (https://www.darkstone.es/index.php?action=profile;u=1568)
el modelo funciona bastante bien, he estado jugando un poco con él y la verdad es que da buenos resultados! sigo teniendo problemas siempre con el tema de las manos pero mucho mejor!
para muestra un botón :
(https://orchestration.civitai.com/v2/consumer/blobs/BBHA7MGSEGMXN5PKZ57TWW8Y50)
Un abrazo!
Bueno, pues estos días he estado probando a versionar el último modelo que entrené para Flux que puse aquí (el de Western Comic 2'5D) para Pony ya que con Flux no se puede -aún- hacer cosillas NSFW 'decentemente', y porque me he fijado que cuando entreno modelos para Pony, estos parecen retener mayor cantidad de detalles que en Flux. Y resulta que el resultado es aún mejor de lo que esperaba. Hace un par de días lo subí a Civitai y salen unas chavalas que quitan el hipo jejeje Una muestra de las imágenes de la galería del modelo:
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ea39d90e-7be6-4a93-b646-758e912a94f7/original=true,quality=90/00066-3954507974%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/fffbfb11-04d5-4c17-a76f-f9b5da2a3d68/original=true,quality=90/00022-941605470%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/588aefec-5252-418f-b352-1465d5af7eca/original=true,quality=90/00123-4126342172%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/8f44d6a6-0197-4b05-a01d-990136b72536/original=true,quality=90/00025-1069783463%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/42cd36cf-decc-4b5c-a3f9-667a49d45b5c/original=true,quality=90/00036-3057459962%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/318af798-8706-4cc0-a0a8-730487b9c68f/original=true,quality=90/00031-47659037%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b2b805d9-ee64-4a1d-81df-bf897c373efb/original=true,quality=90/00079-883692931%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/650947d3-cd38-4019-83b1-fbaf1b306dc5/original=true,quality=90/00014-704215740%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/a4932fa2-6cef-4cd3-bc02-552746a3b36d/original=true,quality=90/00058-4193193476%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c91335bb-3d3b-46d4-88ac-8617646358dc/original=true,quality=90/00054-1074963690%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/b1f23fb4-1160-4dd5-a85a-403f3b72c3a4/original=true,quality=90/00048-2625734055%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/1b93bc06-b875-469a-af89-00f3938d6916/original=true,quality=90/00083-660431922%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/fcbb2e85-c7a1-4ff5-a897-b1fa6708077f/original=true,quality=90/00043-2479386071%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/6c80159a-9b2b-4f0a-878f-c9e2a10812aa/original=true,quality=90/00088-3477950485%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/d78400d4-846b-4289-b9ee-286c2a77ad18/original=true,quality=90/00030-1557373744%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/61e538c3-708f-467b-b440-538badd454a9/original=true,quality=90/00013-1878758430%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/2116d85d-c8eb-41da-b773-3080c5ed3456/original=true,quality=90/00055-994009609%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/05e7198c-a024-4dfd-968a-01c802c7228d/original=true,quality=90/00016-3257402125%20(1)%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/08f37e02-e2de-4b0c-a754-2aad91b3c7ab/original=true,quality=90/00003-2404080824%20-%20copia.jpeg)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/2ad85bd0-9e65-45e1-89ba-c417ac9aaa1a/original=true,quality=90/00051-2300919927%20-%20copia.jpeg)
Como véis mayor detalle, mejores texturas, rasgos más realistas y variados, etc... Y la posibilidad de hacer 'cosillas subidillas de tono'... Se puede descargar de aquí:
https://civitai.com/models/844159/western-comic-semirealistic-25d-style-for-flux-and-pony (https://civitai.com/models/844159/western-comic-semirealistic-25d-style-for-flux-and-pony)
En cuanto a novedades en IA, lo que hay ahora es un boom de IAs opensource para generar vídeo de forma local, que están evolucionando muy rápido... Hay varias que son muy prometedoras y que no tienen nada que envidiar a las de pago, encabezadas por Hunyuan Video (la mejor ahora mismo, aunque también la que más recursos consume), y luego CogvideoX, LTX Video y Mochi-1. Son muy interesantes y ya he estado probando LTX Video y está muy bien, de hecho se está haciendo muy popular porque es la que menos recursos exige y genera los vídeos muy rápido, y además admite modos text2video (el habitual de escribir un prompt y generar el vídeo desde cero), image2video (le das una imagen como fotograma inicial y anima dicha imagen) y video2video (le das un vídeo y lo transforma en otro).
Hoy os voy a comentar un poco las novedades que hay en cuanto a generación de vídeos con IA pero en local y opensource, en contraposición a los servicios online por suscripción como Kling, Hailuo Minimax o Dream machine de Luma... Lo cierto es que en los últimos meses se está viendo un auténtico 'boom' con avances significativos similares a los que acontecieron en la generación de imágenes cuando apareció Stable Diffusion 1.5 en 2022, sobre todo con la aparición de cierto modelo del que os hablaré luego.
Al principio la adopción de estos modelos se ha hecho más complicada por las ya consabidas limitaciones técnicas referentes a la cantidad de VRAM cada vez más alta que piden los nuevos modelos para funcionar (con la honrosa excepción de LTX video), a la que no ayuda la tradicional racanería de nVidia a la hora de aumentar la cantidad de VRAM en las tarjetas gráficas de usuario. La salida de la nueva generación de gráficas RTX 50xx no ha hecho mas que empeorar las cosas, ya que nVidia, para seguir teniendo ventaja en el mercado profesional de IA y obligar a que si quieres más VRAM tengas que ir a una gráfica de este tipo, al contrario de lo que sería lo lógico, ha seguido manteniendo los 16 GB de VRAM como máximo (al menos por ahora, no sabemos si esto cambiará con futuras variantes Super de las mismas) en las gráficas de gama media alta como las 5070 y las 5080 en lugar de aumentar su VRAM a 20 o 24 GB, ya que amunta la de la 5090 a 32 GB. Afortunadamente, ya que todos estos modelos tienen una arquitectura moderna basada en 'transformers', como los LLM, ha sido posible aplicar el mismo tipo de optimizaciones que a estos para hacer funcionar los modelos en equipos más humildes con menos VRAM.
A día de hoy han aparecido los siguientes modelos:
- Mochi: El primer modelo de vídeo de alta calidad con resultados cercanos a lo que ofrecen los servicios de suscripción de pago. La pega que ha impedido su popularización es que pide 64 GB de VRAM para funcionar y que no tiene modo 'image2video' (el que permite generar una animación a partir de una imagen suministrada)
- CogvideoX: Este es el primer modelo con unos requisitos altos pero aceptables que se empezó a popularizar, también de los primeros en aparecer, y que sí tiene los tres modos (video2video, txt2video e img2video)
- LTX video: Lo de este modelo supuso el primer 'Boom' y que hizo que el tema empezase a despegar. Sus puntos fuertes es que es un modelo muy ligero (más o menos como SD XL) que funciona en una gran cantidad de equipos y que es rapidísimo generando los vídeos, hasta el punto de que con gráficas potentes (una 4090 por ejemplo) la generación del vídeo se acerca al tiempo que tarda en reproducirse el vídeo. Además tiene los tres modos antes comentados, y habría sido el más popular de no ser por la llegada del último contendiente. Las pegas son que los vídeos que genera no son de tan buena calidad como los de CogvideoX, por ejemplo, y que para que de buenos resultados hay que escribir prompts muy largos y detallados, hasta el punto de que se recomienda generarlos con un LLM. Tampoco se le da bien animar cosas que no sean fotorrealistas, como dibujos animados.
- Hunyuan video: Tenemos un ganador, señores!! La llegada de este modelo, por varias cosas que ahora comentaré, ha sido una auténtica revolución similar a la que supuso la llegada de Stable Diffusion 1.5. Aunque pide bastante VRAM para funcionar, se puede utilizar incluso con sólo 8 GB de VRAM usando algunas de sus versiones pequeñas en GGUF. Su versión del modo img2video no ha sido publicada aún pero sus desarrolladores dicen que la publicarán en breve. Sin embargo, lo que le ha hecho destacar son los siguientes puntos:
* Su calidad es la mayor de todos, cercana a la de los servicios de suscripción
* Es muy fácil entrenar LoRas para él, de hecho igual de fácil que entrenarlos para un modelo de generación de imágenes, pudiendo usar en el entrenamiento imágenes o clips de vídeo. Esto implica poder entrenar personas, personajes, animaciones de todo tipo, estilos artísticos, etc... Algo que no ofrecen ni en sueños las IAs de suscripción de pago.
* Es el único modelo que no tiene censura, siendo capaz de mostrar desnudos integrales tanto masculinos como femeninos, representar correctamente los genitales y hasta entender conceptos sexuales, por lo que, gracias a los LoRas, es capaz de generar todo tipo de porno muy realista (y ya se sabe que el sexo es una gran fuerza que hace avanzar curiosamente la tecnología, como está pasando aquí). También conoce bastante bien la anatomía y las manos suelen salir bien.
* Es el mejor modelo que he visto representando anime y series de animación. Lo que he podido ver es bastante sorprendente (pondré algunos ejemplos luego).
Por estas razones, este último ha despertado un enorme entusiasmo en la comunidad y ya hay LoRas de todo tipo. En realidad ya lleva unos meses disponible, pero por unas cosas y otras no lo pude probar hasta esta semana y la verdad es que me han asombrado sus resultados... Ya estoy deseando entrenar LoRas para él y ver qué consigo...
Os voy a dejar con unos ejemplos de animación usando un LoRa con el estilo artístico de Katsuhiro Otomo (el creador de Akira), que lo que más me sorprende es que ha sido entrenado sólo con imágenes y no con clips de video:
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/7f6087df-f879-4db6-9a5b-dfbdab400c69/original=true,quality=90/ComfyUI_00011_.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/1a95fca9-f7ba-4fa6-9fbd-892248eea048/original=true,quality=90/ComfyUI_00047_.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/8f120c40-3891-4258-8666-9f47fa0d3b84/original=true,quality=90/ComfyUI_00003_.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/af802a78-a6e4-429c-a156-dbec653f3211/original=true,quality=90/ComfyUI_00001_.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c6374c88-4c70-40bd-a2fe-9e4c8d005a8e/original=true,quality=90/ComfyUI_00002_%20(3).webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/1627e7cf-7817-48ef-bb3c-75cf58ae2477/original=true,quality=90/ComfyUI_00004_%20(2).webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/08a03d6f-5ba6-41dd-ad09-a396145d8ca8/original=true,quality=90/ComfyUI_00021_%20(2).webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/ef4eb9a4-cb0c-4267-9ece-cfe4032ae061/original=true,quality=90/56418527.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/317eb114-e88d-4acb-9187-0613a2eea4d4/original=true,quality=90/56418191.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/c51899b7-42c5-4552-81a9-f52a0a15a3f9/original=true,quality=90/56418126.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/10885196-85e2-4afb-a7b2-3783a3ac17ce/original=true,quality=90/56415110.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/4190f6f5-3e93-404d-a3f8-1571a6e470a1/original=true,quality=90/56415006.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/259cd24d-9295-4def-a098-d27767a522fd/original=true,quality=90/56409799.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/18799e4f-e769-479c-9491-0a73633c01d4/original=true,quality=90/56405705.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/df26f721-3191-4d9c-ba67-2b655c04bce5/original=true,quality=90/56405528.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/3937b5d7-5a3f-4e3a-9f90-e8d1f5e13cc6/original=true,quality=90/56396912.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/d1578dca-d4e2-495e-8c30-c2f8e6cb7885/original=true,quality=90/56397224.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/d6a56fd4-e5f2-447c-bcb7-54a19b9bc3f8/original=true,quality=90/56394875.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/48688a61-c7f7-4d32-b6ad-623e9e526bb1/original=true,quality=90/54647899.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/f476eb12-06fc-42ad-b4a4-47078e2597df/original=true,quality=90/54647751.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/e22b311d-6f70-4272-b7e5-300418780205/original=true,quality=90/52676632.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/20938ae4-2801-4403-8ad9-d33f179e8792/original=true,quality=90/52675804.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/64a6f483-6cf3-44ff-9c42-8d67447c782f/original=true,quality=90/52675532.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/89d5cdb7-89b0-4b47-91c8-b78736892ede/original=true,quality=90/52675015.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/bf00a71e-98dc-431e-a531-fd0a877ca09a/original=true,quality=90/52673798.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/6be3df4b-b627-48d4-a779-d1802a817058/original=true,quality=90/52669019.webp)
(https://image.civitai.com/xG1nkqKTMzGDvpLrqFT7WA/f2003289-d686-45f6-bf3a-72b81474bdef/original=true,quality=90/52661533.webp)
Me parece impresionante teniendo en cuenta que son imágenes 100% generadas por Hunyuan sin partir de una imagen previa...
Por cierto, y que casi lo olvido... Aquí dejo los tutoriales de AcademiaSD tanto para instalar Hunyuan Video en ComfyUI, como para entrenar sus LoRas con One Trainer:
https://www.youtube.com/watch?v=WFw7PGufhIQ
Y para entrenar LoRas:
https://www.youtube.com/watch?v=RaSa7v-T-3k
Bueno, pues han salido en estos meses muchas cosas nuevas interesantes, pero como he estado liado con varias cosas y cambiando de Pc de sobremesa no he tenido tiempo de comentarlas por aquí... Voy a hacer un resumen muy breve de las cosas más destacadas:
- En la última actualización comentaba que había llagado un modelo chino de vídeo sin censura que estaba arrasando llamado Hunyuan Video... Pues bién, poco después llegó otro de la mano de Alibaba llamado Wan Video 2.1 que es aún mejor, con algo más de censura pero muy poca, solventado todo gracias a los LoRas... El punto fuerte de este es que apareció con versiones t2v (texto a video), i2v (de imagen a vídeo, su punto fuerte) y una versión pequeña t2v de 1'3B (las otras son 14B). A día de hoy en el modo i2v sigue siendo el ganador y el que mejores movimientos saca en los vídeos, aunque su mayor pega es que tarda bastante en generar los vídeos sin optimizaciones.
- Hunyuan Video sacó más tarde una versión i2v pero no estaba a la altura de Wan, aunque sigue siendo mejor en t2v y el menos censurado.
- Después aparecieron varias versiones 'especiales' de Wan (también de Hunyuan, pero las ganadoras son las de Wan) que permiten generar vídeos empleando varias imágenes y vídeos de referencia de forma espectacular. Se trata de Wan VACE, y básicamente lo que permite es que le des por ejemplo la imagen de una persona, un lugar y un objeto y genere un vídeo de dicha persona en el lugar y con el objeto concreto. Así mismo, le puedes dar un vídeo para guiar el movimiento con resultados espectaculares. Las posibilidades de esto son brutales... Por ejemplo, he visto uno que primero generó una imagen de una especie de agente secreto a James Bond con gafas de sol en la puerta de un helicóptero con su traje y un paracaídas a punto de saltar, y luego, con dicha imagen y un vídeo de él mismo en su cocina con una mochila puesta imitando el movimiento de salto, genera un vídeo con Wan VACE del agente secreto saltando del helicóptero igual que si fuera una película...
- En esto que llega Illyasviel, el genio responsable de Forge y de ControlNET, e idea una forma de generar vídeos que permite su uso con menos recursos y generar vídeos de hasta 2 minutos, a la que llamó Framepack. Framepack en realidad usa como base Hunyuan Video lo que tiene como ventaja adicional de que funcionan todos sus LoRas... Se usa en modo i2v y funciona incluso con gráficas con tan sólo 6 GB de VRAM, y además tiene una interfaz sencilla accesible para todo el mundo y fácil de instalar, por lo que no es necesario usar ComfyUI. Es una verdadera revolución y consigue vídeos de bastante buena calidad.
- Siguen saliendo nuevas utilidades interesantes... Tencent saca Hunyuan Video Avatar, que permite crear un vídeo a partir de una imagen y un archivo de audio sincronizando los movimientos y los labios de la persona/personaje de la imagen con el audio.
- Aparece una interfaz con Gradio (es decir, usando el navegador como interfaz, como Automatic1111, Forge o Framepack) llamada Wan2GP orientada a hacer sencilla la generación de vídeos con todas estas plataformas (Wan, Wan VACE, Hunyuan Video, Hunyuan Video Avatar, LTX Video, etc...) y además en máquinas de pocos recursos, muy recomendada para quienes no les guste usar ComfyUI y su complejidad.
Estas, digamos, son las más destacadas, aunque novedades hay muchísimas y no paran de salir... Otra cosa MUY destacada es que aparece un LoRa especial llamado Causvid que lo que hace es acelerar mucho la generación de los vídeos, básicamente haciendo que un mismo vídeo que antes necesitabas generar en 25 pasos lo generes en 6-8 pasos, multiplicando su velocidad x3 o más... Por ejemplo, de esta forma, vídeos que sin optimizaciones a mí con mi RTX 3090 me tardaban 30 minutos, he pasado a hacerlos en 5 minutos... La pega es que parecía afectar a la calidad de los movimientos, pero se encontraron formas de evitar dicho problema.
Cita de: sirdrak en Junio 11, 2025, 05:55:04 PM
Bueno, pues han salido en estos meses muchas cosas nuevas interesantes, pero como he estado liado con varias cosas y cambiando de Pc de sobremesa no he tenido tiempo de comentarlas por aquí... Voy a hacer un resumen muy breve de las cosas más destacadas:
- En la última actualización comentaba que había llagado un modelo chino de vídeo sin censura que estaba arrasando llamado Hunyuan Video... Pues bién, poco después llegó otro de la mano de Alibaba llamado Wan Video 2.1 que es aún mejor, con algo más de censura pero muy poca, solventado todo gracias a los LoRas... El punto fuerte de este es que apareció con versiones t2v (texto a video), i2v (de imagen a vídeo, su punto fuerte) y una versión pequeña t2v de 1'3B (las otras son 14B). A día de hoy en el modo i2v sigue siendo el ganador y el que mejores movimientos saca en los vídeos, aunque su mayor pega es que tarda bastante en generar los vídeos sin optimizaciones.
- Hunyuan Video sacó más tarde una versión i2v pero no estaba a la altura de Wan, aunque sigue siendo mejor en t2v y el menos censurado.
- Después aparecieron varias versiones 'especiales' de Wan (también de Hunyuan, pero las ganadoras son las de Wan) que permiten generar vídeos empleando varias imágenes y vídeos de referencia de forma espectacular. Se trata de Wan VACE, y básicamente lo que permite es que le des por ejemplo la imagen de una persona, un lugar y un objeto y genere un vídeo de dicha persona en el lugar y con el objeto concreto. Así mismo, le puedes dar un vídeo para guiar el movimiento con resultados espectaculares. Las posibilidades de esto son brutales... Por ejemplo, he visto uno que primero generó una imagen de una especie de agente secreto a James Bond con gafas de sol en la puerta de un helicóptero con su traje y un paracaídas a punto de saltar, y luego, con dicha imagen y un vídeo de él mismo en su cocina con una mochila puesta imitando el movimiento de salto, genera un vídeo con Wan VACE del agente secreto saltando del helicóptero igual que si fuera una película...
- En esto que llega Illyasviel, el genio responsable de Forge y de ControlNET, e idea una forma de generar vídeos que permite su uso con menos recursos y generar vídeos de hasta 2 minutos, a la que llamó Framepack. Framepack en realidad usa como base Hunyuan Video lo que tiene como ventaja adicional de que funcionan todos sus LoRas... Se usa en modo i2v y funciona incluso con gráficas con tan sólo 6 GB de VRAM, y además tiene una interfaz sencilla accesible para todo el mundo y fácil de instalar, por lo que no es necesario usar ComfyUI. Es una verdadera revolución y consigue vídeos de bastante buena calidad.
- Siguen saliendo nuevas utilidades interesantes... Tencent saca Hunyuan Video Avatar, que permite crear un vídeo a partir de una imagen y un archivo de audio sincronizando los movimientos y los labios de la persona/personaje de la imagen con el audio.
- Aparece una interfaz con Gradio (es decir, usando el navegador como interfaz, como Automatic1111, Forge o Framepack) llamada Wan2GP orientada a hacer sencilla la generación de vídeos con todas estas plataformas (Wan, Wan VACE, Hunyuan Video, Hunyuan Video Avatar, LTX Video, etc...) y además en máquinas de pocos recursos, muy recomendada para quienes no les guste usar ComfyUI y su complejidad.
Estas, digamos, son las más destacadas, aunque novedades hay muchísimas y no paran de salir... Otra cosa MUY destacada es que aparece un LoRa especial llamado Causvid que lo que hace es acelerar mucho la generación de los vídeos, básicamente haciendo que un mismo vídeo que antes necesitabas generar en 25 pasos lo generes en 6-8 pasos, multiplicando su velocidad x3 o más... Por ejemplo, de esta forma, vídeos que sin optimizaciones a mí con mi RTX 3090 me tardaban 30 minutos, he pasado a hacerlos en 5 minutos... La pega es que parecía afectar a la calidad de los movimientos, pero se encontraron formas de evitar dicho problema.
Muchas gracias por la actualización, ¡Qué interesante!.¿Tienes por ahí algún vídeo generado por esos modelos que comentas? Por comparar con los de google de las últimas semanas. Si se aproximan aunque sea un poco, ya estoy instalándomelos...
Cita de: Fardelejo en Junio 11, 2025, 06:39:33 PM
Muchas gracias por la actualización, ¡Qué interesante!.¿Tienes por ahí algún vídeo generado por esos modelos que comentas? Por comparar con los de google de las últimas semanas. Si se aproximan aunque sea un poco, ya estoy instalándomelos...
Pues por ejemplo, este con algunas pruebas con Wan VACE (arriba video resultante abajo imágenes y video de referencia):
https://www.youtube.com/watch?v=tUg0hZqAJFo
No están al nivel de Google Veo3 (porque eso es muy bruto ya, con vídeos prácticamente indistinguibles de la realidad, generando el audio del vídeo y hasta las voces de los personajes directamente) pero sí al de las herramientas más conocidas como Kling... Desde luego merece muchísimo la pena, y sin censura, y siendo tan fácil entrenar loras como en las IAs de imágenes...Y todo gracias a los chinos porque todas estas IAs de vídeo vienen de allí, y gracias a eso también vienen menos censuradas. No me extraña que le estén comiendo la tostada a EEUU en IA... Además todo lo sacan en opensource, gratis y disponible para todo el público.
Si queréis probarlas de forma fácil, sin tener que recurrir a ComfyUI y tal, os recomiendo Framepack Studio y Wan2GP. Si instaláis Pinokio, las podéis instalar y usar desde allí con un sólo click. Pinokio lo podéis descargar de aquí:
https://pinokio-home.netlify.app/ (https://pinokio-home.netlify.app/)
Eso sí, hacedlo en una unidad con mucho espacio libre, porque los modelos de vídeo ocupan un montón (13-24 GB cada uno), y mejor si es en un SSD. Y para generar vídeo, hacedlo mínimo con una gráfica de nVidia con al menos 12 GB de VRAM, mejor cuanto más tenga.
¿De qué clase de "censura" estamos hablando aquí? Porque no sé si seré el único que se aterra de pensar en que puedas hacer vídeos "sin censura" sabiendo de sobra por todos las implicaciones que eso puede tener.
Cita de: Iradiel en Junio 12, 2025, 03:35:15 PM
¿De qué clase de "censura" estamos hablando aquí? Porque no sé si seré el único que se aterra de pensar en que puedas hacer vídeos "sin censura" sabiendo de sobra por todos las implicaciones que eso puede tener.
Creo que te aterras con razón
Yo pienso en porno, pero es verdad que el concepto de sin censura es más aterrador y amplio.
Obviamente me refería a desnudos y tal, no a otras cosas... Y también a la censura estúpida que hay en las de pago que te bloquea cosas totalmente inocentes...
Pensar que con un par de fotos de un amigo/a o familiar le pueden generar imagenes sin su permiso da mucho miedo. Como siempre,la ley se adapta,pero a ritmo glacial.
Por cierto, el otro día probé Pinokio y me pareció una gran opción para las personas que quieren iniciarse en el uso de la IA en local sin meterse en muchos líos de temas técnicos y tal. El problema que tienen las IAs en local es que antes de empezar a usarlas hay que instalar un montón de cosas y que es un tema que está más pensado para desarrolladores que para personas comunes, lo que puede echar para atrás a mucha gente. Pinokio viene a hacer las cosas más fáciles. Básicamente viene a ser un front-end para temas de IAs y entornos virtuales. Te permite instalar las aplicaciones de IA más conocidas encargándose por tí de instalar todo lo necesario y crea un entorno virtual para ello, con lo que si tienes Python ya instalado en tu sistema y tal no lo toca, ya que todas las cosas necesarias las meterá en la carpeta de instalación. Escanea tu sistema para ver lo que tienes instalado y se encarga de buscar las cosas que falten, y además ya tiene instaladores 1-click para cada una de las aplicaciones más usadas como Forge, Wan2GP o Framepack Studio. De hecho yo lo estoy usando con Wan2GP porque el procedimiento 'a mano' de instalación que aparece en su github es más complicado y propenso a fallos, y el propio autor recomienda usar la facilidad del instalador 1-click de Pinokio. Para el que le interese, se puede descargar de aquí: https://pinokio-home.netlify.app/ (https://pinokio-home.netlify.app/)
Además, en esa misma web aparecen los instaladores de los programas más usados, de forma que instalarlos es tan sencillo como tener pinokio abierto y pinchar en la web sobre el nombre del que queramos instalar para que empiece la instalación en Pinokio de forma automática
Voy con más novedades de las últimas semanas, sobre todo una muy importante...
- En cuestión de dos semanas, han aparecido sorprendentes optimizaciones para Wan que han conseguido superar uno de los mayores handicaps que tenían las IAs para generar vídeo en local: El largo tiempo que necesitaban para generar un vídeo incluso usando gráficas con gran cantidad de VRAM (como mi RTX 3090 con sus 24 GB de VRAM). El truco ha sido conseguir generar los vídeos en una cantidad mucho menor de pasos sin pérdida (aparente) de calidad, tanto de imagen como de movimientos, pasando de requerir unos 25 pasos a poder hacer lo mismo en sólo 4 pasos, concretamente usando el lora de 'Self Forcing', con lo que vídeos que sin optimizaciones tardaban en mi gráfica 30 minutos en generarse (5 segundos de vídeo), ahora se pueden generar en tan sólo 2-3 minutos. Ha sido un paso muy importante sobre todo para gráficas más humildes, pudiendo generar los vídeos en tiempos aceptables.
- Y el bombazo que ha aparecido en esta última semana, ha sido el nuevo modelo de Black Forest Labs (los creadores de Flux) para generar imágenes, pero permitiendo la edición de las mismas con prompts sencillos, aquello que hizo tan famoso al modelo Imagen de ChatGPT y puso de moda transformar fotos conocidas en sus versiones con el estilo de Studio Ghibli. Se trata de Flux Kontext, y funciona tan bien como Imagen pero en local y gratis, permitiendo cosas como restaurar y colorear fotos antiguas, transformar el estilo de las imágenes, quitar o agregar fondos, objetos o personajes de las imágenes, ponerle una prenda de ropa a una persona, poder poner a la misma persona de forma consistente haciendo cosas diversas con sólo una imagen de origen, etc... Además puede trabajar con más de una imagen al mismo tiempo, pudiendo poner a los personajes de varias imágenes juntos y un sin fin de posibilidades más. Los resultados son bastante impresionantes y es bastante útil... Algunos ejemplos de mi cosecha:
Restaurar una foto familiar de hace 70 años y colorearla:
- Original:
(https://i.imgur.com/nWrKXvD.jpg)
- Restaurada (Prompt: Remove the scratches, recolor the photo and highres the details):
(https://i.imgur.com/LvtWQ1S.jpg)
Cambiar un personaje por otro sin tocar el resto de la imagen:
- Original:
(https://i.imgur.com/SEDXwFP.jpg)
- Editada (Prompt: Change the warrior woman to a male barbarian with a battle axe, while mantaining the style, background and monsters.)
(https://i.imgur.com/vKRiFd9.jpg)
Convertir un boceto en una imagen final respetando de forma consistente todos los detalles (algo parecido a lo que os mostré en los inicios usando ControlNET, pero de forma mucho más precisa y sencilla). Usaré como ejemplo mis ya conocidos bocetos de los personajes del Gauntlet:
- Originales:
(https://i.imgur.com/Qpffmsw.jpg)
(https://i.imgur.com/B4Teyjb.jpg)
(https://i.imgur.com/McoukX6.jpg)
(https://i.imgur.com/byQXKFx.jpg)
- Resultados (Prompts: Restyle and recolor the image to a fantasy colorful anime style, mantaining the features of the (barbarian/elf/wizard/valkirie). Put him/her with brown hair(aquí especificamos detalles sobre los colores de la ropa, pelo, etc.. que queremos que tengan y tal) in a dungeon with stone walls and torchs.)
(https://i.imgur.com/DTdt8SX.jpg)
(https://i.imgur.com/mrSAIyj.jpg)
(https://i.imgur.com/t5mY5nc.jpg)
(https://i.imgur.com/x3sE2IW.jpg)
Poner al personaje de una foto realizando diversas acciones manteniendose consistente todo el tiempo:
- Original:
(https://i.imgur.com/GvcW7iY.jpg)
- Acciones:
(Prompt: Make the woman in a tavern drinking beer maintainig the style of the image, the clothes and features of the woman and her hair style. The tavern is full of happy people and is made of wood)
(https://i.imgur.com/t1sopvY.jpg)
(Prompt: Make the woman in an arcade playing videogames in an arcade cab. In the background there are people playing with other cabs)
(https://i.imgur.com/t6cvOOC.jpg)
Cambiar de estilo la imagen (como las famosas imágenes de Studio Ghibli). Usaremos la misma imagen de la chica anterior:
- Prompt: Change the image to a colorful anime style.
(https://i.imgur.com/2BYTlVG.jpg)
Y estos son sólo algunos ejemplos de las muchas cosas que se pueden hacer con este modelo. Es interesante señalar que los de Black Forest Labs se han esforzado en 'censurar' el modelo para evitar que haga ciertas cosas cuyos usos podrían ser discutibles, de forma que no permite desnudar a las personas ni hacer Deepfakes (cambiar la cara de una persona por la de otra).
Muchas gracias.
He estado probando FLUX.1 Kontext para arreglar fotos antiguas en color y colorear algunas aún más viejas y los resultados han sido espectaculares.
Yo estuve poniendo color a unas fotos antiguas bastante complejas y una de las personas que aún vive y estuvo esa foto dijo que no sabe cómo pero que la IA había acertado de lleno en los colores de las cosas (había objetos que él recordaba como mantas, manteles, etc que no tienen colores estándar como por ejemplo el tronco o las hojas de un árbol).
Esto no es nuevo. Hay bastantes películas antiguas que se rodaron en blanco y negro y después se pasaron a color. Un ejemplo es la bruja novata.
Evidentemente ahora con una IA, será mucho más rapido y supongo que con mejor definición.