Colaboradores


Stable Diffusion: Tutoriales y cosas interesantes

  • 51 Respuestas
  • 74861 Vistas

0 Usuarios y 1 Visitante están viendo este tema.

Conectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 177
  • Agradecido: 126 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #30 en: Julio 21, 2023, 11:12:52 am »
Joer, a los deltoides del bárbaro le sobran media docena de músculos, pero en general la ilustración es impresionante.

La verdad es que sí, este estilo con el que dí por casualidad combinando LoRAs y RevAnimated es ideal para este tipo de ilustraciones tipo carátula ochentera, portada de 'Heavy Metal', Barbarian o similares... Mientras creaba las imágenes estaba escuchando esto de fondo:


« Última modificación: Julio 21, 2023, 11:15:22 am por sirdrak »
 

Conectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 177
  • Agradecido: 126 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #31 en: Agosto 12, 2023, 01:35:57 pm »
Bueno, pues finalmente salió hace un mes la versión definitiva oficial de Stable Diffusion XL, que ya de primeras dá unos resultados interesantes en sus imágenes aunque a costa de necesitar algo más de potencia. Aquí podéis ver algunos ejemplos generados de mi cosecha (con el modelo oficial tal cual, sin usar LoRAs ni nada):















































Con guiños a 'Expediente X' y al artista nórdico Simon Stålenhag. Muy prometedor, y ya con la comunidad empezando a entrenar cosas en dicho modelo...

Y ahora algo muy interesante... Al principio, posteé un video tutorial de creación de LoRAs del youtuber Aitrepreneur, pues bién... Ayer publicó otro para el que, en esta ocasión, ha hecho muchísimas pruebas, se ha documentado bien y hasta ha tenido asesoramiento directo de nada menos que los creadores de Stable Diffusion, Stability.Ai, por lo que es el vídeo más interesante que he visto de entrenamiento. Aunque en principio está orientado a hacer LoRAs para SD XL, lo que explica se puede aplicar de forma general para mejorar bastante la calidad de los LoRAs. Muy recomendable verlo:



Además, en la descripción del vídeo, aporta archivos preconfigurados para el entrenamiento según el tipo de LoRA y sets de imágenes de regularización, lo que es muy interesante.
 
Los siguientes usuarios han dado gracias a este post: Remiel, tylerdurden8

Desconectado Galor

    *
  • Creador de Juegos
  • Golliath
  • *
  • Mensajes: 1674
  • Agradecido: 331 veces

    Total de insignias: 16
    Insignias: (Ver todas)
    Creador de encuestas Forero que nunca duerme. 720 horas (30dias) en DS. Votar 10 encuestas Awaken Realms Fan Seis años en el foro. Cinco años en el foro Forero querido (más de 100 thanks) El más rápido de todo el oeste. Miembro fundador (uno de los primeros 350 foreros) Ha creado 10 hilos en el foro. Primera encuesta votada Firma Webmaster Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #32 en: Agosto 12, 2023, 01:47:36 pm »
qué prompts has usado?......es una BRUTALIDAD
 

Conectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 177
  • Agradecido: 126 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #33 en: Agosto 12, 2023, 02:46:45 pm »
qué prompts has usado?......es una BRUTALIDAD

Pues la gracia es que se pueden conseguir cosas como estas con prompts sencillos porque entiende mucho mejor lo que el escribes, e incluso en muchos casos, sin usar el prompt negativo. Además, si en lugar de Automatic1111 usas ComfyUI, se puede usar una de las novedades que tiene este modelo, que es que tiene dos CLIPs diferentes para los prompts en lugar de uno: El original de SD anteriores (Clip L) y el nuevo, que es el de Open.Ai (Clip G), por lo que se puede escribir un prompt con el prompt positivo/negativo dividido en dos partes para que cada una la interprete (a la vez) un CLIP distinto, consiguiendo un entendimiento mucho más preciso. El de las primeras chicas sí que es más elaborado, porque lo probé de unos ejemplo de otro modelo de SD 1.5, pero creo que se podría simplificar bastante ya que no es necesario estar nombrando a artistas y múltiples modelos de cámara, etc... para conseguir los mismos resultados. Voy a poner un ejemplo de cada uno:

- De las chicas del principio:

breathtaking cinematic photo majestic and regal full body profile portrait, sexy photo of a beautiful (curvy) woman with short light brown hair in (lolita outfit:1.4), (panties:1.4), (mega booty:1.5), (large breasts:1.6), (nsfw:1.2), low angle, looking at the camera, (thighs), (small waist:1.0), intricate, epic, elegant, highly detailed skin, sharp focus, beautiful volumetric lighting, epic light, ultra detailed, by leesha hannigan, ross tran, thierry doizon, kai carpenter, ignacio fernandez rios . 35mm photograph, film, bokeh, professional, 4k, highly detailed . award-winning, professional, highly detailed

Prompt Negativo: 2girl, 2girls, more than 2 people, illustration, cartoon, 3d, disfigured, bad art, deformed, poorly drawn, extra limbs, blurry, boring, sketch, lackluster, repetitive, cropped, umbrella, ugly, duplicate, morbid, mutilated, out of frame, extra fingers, extra butt, extra ass, mutated hands, poorly drawn hands, poorly drawn face, mutation, no face, missing face, no head, missing head, no eyes, missing eyes, bad anatomy, bad proportions, cloned face, disfigured, more than 2 nipples, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, mutated hands, fused fingers, too many fingers, long neck, drawing, painting, crayon, sketch, graphite, impressionist, noisy, blurry, soft, deformed, ugly, ugly, deformed, noisy, blurry, distorted, grainy

De los animales bebiendo café/cerveza:

a {male|female} humanoid {rabbit|rat|lizard|cat|dog|alien|penguin|llama|dragon|fox} drinking {beer|coffee|milk} at a coffee shop, portrait photograph, fujifilm, highly detailed

Este no tiene prompt negativo

Las chicas youtuber:

45yo woman, beautiful detailed eyes, looking at viewer, colored hair, lewd smile, sugerent, erotic, cat ears headphones, detailed hair, detailed lips, skin spots, detailed skin, big breasts, in a gamer room, Gaming Pc, neon lights, masterpiece, best quality, cinematic, volumetric lighting, very detailed, high resolution, sharp, sharp image, 4k, 8k, 35 mm

Prompt negativo: EasyNegative, badhandsv4, text, watermark, low quality, medium quality, blurry, censored, deformed, mutated, anime, toon, render, 3d, ilustration

Las de invasiones alienígenas sobre granjas, granjeros y campos de trigo:

breathtaking masterpiece, science fiction, (big motherbase in the sky:1.8), alien invasion, an old farmer walking, denim jumpsuit, straw hat, (in front of a farm), wheat field, tractor, clouds, detailed background, colorful, 4k, 8k, cinematic lighting, epic light, ultra detailed, . award-winning, professional, highly detailed

Negative prompt: EasyNegative, (low quality, normal quality, worst quality:1.4), illustration, cartoon, 3d, disfigured, bad art, deformed, poorly drawn, drawing, painting, crayon, sketch, graphite, impressionist, noisy, blurry, soft, deformed, ugly, ugly, deformed, noisy, blurry, distorted, grainy, text, name, logos, author firm, watermark, Patreon, ugly, deformed, noisy, blurry, distorted, grainy
« Última modificación: Agosto 12, 2023, 02:52:04 pm por sirdrak »
 

Desconectado ModularTerrain

    *
  • Bandido
  • *****
  • Mensajes: 988
  • Agradecido: 102 veces
    • www.youtube.com/channel/UCfxqjMxwFYoHTnfKSv1qpdg
    • Modular Terrain

    Total de insignias: 10
    Insignias: (Ver todas)
    Seis años en el foro. Forero querido (más de 100 thanks) Cinco años en el foro Spammer 25 mensajes en un día Primera encuesta votada Firma Webmaster Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #34 en: Septiembre 04, 2023, 05:51:53 pm »
Vaya, llevo como un mes haciendo cosas con el SD y hasta ahora no me había dado cuenta de este post.

Muy bueno.

Desconectado LordPep

    *
  • Bandido
  • *****
  • Mensajes: 959
  • Agradecido: 449 veces
  • Carpe Ludum
    • pepoliveras
    • LordPeP
    • LordPeP
    • Frikigames (in memoriam)

    Total de insignias: 15
    Insignias: (Ver todas)
    Forero que nunca duerme. 720 horas (30dias) en DS. El más rápido de todo el oeste. Seis años en el foro. Votar 10 encuestas Cinco años en el foro Ha creado 10 hilos en el foro. CMON Fan Forero querido (más de 100 thanks) Mecenas HQ25 Firma Primera encuesta votada Webmaster Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #35 en: Septiembre 04, 2023, 06:17:15 pm »
Buenísimo hilo,

he estado probando cosas con SD, en Leonardo, Playground y similares, y aunque al probar con prompts sencillos se consiguen cosas muy chulas a la que vas indagando y experimentando más te das cuenta del increíble potencial de estas herramientas.

Todavía no he visto en directo (aunque sí en algún vídeo) estos modelos integrados en herramientas como photoshop y similares pero me parece abrumador!

Gracias por compartirlo! Esto es un no parar! Siempre hay algo nuevo que aprender  :o ;D
Carpe Ludum
 

Conectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 177
  • Agradecido: 126 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #36 en: Septiembre 24, 2023, 02:26:18 pm »
Bueno, pues llevaba un tiempo sin postear novedades interesantes, así que comentaré algunas de los últimos meses... La mayoría de los que usamos Stable Diffusion en local, como sabéis, usamos Automatic1111 como interfaz a través del navegador para generar las imágenes, al ser la más completa y que más opciones tiene (los modos img2img, inpaint, las extensiones, los script para hacer upscaling, matrices de imágenes, etc...), pero no es la única, algo que se ha hecho patente y más notorio desde la silida de SD XL, debido a las mayores exigencias de esta versión de Stable Diffusion. La pega de Automatic1111 es que es la menos eficiente, de forma que requiere más potencia que las otras opciones para generar las mismas imágenes con la misma configuración de hardware. Por ello hoy voy a hablar de las otras opciones existentes para generar imágenes en local...

Las otras opciones actuales son las siguientes:

- ComfyUI: Es una interfaz muy versátil y rápida para generar imágenes con Stable Diffusion, y de hecho es la que utilizan directamente y recomiendan Stability.ai, la empresa creadora de Stable Diffusion. Tiene todas las posibilidades que tiene Automatic1111 e incluso algunas que no tiene aún a día de hoy relacionadas con las novedades de SD XL, como la posibilidad de usar simultáneamente dos prompts diferentes para el positivo y dos prompt diferentes para el negativo usando los dos 'Clips' que soporta nativamente XL al mismo tiempo (los Clips son básicamente el intérprete que hace que la IA entienda lo que le pedimos en lenguaje natural). Además fué la primera en tener soporte completo de los modelos base y refiner de XL (soporte que no llegó a Automatic1111 hasta su versión 1.6.0, la actual). Sus ventajas son que requiere mucho menos hardware para generar imágenes y además es extremadamente rápido, incluso a la hora de hacer reescalados, es muy fácil de instalar (es simplemente descomprimir una carpeta, ejecutar la primera vez un actualizador y luego sólo un .bat y a funcionar) y las imágenes que genera son de muy buena calidad. Otra característica que tiene, es que basta con arrastrar una imagen generada previamente con él al espacio de trabajo para que ya salga todo configurado incluído su prompt como cuando se generó dicha imagen, cosa que también se puede hacer con un archivo de configuración .json. Las pegas son que su interfaz es completamente antiintuitiva y compleja... De hecho casi se podría decir que no tiene interfaz, pues funciona a base de un sistema de módulos interconectados entre sí que recuerda a los lenguajes de programación visuales por objetos como los que usan Blender o Unreal Engine, lo que puede echar a muchísima gente para atrás por su aparente complejidad. En la siguiente imagen podéis ver un ejemplo:



Eso sí, si se tiene una máquina más limitada, es mucho mejor que Automatic1111... Por ejemplo, con ComfyUI es mucho más rápido generar imágenes en buena calidad de SD XL con una gráfica de sólo 6GB de VRAM o menos, de forma que la diferencia puede ser de hacer en menos de 30 segundos lo que en Automatic1111 puede llevar varios minutos. Se puede descargar aquí, de su Github: https://github.com/comfyanonymous/ComfyUI

- Fooocus y Fooocus-MRE: Llegamos a las dos opciones más recientes, esta vez enfocadas de forma exclusiva en generar imágenes de SD XL y hacerlo de la forma más sencilla posible, ideal para las personas que sólo quieren generar imágenes de la forma más sencilla posible sin usar opciones avanzadas. Ha sido creada nada menos que por los responsables de la extensión más importante y revolucionaria existente hasta la fecha de Stable Diffusion, ControlNET, de la que ya os he hablado en ocasiones anteriores. Tiene las ventajas de ser extremadamente fácil de instalar (al igual que con ComfyUI, es descargar y descomprimir un archivo, y en la carpeta resultante ejecutar un archivo .bat y a funcionar). Ni siquiera es necesario buscar aparte los modelos básicos para empezar porque los descarga automáticamente en el primer inicio (SD XL base y el refiner). Además, es también muy rápido y también consume menos recursos que Automatic1111, muy cerca de lo que hace ComfyUI en este sentido. Respecto a la interfaz y opciones, primero hablaré de Foocus y luego de las opciones extras que tiene Fooocus-MRE, que es un fork del primero.

En Fooocus, la mayor parte de la interfaz la ocupa la parte donde aparecen las imágenes generadas, y debajo simplemente un espacio para escribir el prompt. Luego hay una casilla para mostrar las opciones avanzadas de forma que nos permite escribir también prompt negativo, elegir entre una buena cantidad de resoluciones pero todas ellas fijas (esto es así porque son las resoluciones de las imágenes con las que se realizó el entrenamiento de SD XL, que lo que hace es que el resultado tenga la mejor calidad posible) y elegir entre priorizar calidad o rapidez en la generación de las imágenes. Todas estas opciones se muestran en un panel en el lateral derecho, que tiene tres pestañas con más opciones extra: La mencionada, una para elegir un estilo para las imágenes (otra de las novedades de SD XL) y otra que nos permite elegir el checkpoint a usar como modelo base, y el que se va a usar como Refiner, y además varias casillas para elegir y usar LoRAs y seleccionar su fuerza. Nada más... Como se puede ver, todo enfocado a una sencillez extrema y obtener buenos resultados sin complicaciones.

En Fooocus-MRE, que como comenté es un fork creado a partir del código fuente del Fooocus original con el objeto de añadir más opciones a la generación de imágenes, se incorporan opciones propias de Automatic1111 para las personas que quieren hacer cosas más avanzadas manteniendo la sencillez de uso y la interfaz de Fooocus y con las ventajas de su buen rendimiento. Las opciones que se incorporan nuevas son las siguientes:

    * Modo img2img
    * Posibilidad de configurar los mismos parámetros avanzados en la creación de las imágenes que en Automatic1111 (número de pasos, sampler, punto en el que se pasa del modelo Base al Refiner durante el proceso de generación, CFG, Clip Skip, etc...)
    * Soporte de los LoRA especiales de Stability.ai que dan soporte de ControlNET a SD XL
    * Posibilidad de usar resoluciones 'custom' en la generación de imágenes.
    * Posibilidad de hacer Upscaling en el modo img2img.
    * Posibilidad de usar estilos personalizados.
    * Soporte de inpainting y outpainting.

Aquí podéis ver el aspecto que tiene la interfaz:



Y se pueden descargar desde sus respectivos Githubs:

    * Fooocus: https://github.com/lllyasviel/Fooocus
    * Fooocus-MRE: https://github.com/MoonRide303/Fooocus-MRE

Por último, os quiero recomendar también un modelo fotográfico de Stable Diffusion 1.5 que me ha sorprendido por su realismo y sus espectaculares texturas de la piel, dando resultado imágenes como esta:



Y aquí un recorte de la cara para que podáis apreciar mejor el realismo de la piel:


Como podéis ver, totalmente indistinguible de la realidad 100%... El modelo se llama epiCRealism, concretamente su última versión, llamada Natural Sin, que ha sido entrenada con imágenes de personas normales y no de modelos fotográficos, por eso consigue ese realismo. Se puede descargar de aquí: https://civitai.com/models/25694/epicrealism

Para obtener resultados como los de mi imagen, os recomiendo la siguiente configuración a la hora de generar imágenes con él:

- Resolución de 512x512, 512x768 o 768x512, de 20 a 30 pasos, CFG scale de 5 y de sampler Euler A o SDE 2M ++ Karras.
- Usar prompts simples evitando términos como masterpiece, best quality, 8k, intricate, high detail, (extremely detailed face), (extremely detailed hands), (extremely detailed hair) y similares ya que no son necesarios.
- En el prompt negativo usar cartoon, painting, illustration, (worst quality, low quality, normal quality:2)
- Al usar la opción Hires.fix, seleccionar 1'5x o 2x upscale, como upscaler 4x_NMKD-Superscale-SP_178000_G (luego pongo dónde se descarga) y un denoise de 0'35
- Si luego se hace upscaling en img2img con el script de SD Upscale, usar el mismo upscaler mencionado antes (basta con descargarlo y meterlo en la carpeta models/ESRGAN para que aparezca disponible en ambos modos).

El mencionado upscaler se puede descargar de aquí: https://huggingface.co/gemasai/4x_NMKD-Superscale-SP_178000_G/tree/main
 
Los siguientes usuarios han dado gracias a este post: Vince, LordPep, tylerdurden8

Desconectado tylerdurden8

    *
  • Lapidador experimentado.
  • *
  • Mensajes: 6135
  • Agradecido: 1164 veces
  • "Encontraremos una salida... Como siempre"
    • tylerdurden8
    • tylerdurden8

    Total de insignias: 21
    Insignias: (Ver todas)
    Seis años en el foro. Votar 50 encuestas Superbacker (Más de 100 proyectos apoyados) Cinco años en el foro Forero ejemplar (más de 1000 thanks) 5000 Posts Tres años en el foro. Forero que nunca duerme. 720 horas (30dias) en DS. Votar 10 encuestas Spammer 50 mensajes en un día Awaken Realms Fan Forero ninja top #10 Creador de encuestas Primera encuesta votada Forero querido (más de 100 thanks) Ha creado 10 hilos en el foro. Un año en el foro Firma Spammer 25 mensajes en un día El más rápido de todo el oeste. Avatar personalizado
« Respuesta #37 en: Septiembre 24, 2023, 10:31:03 pm »
Me parece increíble que esa foto no sea real  :o

A ver cuanto tardan en hacer pelis directamente con IA... Al tiempo  ::)
Si tengo que sacar un 6 para ganar... Ya puedo ir felicitando al rival...
 

Desconectado Vince

    *
  • Vince el grande
  • Lapidador experimentado.
  • *
  • Mensajes: 9874
  • Agradecido: 3473 veces
  • No somos más que un sueño dentro de un sueño.

    Total de insignias: 21
    Insignias: (Ver todas)
    Seis años en el foro. Forero ejemplar (más de 1000 thanks) Votar 100 encuestas Awaken Realms Fan Firma Cinco años en el foro Forero que nunca duerme. 720 horas (30dias) en DS. Forero querido (más de 100 thanks) Miembro fundador (uno de los primeros 350 foreros) Ha creado 10 hilos en el foro. El más rápido de todo el oeste. Mecenas HQ25 Votar 50 encuestas Votar 10 encuestas Primera encuesta votada 10 encuestas Creador de encuestas 5000 Posts Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #38 en: Septiembre 25, 2023, 11:11:19 am »
Gracias por tus aportes y explicaciones, @sirdrak
No me toques los dados.
 
Los siguientes usuarios han dado gracias a este post: sirdrak

Desconectado Fardelejo

    *
  • Administrador Global
  • Lapidador experimentado.
  • *
  • Mensajes: 23624
  • Agradecido: 7570 veces
  • Darkstone yonki
    • darkstoneforum
    • fardelejo
    • fardelejo
    • Darkstone Juegos

    Total de insignias: 29
    Insignias: (Ver todas)
    20000 Posts Votar 100 encuestas 15000 Posts Seis años en el foro. Awaken Realms Fan Superbacker (Más de 100 proyectos apoyados) 50 encuestas Artista Cinco años en el foro Forero que nunca duerme. 720 horas (30dias) en DS. Spammer 25 mensajes en un día Forero ejemplar (más de 1000 thanks) Forero querido (más de 100 thanks) Miembro fundador (uno de los primeros 350 foreros) Ha creado 10 hilos en el foro. El más rápido de todo el oeste. 5000 Posts Votar 50 encuestas Votar 10 encuestas Primera encuesta votada 25 encuestas 10 encuestas Creador de encuestas 10000 Posts Firma
« Respuesta #39 en: Septiembre 25, 2023, 11:19:46 am »
Qué bien está quedando este hilo, ¡muchas gracias!

Conectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 177
  • Agradecido: 126 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #40 en: Octubre 01, 2023, 05:56:58 pm »
Bueno, pues esto es un no parar de novedades de IA últimamente... Voy a comentar las más importantes.

Primero, os voy a compartir un vídeo de Olivio que explica un técnica muy sencilla usando el modo img2img para hacer más realista una imagen y mejorar el detalle de la piel usando el modelo con el que hice a la chica ultrarrealista, epiCRealism, pero también funciona con otros modelos realistas como Photon o Realistic Visions. Básicamente consiste en cargar la imagen que queremos mejorar o usar como referencia en el modo img2img, seleccionar como sampler DPM ++ SDE Karras (muy importante este paso), poner 30 pasos en la generación de la imagen y usar un denoise entre 0.3 y 0.4 (dependerá de la imagen). Con esto, y con un prompt que describa la imagen (ya que se puede hacer incluso con imágenes normales no IA) y sin reescalar, generamos la nueva imagen, que veremos que tiene una piel con más detalle. Tras esto, la podemos mejorar aún más pulsando el botón que hay bajo la imagen con el icono de una escuadra, que la enviará a la pestaña de extras para hacer un reescalado, donde podremos aumentar la resolución de la imagen x2, x3, x4, etc... y de paso añadiendo más detalle, usando como reescalador un modelo opcional que indican en el vídeo, que sólo hay que descargar y meter en la carpeta models/ESRGAN. El modelo es 8x_NMKD-Superscale_150000_G.pth y se descarga aqui: https://huggingface.co/uwg/upscaler/tree/main/ESRGAN

Y aquí el vídeo de Olivio en el que se pueden ver los resultas y lo explica... Decir que también sirve para cambiar una imagen de un estilo a otro, por ejemplo, una imagen de anime convertirla en una con personas reales o viceversa, con resultados espectaculares (mostraré un par de ejemplo más abajo):



Los ejemplos que comento...

Original:



Pasada a 'carne y hueso realista IA':



Otro ejemplo:

Original:



A imagen realista:



Y ahora vamos con 'el plato principal'... Open.ai, la empresa creadora del famosísima ChatGPT, fué la empresa pionera en IAs generativas de imágenes, creando su IA Dall-E antes de la aparición de todas las demás. Esta semana pasada presentó la última versión de dicha IA, Dall-E 3, que tiene varios aspectos revolucionarios y está integrada tanto en ChatGPT 4 como en el chat de Bing. Debido a usa como base dicho modelo de lenguaje, su comprensión de lo que le pedimos en el prompt supera con mucha diferencia lo que son capaces de hacer todas las demás. Desde ayer, casi por sorpresa, ya se puede probar y usar gratis, tanto a través del chat de Bing integrado con el navegador Edge como con Copilot (siempre que no vivas en Europa, como es nuestro caso, que no nos ha llegado aún dicha funcionalidad a Windows 11 por cuestiones de legislación europea) integrado en Windows 11 desde la actualización 'Momento 4' de esta semana.
La otra forma de utilizarla, y que es la que yo he usado, es visitar la página oficial de Bing para crear imágenes, visitando esta dirección: https://www.bing.com/create
Tan sólo hay que loguearse con una cuenta Microsoft (Outlook, Xbox, etc...) y ya se pueden crear imágenes de forma ilimitada y gratuíta. Puede ser que se acceda la primera vez a la página y que en vez de Dall-E 3, salga la versión anterior. Esto se comprueba pidiéndole que nos genere una imagen en la que aparezca un texto, pues una de las novedades de Dall-E 3 es que hace el texto prácticamente perfecto. Si no lo hace, se trata de Dall-E 2. En ese caso basta con probar con otro navegador, aunque indican que las mayores posibilidades de éxito se dan con Firefox y con Brave. Yo lo hice ayer con Firefox y me salió bién a la primera.

Ahora vamos con las novedades y mi experiencia con las pruebas que le hice ayer (me pase todo el día haciendo pruebas tratando de llevar sus posibilidades al límite):

- Entiende perfectamente lo que le escribes en lenguaje natural mucho mejor que cualquier otra IA de este tipo, por lo que ya no hay que hacer apenas 'ingeniería de prompt', ni usar prompt negativo ni nada, para que te muestre en la imagen todo lo que le pides por complejo que sea, incluyendo varios personajes diferentes en una misma imagen, elementos con varios colores sin que se mezclen o confundan, etc...
- Hace las manos casi perfectas la gran mayoría de las veces, muy por encima del resto. También los ojos, sin necesidad de hacer nada.
- Es capaz de generar imágenes en una cantidad de estilos y tipos abrumador, es muy raro que salga alguna imagen 'que no sirva'.
- La calidad de las imágenes es muy buena, por encima de Stable Diffusion XL sin ninguna duda.
- Ya no es necesario escribir el prompt en inglés... En Español lo entiende igual de bien.
- Es capaz de sacar de forma perfecta personajes haciendo acciones complejas de representar en las otras IA sin usar modelos extra u otras opciones complejas, como un personaje montando correctamente en bicicleta o en moto, o tensando la cuerda de un arco con una flecha.
- Es capaz de hacer imágenes en que aparezcan varios personajes juntos en contacto directo sin que se mezclen sus extremidades o salgan cosas aberrantes, o al menos pasa mucho mucho menos con una gran diferencia.
- Conoce perfectamente una gran cantidad de personajes populares, de videojuegos etc... Y también los juegos, por lo que hasta es capaz de representar 'pantallazos' de los mismos. Lo mismo con las consolas. Por poner un ejemplo, le pedí una imagen de Link jugando con una Super Nintendo al Super Mario World, y en la imagen sale Link con el mando en la mano reproducido perfectamente, y en el cartucho la etiqueta (aunque debido a su pequeño tamaño en la imagen ya no está muy definida) se nota perfectamente que es la de Mario sobre Yoshi que lleva precisamente el cartucho de dicho juego... Algo increíble.
- Es capaz de hacer pixelart (y hojas de sprites usables) perfectamente.
- Lo ya mencionado del texto... Escribe las frases perfectamente la gran mayoría de las veces.
- Es capaz de generar las imágenes como si fueran capturas de pantalla de un juego real perfectamente (por ejemplo un link en bicicleta en el Zelda BOTW o un juego imaginario de PS2 o de Nintendo 64).

Ahora las cosas malas... Lógicas dado que son un servicio online de una empresa privada de EEUU y dueña ademas de ChatGPT:

- Hay censura, esta vez más notable que otras veces. Se censura todo lo que es minimamente relativo a sexo (simplemente proniendo 'breasts', poniendo 'vestido con transparencias', etc... te censura las imágenes), palabras o actitudes conflictivas (por ejemplo si pones 'drunk', aunque puedes luego representar a una persona en ese estado e incluso fumando porros si describes su actitud y apariencia sin mencionar esa palabra o similares)
- Se han censurado también muchas figuras públicas de la actualidad, sobre todo políticos, de forma que ya no se pueden hacer 'memes' con el Papa o Donald Trump por ejemplo (tampoco con políticos españoles). Es más, cuando incluyes sus nombres en el prompt incluso te dice que te pueden suspender el servicio si vuelves a reincidir (en este caso ni siquiera se procesa el prompt, o sea, las imágenes no se generan). Sin embargo, otros muchos actores y personalidades conocidas sí que salen perfectamente, como Albert Einstein o Michael Jackson.
- Todas las imágenes parecen llevar una marca de agua interna que las identifica claramente como generadas por IA. A veces este tipo de marcas comparten datos personales del usuario que las ha generado, por lo que son un problema para la privacidad, aunque por otro lado, no creo que sea complicado modificar las imágenes fácilmente para que no aparezcan como generadas por IA.

Respecto al tema de la censura, y por lo que he podido observar, curiosamente no me parece que sea el modelo el que tiene la censura, sino que es el servicio online el que la aplica, ya que las imágenes censuradas sí se llegan a generar, y se ha visto por algún vídeo que, a diferencia de las otras IA de este tipo, la violencia y el gore no están censuradas y las genera sin problemas (ya se sabe, aquello de la doble moral de escandalizarse por mostrar algo de piel pero no por la violencia, la sangre y las cosas repulsivas). Yo no he probado a generar imágenes de este tipo (ya que no me gustan) pero he visto que lo comentaban en un vídeo de Youtube...

Ahora voy con varios ejemplos de las pruebas que he hecho... Primero, se me ocurrió intentar generar a los personajes del Gauntlet sólo con un prompt a ver qué calidad de imágenes conseguía (empiezo por estas imágenes porque son ideales a la temática del foro), y la verdad es que el resultado es bastante espectacular... Empecemos con la valkiria:











Ahora vamos con Merlin el mago:








Vamos con Thor el bárbaro... Curiosamente no había forma de que me lo sacase afeitado, sin barba, pero los resultados son espectaculares...











Y por último, con Questor el elfo... Este me sorprendió por el tema antes comentado del arco y las flechas, y también me resultó curioso que con el primer prompt que usé me lo generaba siempre como si fuera una figura de acción realista, así que tuve que indicar que era una ilustración al estilo de Advanced Dungeons & Dragons:










El anime también lo hace muy bién y en muchos estilos:








Y haciendo cosas complejas, le pedí una imagen con el siguiente prompt:

A drawing of a thin man wearing a top hat and holding an umbrella followed by a cat and an elephant crossing on a rope, as if they were tightrope walkers, between two buildings. A certain magical and nostalgic air.

Bastante complejo seguir todo lo que pide para cualquier IA generadora de imágenes... Pues vamos a ver el resultado:





Impresionante, sin duda... Y ahora vamos con lo que mencioné de crear a varios personajes diferentes en una misma imagen, montando en bicicleta, personajes juntos en contacto directo que no se mezclan, etc...:

Link y Zelda celebrando el fin de Ganon:






Zelda de fiesta con varias amigas (para comprobar lo del contacto directo):







Link en bicicleta en varios estilos:










Ahora vamos a ver qué pasa si mezclamos a Link, a Michael Jackson, a los juegos de Super Mario y la Super Nintendo:














Y ya que estamos... Qué tal un Einstein resucitado en la forma de un androide karateka en una ciudad estilo Cyberpunk?







Ahora pasamos a otra prueba que hice en su día con SD XL: Intentar generar imágenes del estilo de 'Tales of the loop', de Simon Stålenhag:












Y ahora unos ejemplos de hojas de sprites de pixelart:







Para acabar otras imágenes más:
























 
Los siguientes usuarios han dado gracias a este post: Manchi, LordPep, Remiel, tylerdurden8

Desconectado tylerdurden8

    *
  • Lapidador experimentado.
  • *
  • Mensajes: 6135
  • Agradecido: 1164 veces
  • "Encontraremos una salida... Como siempre"
    • tylerdurden8
    • tylerdurden8

    Total de insignias: 21
    Insignias: (Ver todas)
    Seis años en el foro. Votar 50 encuestas Superbacker (Más de 100 proyectos apoyados) Cinco años en el foro Forero ejemplar (más de 1000 thanks) 5000 Posts Tres años en el foro. Forero que nunca duerme. 720 horas (30dias) en DS. Votar 10 encuestas Spammer 50 mensajes en un día Awaken Realms Fan Forero ninja top #10 Creador de encuestas Primera encuesta votada Forero querido (más de 100 thanks) Ha creado 10 hilos en el foro. Un año en el foro Firma Spammer 25 mensajes en un día El más rápido de todo el oeste. Avatar personalizado
« Respuesta #41 en: Octubre 01, 2023, 11:11:39 pm »


Que esto no sea real...  :o :o :o
Si tengo que sacar un 6 para ganar... Ya puedo ir felicitando al rival...
 

Desconectado Epmer

    *
  • Lapidador experimentado.
  • *
  • Mensajes: 7479
  • Agradecido: 1196 veces
    • Epmer
    • http://steamcommunity.com/id/Epmer

    Total de insignias: 22
    Insignias: (Ver todas)
    Forero que nunca duerme. 720 horas (30dias) en DS. Forero ejemplar (más de 1000 thanks) Mecenas HQ25 Kingdom Death: Monster Fan Seis años en el foro. Cinco años en el foro CMON Fan Awaken Realms Fan Forero ninja top #1 Artista Donativo Darkstone 2018 Secret Santa 2018 Forero querido (más de 100 thanks) Ha creado 10 hilos en el foro. Spammer 50 mensajes en un día Spammer 25 mensajes en un día Votar 10 encuestas Primera encuesta votada 5000 Posts Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #42 en: Octubre 02, 2023, 05:52:06 pm »
A eate hilo le falta porno

Enviado desde mi CPH2173 mediante Tapatalk

 

Desconectado Fran Scythe

    *
  • Global Moderator
  • Lapidador experimentado.
  • *
  • Mensajes: 3217
  • Agradecido: 972 veces

    Total de insignias: 9
    Insignias: (Ver todas)
    Seis años en el foro. Cinco años en el foro Primera encuesta votada Forero que nunca duerme. 720 horas (30dias) en DS. Forero querido (más de 100 thanks) Ha creado 10 hilos en el foro. Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #43 en: Octubre 03, 2023, 04:45:21 pm »
Que disparate, se me han caído los huevos con esta última entrada

Enviado desde mi CPH2343 mediante Tapatalk

 

Desconectado Remiel

    *
  • Golliath
  • ******
  • Mensajes: 1616
  • Agradecido: 511 veces
  • Ludópata Completista
    • David Álvarez Saez

    Total de insignias: 10
    Insignias: (Ver todas)
    Seis años en el foro. Votar 50 encuestas Cinco años en el foro Ha creado 10 hilos en el foro. Votar 10 encuestas Tres años en el foro. Forero querido (más de 100 thanks) Firma Primera encuesta votada Un año en el foro
« Respuesta #44 en: Octubre 05, 2023, 11:43:45 pm »
He hecho algunas pruebas rápidas y al menos por ahora creo que tengas algo de experiencia Stable Diffusion por ahora da mejores resultados o al menos a mi, será que estoy más acostumbrado a sus prompts, pero si que es cierto que es espectacular lo bien que DALL-E 3 hace las cosas que se le atragantan a Stable diffusion.
No dejamos de jugar porque nos hagamos viejos, nos hacemos viejos porque dejamos de jugar.
Bernard Shaw