Stable Diffusion: Tutoriales y cosas interesantes

Aficiones y hobbies > Inteligencia artificial en los juegos de mesa

<< < (9/12) > >>

sirdrak:
Bueno, pues esto es un no parar de novedades de IA últimamente... Voy a comentar las más importantes.

Primero, os voy a compartir un vídeo de Olivio que explica un técnica muy sencilla usando el modo img2img para hacer más realista una imagen y mejorar el detalle de la piel usando el modelo con el que hice a la chica ultrarrealista, epiCRealism, pero también funciona con otros modelos realistas como Photon o Realistic Visions. Básicamente consiste en cargar la imagen que queremos mejorar o usar como referencia en el modo img2img, seleccionar como sampler DPM ++ SDE Karras (muy importante este paso), poner 30 pasos en la generación de la imagen y usar un denoise entre 0.3 y 0.4 (dependerá de la imagen). Con esto, y con un prompt que describa la imagen (ya que se puede hacer incluso con imágenes normales no IA) y sin reescalar, generamos la nueva imagen, que veremos que tiene una piel con más detalle. Tras esto, la podemos mejorar aún más pulsando el botón que hay bajo la imagen con el icono de una escuadra, que la enviará a la pestaña de extras para hacer un reescalado, donde podremos aumentar la resolución de la imagen x2, x3, x4, etc... y de paso añadiendo más detalle, usando como reescalador un modelo opcional que indican en el vídeo, que sólo hay que descargar y meter en la carpeta models/ESRGAN. El modelo es 8x_NMKD-Superscale_150000_G.pth y se descarga aqui: https://huggingface.co/uwg/upscaler/tree/main/ESRGAN

Y aquí el vídeo de Olivio en el que se pueden ver los resultas y lo explica... Decir que también sirve para cambiar una imagen de un estilo a otro, por ejemplo, una imagen de anime convertirla en una con personas reales o viceversa, con resultados espectaculares (mostraré un par de ejemplo más abajo):

Los ejemplos que comento...

Original:

Pasada a 'carne y hueso realista IA':

Otro ejemplo:

Original:

A imagen realista:

Y ahora vamos con 'el plato principal'... Open.ai, la empresa creadora del famosísima ChatGPT, fué la empresa pionera en IAs generativas de imágenes, creando su IA Dall-E antes de la aparición de todas las demás. Esta semana pasada presentó la última versión de dicha IA, Dall-E 3, que tiene varios aspectos revolucionarios y está integrada tanto en ChatGPT 4 como en el chat de Bing. Debido a usa como base dicho modelo de lenguaje, su comprensión de lo que le pedimos en el prompt supera con mucha diferencia lo que son capaces de hacer todas las demás. Desde ayer, casi por sorpresa, ya se puede probar y usar gratis, tanto a través del chat de Bing integrado con el navegador Edge como con Copilot (siempre que no vivas en Europa, como es nuestro caso, que no nos ha llegado aún dicha funcionalidad a Windows 11 por cuestiones de legislación europea) integrado en Windows 11 desde la actualización 'Momento 4' de esta semana.
La otra forma de utilizarla, y que es la que yo he usado, es visitar la página oficial de Bing para crear imágenes, visitando esta dirección: https://www.bing.com/create
Tan sólo hay que loguearse con una cuenta Microsoft (Outlook, Xbox, etc...) y ya se pueden crear imágenes de forma ilimitada y gratuíta. Puede ser que se acceda la primera vez a la página y que en vez de Dall-E 3, salga la versión anterior. Esto se comprueba pidiéndole que nos genere una imagen en la que aparezca un texto, pues una de las novedades de Dall-E 3 es que hace el texto prácticamente perfecto. Si no lo hace, se trata de Dall-E 2. En ese caso basta con probar con otro navegador, aunque indican que las mayores posibilidades de éxito se dan con Firefox y con Brave. Yo lo hice ayer con Firefox y me salió bién a la primera.

Ahora vamos con las novedades y mi experiencia con las pruebas que le hice ayer (me pase todo el día haciendo pruebas tratando de llevar sus posibilidades al límite):

- Entiende perfectamente lo que le escribes en lenguaje natural mucho mejor que cualquier otra IA de este tipo, por lo que ya no hay que hacer apenas 'ingeniería de prompt', ni usar prompt negativo ni nada, para que te muestre en la imagen todo lo que le pides por complejo que sea, incluyendo varios personajes diferentes en una misma imagen, elementos con varios colores sin que se mezclen o confundan, etc...
- Hace las manos casi perfectas la gran mayoría de las veces, muy por encima del resto. También los ojos, sin necesidad de hacer nada.
- Es capaz de generar imágenes en una cantidad de estilos y tipos abrumador, es muy raro que salga alguna imagen 'que no sirva'.
- La calidad de las imágenes es muy buena, por encima de Stable Diffusion XL sin ninguna duda.
- Ya no es necesario escribir el prompt en inglés... En Español lo entiende igual de bien.
- Es capaz de sacar de forma perfecta personajes haciendo acciones complejas de representar en las otras IA sin usar modelos extra u otras opciones complejas, como un personaje montando correctamente en bicicleta o en moto, o tensando la cuerda de un arco con una flecha.
- Es capaz de hacer imágenes en que aparezcan varios personajes juntos en contacto directo sin que se mezclen sus extremidades o salgan cosas aberrantes, o al menos pasa mucho mucho menos con una gran diferencia.
- Conoce perfectamente una gran cantidad de personajes populares, de videojuegos etc... Y también los juegos, por lo que hasta es capaz de representar 'pantallazos' de los mismos. Lo mismo con las consolas. Por poner un ejemplo, le pedí una imagen de Link jugando con una Super Nintendo al Super Mario World, y en la imagen sale Link con el mando en la mano reproducido perfectamente, y en el cartucho la etiqueta (aunque debido a su pequeño tamaño en la imagen ya no está muy definida) se nota perfectamente que es la de Mario sobre Yoshi que lleva precisamente el cartucho de dicho juego... Algo increíble.
- Es capaz de hacer pixelart (y hojas de sprites usables) perfectamente.
- Lo ya mencionado del texto... Escribe las frases perfectamente la gran mayoría de las veces.
- Es capaz de generar las imágenes como si fueran capturas de pantalla de un juego real perfectamente (por ejemplo un link en bicicleta en el Zelda BOTW o un juego imaginario de PS2 o de Nintendo 64).

Ahora las cosas malas... Lógicas dado que son un servicio online de una empresa privada de EEUU y dueña ademas de ChatGPT:

- Hay censura, esta vez más notable que otras veces. Se censura todo lo que es minimamente relativo a sexo (simplemente proniendo 'breasts', poniendo 'vestido con transparencias', etc... te censura las imágenes), palabras o actitudes conflictivas (por ejemplo si pones 'drunk', aunque puedes luego representar a una persona en ese estado e incluso fumando porros si describes su actitud y apariencia sin mencionar esa palabra o similares)
- Se han censurado también muchas figuras públicas de la actualidad, sobre todo políticos, de forma que ya no se pueden hacer 'memes' con el Papa o Donald Trump por ejemplo (tampoco con políticos españoles). Es más, cuando incluyes sus nombres en el prompt incluso te dice que te pueden suspender el servicio si vuelves a reincidir (en este caso ni siquiera se procesa el prompt, o sea, las imágenes no se generan). Sin embargo, otros muchos actores y personalidades conocidas sí que salen perfectamente, como Albert Einstein o Michael Jackson.
- Todas las imágenes parecen llevar una marca de agua interna que las identifica claramente como generadas por IA. A veces este tipo de marcas comparten datos personales del usuario que las ha generado, por lo que son un problema para la privacidad, aunque por otro lado, no creo que sea complicado modificar las imágenes fácilmente para que no aparezcan como generadas por IA.

Respecto al tema de la censura, y por lo que he podido observar, curiosamente no me parece que sea el modelo el que tiene la censura, sino que es el servicio online el que la aplica, ya que las imágenes censuradas sí se llegan a generar, y se ha visto por algún vídeo que, a diferencia de las otras IA de este tipo, la violencia y el gore no están censuradas y las genera sin problemas (ya se sabe, aquello de la doble moral de escandalizarse por mostrar algo de piel pero no por la violencia, la sangre y las cosas repulsivas). Yo no he probado a generar imágenes de este tipo (ya que no me gustan) pero he visto que lo comentaban en un vídeo de Youtube...

Ahora voy con varios ejemplos de las pruebas que he hecho... Primero, se me ocurrió intentar generar a los personajes del Gauntlet sólo con un prompt a ver qué calidad de imágenes conseguía (empiezo por estas imágenes porque son ideales a la temática del foro), y la verdad es que el resultado es bastante espectacular... Empecemos con la valkiria:

Ahora vamos con Merlin el mago:

Vamos con Thor el bárbaro... Curiosamente no había forma de que me lo sacase afeitado, sin barba, pero los resultados son espectaculares...

Y por último, con Questor el elfo... Este me sorprendió por el tema antes comentado del arco y las flechas, y también me resultó curioso que con el primer prompt que usé me lo generaba siempre como si fuera una figura de acción realista, así que tuve que indicar que era una ilustración al estilo de Advanced Dungeons & Dragons:

El anime también lo hace muy bién y en muchos estilos:

Y haciendo cosas complejas, le pedí una imagen con el siguiente prompt:

A drawing of a thin man wearing a top hat and holding an umbrella followed by a cat and an elephant crossing on a rope, as if they were tightrope walkers, between two buildings. A certain magical and nostalgic air.

Bastante complejo seguir todo lo que pide para cualquier IA generadora de imágenes... Pues vamos a ver el resultado:

Impresionante, sin duda... Y ahora vamos con lo que mencioné de crear a varios personajes diferentes en una misma imagen, montando en bicicleta, personajes juntos en contacto directo que no se mezclan, etc...:

Link y Zelda celebrando el fin de Ganon:

Zelda de fiesta con varias amigas (para comprobar lo del contacto directo):

Link en bicicleta en varios estilos:

Ahora vamos a ver qué pasa si mezclamos a Link, a Michael Jackson, a los juegos de Super Mario y la Super Nintendo:

Y ya que estamos... Qué tal un Einstein resucitado en la forma de un androide karateka en una ciudad estilo Cyberpunk?

Ahora pasamos a otra prueba que hice en su día con SD XL: Intentar generar imágenes del estilo de 'Tales of the loop', de Simon Stålenhag:

Y ahora unos ejemplos de hojas de sprites de pixelart:

Para acabar otras imágenes más:

tylerdurden8:

Que esto no sea real... :o :o :o

Epmer:
A eate hilo le falta porno

Enviado desde mi CPH2173 mediante Tapatalk

Fran Scythe:
Que disparate, se me han caído los huevos con esta última entrada

Enviado desde mi CPH2343 mediante Tapatalk

Remiel:
He hecho algunas pruebas rápidas y al menos por ahora creo que tengas algo de experiencia Stable Diffusion por ahora da mejores resultados o al menos a mi, será que estoy más acostumbrado a sus prompts, pero si que es cierto que es espectacular lo bien que DALL-E 3 hace las cosas que se le atragantan a Stable diffusion.

Navegación

[0] Índice de Mensajes

[#] Página Siguiente

[*] Página Anterior

Mierda, no hemos podido dar tus gracias.

Agradeciendo...

Ir a la versión completa