Colaboradores


Stable Diffusion: Tutoriales y cosas interesantes

  • 79 Respuestas
  • 136430 Vistas

0 Usuarios y 1 Visitante están viendo este tema.

Desconectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 203
  • Agradecido: 169 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #45 en: Octubre 06, 2023, 04:05:42 am »
He hecho algunas pruebas rápidas y al menos por ahora creo que tengas algo de experiencia Stable Diffusion por ahora da mejores resultados o al menos a mi, será que estoy más acostumbrado a sus prompts, pero si que es cierto que es espectacular lo bien que DALL-E 3 hace las cosas que se le atragantan a Stable diffusion.

Si, después de muchas pruebas veo que sus puntos débiles son, por ejemplo, el fotorrealismo, que lo hace mucho mejor Stable Diffusion a pesar de no sacar las manos tan perfectas ni de entender los prompts tan bien... Y luego está el tema de la censura... Me salen muchas imágenes bloqueadas incluso con cosas inocentes, y además parece que la van variando, porque por ejemplo, si te fijas, el día que hice las pruebas que mostré antes pude hacer imágenes con Michael Jackson, y sin embargo, desde ayer ya no se puede (te sale la advertencia de que el prompt incumple las condiciones del servicio y no lo procesa siquiera). Esto me viene a confirmar que lo que es el modelo en sí, no tiene realmente censura de ningún tipo, sino que es el servicio online el que se encarga de aplicarla (y de esta manera la pueden variar a lo largo del tiempo si lo ven necesario, como el caso mencionado). Una lástima, porque si un modelo como ese cayese en manos de la comunidad opensource, el potencial que se podría sacar sería enorme...
 

Desconectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 203
  • Agradecido: 169 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #46 en: Diciembre 09, 2023, 04:07:46 pm »
Bueno compañeros... Este último mes estuve bastante ocupado y no pude poner nada sobre las novedades en IA, pero han salido un verdadero aluvión de ellas y casi cada semana hay algo nuevo. Vamos a ver si os pongo al día:

Parece que, aunque están en un estadio más primitivo que las IAs generativas de imágenes, acaba de estallar el boom de las IAs generadoras de vídeos, bien a partir de un prompt de texto, de una imagen inicial o incluso de un vídeo. En la situación actual de este cambiante panorama, los principales actores implicados que tenemos son los siguientes:

* RunwayML Gen-2: Es la pionera de este tipo de IAs... Tiene una prueba gratuíta pero funciona mediante servicios de suscripción (y bastante caros además). Permite la generación de vídeos directamente a partir te texto, o bien a partir de una imagen. Tienen herramientas que ya se están empezando a incluir en sus competidoras más avanzadas, como controles para el movimiento de cámara y un pincel que permite indicar expresamente qué partes de la imagen se van a animar y cuales no. La pega que tiene es que en los vídeos que parten de una imagen es el que peor consistencia tiene, con lo que las caras y los objetos se deforman mucho.

*Pika, de Pika Labs: El primer competidor serio del anterior y que se caracteriza por funcionar desde su canal oficial de Discord, de forma similar a como funciona Midjourney. Sin embargo, su uso es gratuíto, y la calidad de los vídeos (sobre todo de los generados a poartir de una imagen) es mucho mejor que la de Runway, manteniendo bastante bien la consistencia y animando muy bien personajes y seres vivos. Su uso es totalmente gratuíto y da buen resultado. Actualmente acaban de anunciar la salida de su versión avanzada, Pika 1.0, que funcionará a partir de su web oficial en lugar de por Discord y que tiene novedades realmente impresionantes (mejor que veáis el vídeo oficial que habla por sí sólo). Ya está disponible pero se accede de momento por lista de espera y aún hay pocas personas que lo hayan probado, pero parece que cumple lo que promete. Como muestra os voy a enseñar algunos gifs que he creado a partir de imágenes que yo mismo he generado, que aunque no se ven tan bien como el vídeo original (por el paso a 256 colores y tal) pueden dar una buena idea de lo interesante que es el tema. Primero pondré el vídeo oficial de Pika 1.0 y luego algunos de los gifs:



Creados por mí:







Y la gente ha creado vídeos tan impresionantes como el siguiente (creado con la versión 'normal' de Pika, no con la nueva 1.0):



* Stable Video Diffusion: Sí compañeros... Stability.ai, la misma empresa responsable de Stable Diffusion, ha presentado también su IA opensource generadora de vídeos... Los dos primeros modelos que ha presentado, en principio tienen la limitación de que no puedes guiar la animación mediante un prompt como en las anteriores (por ahora) peeeero tiene las ventajas de poder instalarse en local, estar los modelos a disposición de la comunidad (lo que implica que podrán ser modificados, reentrenados y mejorados por los usuarios), y de que los vídeos conseguidos muchas veces tienen mayor nitidez y calidad que los de las dos anteriores. Por ahora sólo se pueden usar con ComfyUI, pero funcionan muy bien incuso con gráficas con sólo 8 GB de VRAM. Los dos modelos presentados, SVD y SVD_XT, en principio sólo se diferencian en que el primero está entrenado para generar clips de un máximo de 14 fps, mientras que el segundo los puede generar hasta de 25 fps. Sin embargo, en mis pruebas parece que el mejores vídeos genera es el segundo. La clave para conseguir buenos resultados parece estar en partir de imágenes en formato 16:9 (o 9:16) y sacar los vídeos a una resolución de 1024x576, que parece ser que es la de los vídeos usados para entrenar los modelos. Además de la resolución, el número de fps y el número total de fotogramas, se puede controlar la cantidad de movimiento de la escena y hasta qué punto vamos a permitir que la IA pueda deformar la imagen original de partida.

Os voy a mostrar algunos de los gifs que he hecho con esta IA:










Bastante impresionante el resultado como se puede ver... Y sí, una de las animaciones es de un homenaje que hice a la mítica portada del primer Castlevania. Además los vídeos luego se pueden mejorar pasándolos por Topaz Video AI para reescalarlos a 1080p e incluso 4K e incluso a 60 fps...

Pasamos ahora a novedades relativas a las IAs generativas de imágenes. Quizás lo mas interesante sea la aparición de dos nuevas IAs de este tipo que tienen la particularidad de ser Opensource, como Stable Diffusion, con lo cual ahora tendremos más opciones libres entre las que escoger. Hay que decir, después de probarlas, que no están a la altura de SD XL (que es la versión de SD con la que se autocomparan), pero tienen potencial puesto que están a disposición de la comunidad... Concretamente se trata de Pixart-alpha y de Playground V2, siendo la mejor de las dos la segunda. Además, en el caso de Playground, al haber sido entrenada de forma similar a SD XL, se puede utilizar en Automatic1111 con sólo descargar el modelo, aunque no es compatible con los LoRA ni las extensiones por ahora.

Además de esto, otra novedad bastante interesante es la aparición de un nuevo tipo de modelos, un LoRA y un sampler, los llamados LCM (Latent Consistency Model), que permiten generar las imágenes a una velocidad extrema, usando menos de 4 pasos para generar la imagen. El asunto es tan importante que incluso Stability.ai ha sacado una versión oficial LCM de SD XL y de SD 2.1, llamados SD XL Turbo y SD Turbo respectivamente. La contrapartida es que se pierde n poco de calidad en las imágenes generadas. La consecuencia de esto ha sido la aparición de aplicaciones que permiten que en un lado de la pantalla se pueda dibujar mientras en el otro, en tiempo real y de forma dinámica, se van formando las imágenes de acuerdo a tu dibujo conforme progresa este... Es bastante impresionante. El primer paso lo dió una empresa española con su web Krea.ai, a la que podéis acceder aquí: https://www.krea.ai/

Además, el famoso programa de retoque y dibujo Krita, ha incorporado un plug-in que permite hacer justo eso mismo usando Stable Diffusion y los modelos LCM. Os dejo un vídeo donde podéis ver un ejemplo de lo comentado:



A grandes rasgos y de forma un tanto resumida, estas son las novedades más importantes... No obstante, hay en preparación una serie de cosas que pueden ser bastante impactantes también cuando estén disponibles, que sería las siguientes:

- Una extensión para Automatic1111 que de forma automática corrige las manos de los personajes durante el proceso de generación de la imagen.
- Un nuevo procedimiento que puede hacer que cualquier modelo de Stable Diffusion entienda los prompts igual de bien o mejor que Dall-E 3, la mejor IA generativa en este aspecto.
- Una extensión para animar personas y personajes sin inconsistencias a partir tan sólo de una imagen inicial y de un 'esqueleto' de Open Pose. Podéis ver un ejemplo del proceso en el siguiente video:



« Última modificación: Diciembre 09, 2023, 04:22:21 pm por sirdrak »
 
Los siguientes usuarios han dado gracias a este post: rapatuan, LordPep, tylerdurden8

Desconectado LordPep

    *
  • Golliath
  • ******
  • Mensajes: 1012
  • Agradecido: 537 veces
  • Carpe Ludum
    • LordPeP
    • LordPeP
    • Frikigames (in memoriam)

    Total de insignias: 15
    Insignias: (Ver todas)
    Forero que nunca duerme. 720 horas (30dias) en DS. El más rápido de todo el oeste. Seis años en el foro. Votar 10 encuestas Cinco años en el foro Ha creado 10 hilos en el foro. CMON Fan Forero querido (más de 100 thanks) Mecenas HQ25 Firma Primera encuesta votada Webmaster Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #47 en: Diciembre 11, 2023, 01:07:41 am »
Wow!

Es una pasada como avanza esto! Me ha flipado todo pero el última vídeo ... OMG brutal!
Carpe Ludum
 

Desconectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 203
  • Agradecido: 169 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #48 en: Diciembre 12, 2023, 12:14:03 pm »
Ya hay youtubers que tienen acceso a Pika 1.0 y las posibilidades que tiene son brutales... Yo estoy en la lista de espera, por lo que cualquier día de estos la podré probar también. En este vídeo podéis ver la opinión de una de las personas que la han estado probando y viendo como se utiliza:

 
Los siguientes usuarios han dado gracias a este post: Vince, LordPep

Desconectado Fran Scythe

    *
  • Global Moderator
  • Lapidador experimentado.
  • *
  • Mensajes: 3243
  • Agradecido: 1012 veces

    Total de insignias: 9
    Insignias: (Ver todas)
    Seis años en el foro. Cinco años en el foro Primera encuesta votada Forero que nunca duerme. 720 horas (30dias) en DS. Forero querido (más de 100 thanks) Ha creado 10 hilos en el foro. Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #49 en: Enero 03, 2024, 12:46:00 pm »
Hola, @sirdrak podrías comentar algo de la versión 6 de Midjourney? Concretamente me tiene intrigado el comando /tune. Aunque aún no lo he utilizado, me da la impresión de que es un intento de respuesta a estas IAs tipo Stable Diffusion para poder "afinar" o crear tu propio estilo.

Enviado desde mi CPH2343 mediante Tapatalk

 

Desconectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 203
  • Agradecido: 169 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #50 en: Enero 11, 2024, 12:49:47 pm »
Hola, @sirdrak podrías comentar algo de la versión 6 de Midjourney? Concretamente me tiene intrigado el comando /tune. Aunque aún no lo he utilizado, me da la impresión de que es un intento de respuesta a estas IAs tipo Stable Diffusion para poder "afinar" o crear tu propio estilo.

Enviado desde mi CPH2343 mediante Tapatalk

Lo cierto es que no uso Midjourney ni ninguna otra de pago, prefiero el Opensource... Midjourney sigue siendo la más avanzada a nivel visual y en fotorrealismo, pero no deja de ser un modelo especializado entrenado con muchos recursos funcionando sobre Stable Diffusion... En estos últimos tiempos las IAs privativas están intentando incorporar algunas de las opciones de Stable Diffusion, como por ejemplo hizo Firefly de Adobe, al incorporar modos de edición equivalentes al img2img y al inpainting de SD. Sin embargo, en el tema de poder entrenar tus propios modelos no están ni van a estar nunca a la altura de las IAs Opensource, por no mencionar que salen novedades en formas de extensiones (en el caso de Automatic1111), nodos personalizados y workflows (en el caso de ComfyUI) de forma contínua, por lo que siempre van a tener más funcionalidades, más avanzadas y con mayor control que las otras de pago. En serio, no merece la pena pagar una suscripción... Con los modelos adecuados y currándotelo bién puedes conseguir resultados similares e incluso superiores a los de Midjourney o directamente hacer cosas imposibles en él...
 

Desconectado Fran Scythe

    *
  • Global Moderator
  • Lapidador experimentado.
  • *
  • Mensajes: 3243
  • Agradecido: 1012 veces

    Total de insignias: 9
    Insignias: (Ver todas)
    Seis años en el foro. Cinco años en el foro Primera encuesta votada Forero que nunca duerme. 720 horas (30dias) en DS. Forero querido (más de 100 thanks) Ha creado 10 hilos en el foro. Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #51 en: Enero 13, 2024, 11:58:10 pm »
No, si leyéndote a lo largo del hilo me doy cuenta de todo esto que comentas, mi problema es que soy manco y no llego a ese nivel de conocimiento, ese por eso que me tengo q quedar en Mj. Aparte de que el equipo mínimo necesario me da la impresión de que es más potente del que tengo para acceder a Mj.

Enviado desde mi CPH2343 mediante Tapatalk

 

Desconectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 203
  • Agradecido: 169 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #52 en: Junio 16, 2024, 05:43:08 pm »
Bueno, hace tiempo que no actualizo sobre novedades de IA para generar imágenes, pero con lo acontecido esta semana, creo que es necesario hacerlo, pero primero vamos por partes:

- Desde febrero han ido saliendo versiones de SD XL cuyo objetivo era poder generar imágenes con un número menor de pasos y pr tan mucha mayor rapidez. Empezó con SD XL Turbo y le siguió SD XL lighting, que conseguía una calidad algo mayor.

- Tras muchos meses de modelos de anime más o menos mediocres desde la salida de SD XL (siendo hasta hace poco mejores los basados en SD 1.5), aparecen dos grandes modelos 'buenos' de Anime/hentai: Animagine V3 y Pony Diffusion V6. Este último es un modelo muy particular que se convierte rápidamente en el mejor modelo de SD XL y el más popular de todos los modelos de SD XL. La particularidad es que es un modelo entrenado desde cero usando la bae tecnológica de SD XL, por un usuario con tres gráficas profesionales nVidia H100 en su poder. Conjuntamente con un grupo de colaboradores, crean el modelo entrenándolo con una selección de 3 millones de imágenes etiquetadas manualmente por humanos, una por una. Por esa razón, se convierte en un modelo increíble que entiende muy bien lo que se le pide, principalmente nsfw (entrenado en hentai) pero muy válido también para imágenes nsfw. Debido a que es un modelo tan particular, se deben entrenar los LoRas de personajes y estilos específicamente para él, pero tienen un gran éxito.

- Aparecen nuevas técnicas para mejorar la compresión de los prompts de modelos 'antiguos'. Concretamente aparece ELLA, que lo que hace es utilizar un LLM, concretamente T5 XL de Google, para que sustituya a la interpretación del prompt que hace el text encoder de los modelos basados en SD 1.5. El resultado es bastante bueno, aunque no obstante hay un problema de censura de personajes famosos y otras cosas debido a que ya venía incluída con el LLM de Google. Sin embargo, la interpretación de los prompts mejora acercándose a lo que vemos con Dall-e 3. de momento sólo se puede usar en ComfyUI y sólo con modelos de SD 1.5.

- Aparece un 'workflow' para ComfyUI de reescalado con el objetivo de conseguir imágenes espectaculares intentando imitar al servicio online Magnific.ai (que es muy caro). Se convierte en el mejor método de reescalado (añadiendo nuevos detalles) actual. Su nombre es Supir.

- Se publican nuevos modelos generadores de imágenes con arquitecturas más modernas y mejor para la comprensión de prompts. Destacan Stable Cascade (de Stability.ai), Pixart Sigma (que usa un enfoque similar al de Stable Diffusion 3, sólo que utilizando un modelo pequeño y fácil y barato de entrenar conjuntamente con un LLM T5 para la interpretación de los prompts), y los recientes Hunyuan (modelo chino con un funcionamiento similar a SD3) y Lumines (otro modelo muy prometedor que además es multimodal y puede crear sonido, objetos 3D, etc...)

Ahora vamos con lo principal, y que tiene bastante miga, y que no es otra cosa que la publicación esta semana de Stable Diffusion 3 medium, la versión intermedia de SD3, que fué anunciado a primeros de año y ha resultado ser un auténtico caos. Empecemos por el principio:

- Resulta que Stability.ai en todo este tiempo no ha logrado establecer un modelo de negocio que le de beneficios, de forma que está al borde de la quiebra. A consecuencia de esto, y diversas decisiones de la directiva, paulatinamente se han ido yendo todos los ingenieros que participaron en el desarrollo de Stable Diffusion desde sus comienzos, de forma que en marzo de este año ya no quedaba ninguno. Para colmo, Emad Mostaque, CEO de la compañía y el principal defensor de que SD siga siendo opensource y libre en contra de las presiones de los inversores, también ha acabado abandonando la compañía hace un par de meses. Con esto, todos los implicados en la creación y desarrollo de SD ya no están en Stability.

- Las cuentas de Stability no salen... En el primer trimestre de 2024 han tenido unos beneficions de 5M de $ y unas pérdidas de 30M. Empiezan a sonar rumores de que la compañía está en negociaciones para su venta.

- Antes de su marcha, Emad prometió que en mayo tendríamos SD3 para instalarlo en local en su versión más grande (SD3 tendrá varias versiones de diferente tamaño con la intención de que se pueda ejecutar en el mayor número de equipos posible, concretamente las versiones 8B - 8000 millones de parámetros -, 4B, 2B -la medium actualmente publicada- y una de 900M de parámetros para equipos más humildes). Sin embargo, tras marcharse en abril, esto no sucedió y se retrasó la publicación del modelo, que en cambio sí se puso en la API de stability pero previo pago y bastante caro, por cierto. En la comunidad empezaron a circular sospechas de que Stability.ai estaba pensando en dejar de ser Opensource, como hizo Open.ai , y pasar a ofrecer sus modelos online como Dall-e 3 y similares, tras una pasarela de pago.

- Hace unas semanas, algunos empleados de Stability, Lykon concretamente (el responsable del checkpoint Dreamshaper de SD, que fué contratado por la compañía y ha sido el que ha estado encargando de publicitar SD3), empiezan a publicitar literalmente '2B is all that you need', como insinuando la publicación de SD3 medium, pero que mucha gente interpretó como que la intención era darnos a los usuarios una versión menor de SD3 y quedarse ellos los modelos grandes para sí, para ofrecerlos únicamente en su plataforma online previo pago.

- Stability.ai contrata a la ex-responsable de la censura en Twitter antes de que se convirtiera en X, despedida fulminantemente por Elon Musk nada mas llegar. Se le designa como responsable del equipo de 'seguridad' (o sea, de censura) de los modelos.

- Finalmente, se publica SD3 2B medium y se desata el caos: Resulta que los usuarios descubren no sólo que el modelo está fuertemente censurado, sino que la censura a acabado afectando a la generación normal de imágenes con personas, estropeando totalmente la anatomía y creando verdaderos horrores con simplemente pedirle cosas tan simples como 'mujer tendida sobre la hierba'. Ningún modelo anterior de SD, ni los más antiguos, han tenido problemas similares con la anatomía. Además, queda claro que está relacionado con la censura, porque SD3 funciona perfectamente con el resto de imágenes en los que no se representan personas.

- Para colmo, resulta que Stability cambia la licencia bajo la que funciona SD3, de forma que en vez de ser 100% opensource como Sd 1.5 o SD XL, y de libre uso tanto para uso no comercial como comercial, ahora SD3 es de uso libre sólo para uso no comercial. Ahora para usarla comercialmente, hay que contratar una de las licencias que hay en Stability, que son dos: Creators (para pequeños creadores, de 20$ al mes), y la Enterprise (para empresas que tengan mñas de 1M de $ de beneficios) que hay que negociar directamente con ellos y no tiene un precio fijo. Resulta que la primera limita la creación de imágenes con SD3 a 6000 al mes (no queda claro si se refiere a la generación local o a generaciones cuando se usa SD3 en servicios online). Para colmo, una vez la gente ha empezado a leer las condiciones legales de las licencias, hay claúsulas tan disparatadas como que, si se entrena algún modelo usando como base SD3 (lo que lleva la comunidad haciendo desde la existencia de SD) pasaría prácticamente a ser suyo, y que si se deja de pagar la licencia, tendrías que destruir tu modelo y todas las imágenes creadas con él.

- Por si lo anterior fuera poco, resulta que se da el caso de que el creador del modelo de Anime/Hentai más importante de Stable diffusion XL, Pony Diffusion V6 (que tiene la particularidad de que lo entrenó desde cero usando tres nVidia H100), que quiere sacar una versión para SD3, se pone en contacto con stability para intentar contratar una licencia Enterprise, ya que aunque tiene la Creators, piensa ceder su modelo en servicios de generación online (aunque igualmente estaría desponible libremente para que los usuarios lo usen localmente gratis). Se encuentra con que desde Stability lo tratan mal, con condescendencia y hasta se ríen de él (al ser el suyo un modelo nsfw, a pesar de ser el más importante de SD XL en uso), y le ignoran por completo, no permitiéndole conseguir contratar la licencia. Debido a esto, decide que ya no sacará pony para SD3.

- Las últimas noticias del culebron este son que algunos empleados de Stability han admitido que SD3 medium en realidad era una beta que se decidió publicar por el cabreo de la comunidad con el retraso de SD3 8B y que se le quitó el nombre de 'beta' en el último minuto. Aseguran que tienen pensado sacar una versión mejorada del modelo aunque no antes de publicar la versión SD3 8B. Emad Mostaque se pronuncia sobre la polémica en X y comenta que está sorprendido por lo acontecido porque cuando él se marchó de la empresa, el modelo estaba casi acabado y funcionaba perfectamente con la anatomía, por lo que dice que tiene claro que los problemas se introdujeron durante la fase de 'alineamiento para la seguridad' (la censura vamos) del modelo, posterior a su salida. Hay que comentar también, que SD3 8B, en el servicio online de Stability.ai a través de su API, no tiene los problemas que ha mostrado SD3 2B medium.
« Última modificación: Junio 16, 2024, 06:22:47 pm por sirdrak »
 

Desconectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 203
  • Agradecido: 169 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #53 en: Junio 16, 2024, 06:14:24 pm »
Por cierto, a las novedades antes comentadas, he de añadir una personal... Ya que os he hablado de la popularidad del modelo de anime Pony Diffusion V6 y sus virtudes, me animé por fin a sacar una versión de mi modelo de estilo de Alfonso Azpiri para Pony XL. Al ser la primera vez entrenando LoRas de SD XL me costó un poco conseguir los resultados que buscaba, pero tras varias pruebas conseguí mi LoRa de estilo, que he publicado en Civitai, al igual que el original que hice para SD 1.5. Lo que más me gusta es que es capaz de crear personajes de Azpiri muy bien, incluyendo a Lorna, Sally Gothic, Bethlehem Steele, Thaca Reem, etc... Incluso es capaz de sacar bien a Mot, aunque le cuesta un poco más. Además, se puede 'activar' el estilo 'acuarela', que Azpiri usaba a menudo, simplemente añadiendo al prompt las etiquetas 'retro artstyle, watercolor /(medium/)' y/o 'traditional media, 1980s (style)'. Os dejo algunos ejemplos:




















Como se puede obsevar, algunos beneficios de usar Pony XL con mi LoRa es que las manos y la anatomía son mejores,se pueden hacer imágenes con más de un personaje diferente al mismo tiempo simplemente con la descripción del prompt, mayor variedad de poses, etc... Se puede descargar aquí: https://civitai.com/models/495362/alfonso-azpiri-style-for-pony-xl

Antes de usarlo, es importante leer lo que pone en la descripción del modelo, ya que aconseja cómo usarlo para conseguir el mejor resultado posible, y que al ser el modelo Pony XL tan particular, tiene una serie de eiquetas propios que es imprescindible usar en los prompts.
 
Los siguientes usuarios han dado gracias a este post: rapatuan, LordPep

Desconectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 203
  • Agradecido: 169 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #54 en: Junio 22, 2024, 12:01:04 pm »
Bueno, y hay más novedades respecto al asunto de SD3 y el culebrón de Stability.ai... Las siguientes:

- Comfyanonimous (el creador de ComfyUI, que llevaba tiempo trabajando en Stability.ai) anuncia que ha dejado él también la empresa y cuenta que en realidad parece ser que en la empresa no quieren publicar las versiones grandes 4B y 8B de SD3 y que por eso publicaron 2B a sabiendas de que estaba mal, y que se fué de la empresa porque se dió cuenta de que no tenían intención de trabajar para sacar el mejor modelo posible...

- La mayor web del mundo de recursos de Stable Diffusion, Civitai, ha decidido banear SD3 y todo modelo o contenido relacionado debido al tema de las claúsulas abusivas de las licencias comerciales de Stability.ai y el estado de SD3 medium, que está literalmente roto. Esto es algo muy gordo... Por ahora Stability.ai no ha dicho ni pío desde que todo esto comenzó.

- Parece ser que Stability.ai se salva de la bancarrota por los pelos, por una fuerte inversión de Facebook en la compañía... Ahora ha cambiado el CEO y el nuevo es el CEO de Weta Digital, la empresa de efectos especiales para cine y televisión:

June 21 (Reuters) - British artificial intelligence startup Stability AI has appointed Prem Akkaraju as its new chief executive officer, the Information reported on Friday, citing a person involved in the decision.Akkaraju, former CEO of visual effects company Weta Digital, is part of a group of investors including former Facebook President Sean Parker that has stepped in to save Stability with a cash infusion, which could result in a lower valuation for the firm, the report said.The new funding will likely shrink the stakes of some existing investors, who have collectively contributed more than $100 million, according to the report.Stability AI declined to comment.The company had said in May it was in talks with a group of investors for a large equity investment into the cash-strapped firm.

Reporting by Juby Babu in Mexico City; Editing by Shilpi Majumdar


La inyección de dinero la ha recibido nada menos que de Sean Parker, el creador de Napster y cofundador de Facebook, toda una leyenda. Está por ver el significado de esto y como afectará a la orientación de la empresa y si continuará o no apostando por el opensouerce (yo creo que no lo hará, y lo ocurrido tiene mucho que ver con esta inversión).

Por otro lado, otra novedad que se está haciendo muy popular y que merece la pena comentar, es la nueva IA para generar vídeos que da mejores resultados que las disponibles hasta ahora. Se trata de Dream Machine de Luma Labs, que permite hacer vídeos con mas nitidez y consistencia... Permite generar de forma gratuíta unos 30 vídeos al mes. Yo ya la he estado probando y algunos resultados son muy interesantes, con animaciones con mucha mayor movilidad en los personajes y menos deformaciones. En este vídeo podeís ver algunos ejemplos creados a partir de conocidos memes de internet:



Además, y como complemento a la anterior, hay otra IA mucho más ambiciosa de este tipo que apunta directamente a hacer la competencia a Sora de Open.ai. Es de origen chino y se llama Kling, y permite hacer vídeos realistas que ya muchas veces no se pueden distinguir de vídeos creados por métodos tradicionales. Se han adelantado a Sora en cuanto a que ya está disponible para que lo usen los usuarios. La pega es que para registrarse pide un número de teléfono chino, por lo que de momento sólo está al alcance de los usuarios chinos. En el siguiente vídeo hablan de él y se pueden ver algunos ejemplos:



« Última modificación: Junio 22, 2024, 12:03:22 pm por sirdrak »
 
Los siguientes usuarios han dado gracias a este post: LordPep

Desconectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 203
  • Agradecido: 169 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #55 en: Julio 13, 2024, 01:27:16 pm »
Bueno, pues finalmente parece que Stability.ai ha decidido recular y dar marcha atrás con sus licencias y además ha anunciado que van a sacar una versión mejorada y corregida de SD3 medium que supuestamente solucionará todos sus problemas. No se yo si este movimiento llega tarde, porque la comunidad de usuarios ya ha girado la vista a otras alternativas opensource como Pixart Sigma, Lumina y otras, además de que se ha iniciado una iniciativa de colaboración entre miembros muy prestigiosos de la comunidad para desarrollar su propia alternativa opensource y moderna a SD3.

Y sin ir más lejos, además, ha aparecido un modelo opensource basado en la tecnología de SD3, entrenado a modo de aprendizaje por CloneofSimo, que es, ni más ni menos, que el usuario responsable de hacer que la teoría de funcionamiento de los LoRA se convirtiera en una realidad en SD y que la gente pudiera crear sus propios LoRas. Este nuevo modelo se llama AuraFlow y ya está su versión preliminar disponible a pesar de que continúa su entrenamiento y no está acabado, pero ya da resultados mejores que SD3 (y sin sus problemas).

Y ahora voy con otra novedad... Estos días estoy pasando unos días en el pueblo con mis padres y me he entretenido en preparar y entrenar un LoRa para Pony XL del estilo artístico de nada menos que Luis Royo, con resultados espectaculares (como podréis ver en las imágenes que pondré más abajo). Gracias a que Civitai desde hace un tiempo tiene un servicio online de entrenamiento, puedo hacerlo a pesar de que mi portátil no tenga suficiente VRAM para realizar el entrenamiento en local. El LoRa se puede descargar aquí:

https://civitai.com/models/572942/luis-royo-style-for-pony-xl

Y ahora algúnas imágenes de muestra (aviso que alguna puede ser subidilla de tono, las de ese tipo las pondré en spoiler):



















Spoiler: mostrar



Además, este modelo es muy bueno para hacer imágenes de ciencia ficción o de fantasía heróica como Advanced Dungeon & Dragons, con dragones espectaculares, doncellas, hadas, reyes, etc...
 
Los siguientes usuarios han dado gracias a este post: LordPep

Desconectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 203
  • Agradecido: 169 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #56 en: Agosto 07, 2024, 04:07:16 pm »
Semana de sorpresas inesperadas en el mundo de la IA generativa de imágenes, y relacionada con el culebrón de Stability.ai... Hace cuatro días, y cuando ya nadie esperaba nada y la comunidad estaba buscando alternativas a Stable Diffusion tras el enorme fracaso de SD3 medium, de la nada apareció una nueva empresa llamada Black Forest Labs (que se llama así porque está establecida en Alemania cerca de la Selva Negra) anunciando que su intención era crear modelos avanzados y competitivos con los de las grandes empresas y que pudieran ser usados por todo el mundo. La empresa estaba formada por nada menos que 14 ingenieros que desarrollaron no sólo Stable Diffusion en diferentes versiones sino que inventaron el concepto de 'difusión latente' gracias al cual existen todas las IAs generativas de imágenes. La mayoría de ellos trabajaban en Stability pero se acabaron yendo todos. La empresa se creó en secreto coordinada por Emad Mostaque, el Ex-CEO y cofundador de Stability al que expulsaron en Abril.

Y la gran sorpresa no fué solo esta sino la entrada por la puerta grande al publicar en paralelo su primer modelo, Flux.1, que por fin se trata de un modelo avanzado mejor que Dall-e 3 y Midjourney V6, que hace todo lo que SD3 prometia ser y no fué y que tiene unas características de calidad de imagen y entendimiento de los prompts que dejan con la boca abierta, a lo que hay que sumar que hace muy bien las manos incluso en posiciones y situaciones complicadas en un 90% de los casos y escribir texto complejo perfectamente. Hablamos del mayor modelo opensource de creación de imágenes publicado hasta la fecha, ya que tiene 12 billones americanos de parámetros (12000 millones), lo que viene a ser 6 veces más grande que SD XL. Lo malo de esto es que tiene unas exigencias elevadas de VRAM para funcionar, siendo necesarios 24 GB de VRAM para hacer funcionar el modelo 'tal cual' en fp16 (es decir, con una RTX 3090 o una RTX 4090). No obstante, es posible ejecutar el modelo en fp8 con apenas pérdida de calidad y también el LLM T5 que hace de 'text encoder', o que hace posible hacerlo funcionar en 12 GB de VRAM o incluso menos (a costa, eso sí, de tiempo mucho más largos para generar la imagen).

Para que no les ocurriese lo mismo que a Stability (no ser capaces de monetizar sus modelos y encontrar un modelo de negocio rentable sin al mismo tiempo darle la espalda a la comunidad opensource), la estrategia que ha seguido Black Forest Labs es sacar tres versiones del modelo:

- Flux-Dev: Es la versión 'normal' del modelo, la que más calidad da disponible al público, y que tiene una licencia de uso libre para uso no comercial (aunque las imágenes generadas se pueden usar como se quiera sin limitaciones), orientada a los investigadores y a los usuarios que quieran experimentar.

- Flux-Schnell: Es una versión orientada a generar las imágenes en pocos pasos (de 4 a 8), al estilo de SD XL Turbo o Lightning, con algo menos de calidad que Dev pero superando aún así a Midjourney y Dall-E 3. En este caso, la licencia es Apache 2.0, lo que quiere decir que es una licencia opensource 100% sin ninguna restricción para su uso tanto comercial como no comercial.

- Flux-Pro: Es la mejor versión y a partir de la cual se han obtenido las otras dos. En este caso no estará disponible para los usuarios, pues su objetivo es ofrecerla únicamente a través de su API como servicio online de pago.

La aparición de Flux ha puesto patas arriba a la comunidad, que se ha volcado totalmente con él gracias a su buenísima calidad, y al mismo tiempo ha puesto aún más presión a Stability.ai, que ahora están en el proceso de 'corregir' el desastre de SD3 medium entrenando una versión 3.1 sin ninguno de los múltiples problemas de la anterior, y de dar marcha atrás como anunciaron a sus polémicas licencias. De momento Flux sólo es compatible con ComfyUI pero ya se está trabajando en añadirle soporte en A1111 e incluso Forge.































Los modelos se pueden probar online aquí:

Flux-Dev: https://replicate.com/black-forest-labs/flux-dev
Flux-Schnell: https://replicate.com/black-forest-labs/flux-schnell

Y se pueden descargar para su uso local aquí: https://huggingface.co/black-forest-labs
 
Los siguientes usuarios han dado gracias a este post: Manchi, tylerdurden8

Desconectado tylerdurden8

    *
  • Lapidador experimentado.
  • *
  • Mensajes: 6506
  • Agradecido: 1273 veces
  • "Encontraremos una salida... Como siempre"
    • tylerdurden8
    • tylerdurden8

    Total de insignias: 21
    Insignias: (Ver todas)
    Seis años en el foro. Votar 50 encuestas Superbacker (Más de 100 proyectos apoyados) Cinco años en el foro Forero ejemplar (más de 1000 thanks) 5000 Posts Tres años en el foro. Forero que nunca duerme. 720 horas (30dias) en DS. Votar 10 encuestas Spammer 50 mensajes en un día Awaken Realms Fan Forero ninja top #10 Creador de encuestas Primera encuesta votada Forero querido (más de 100 thanks) Ha creado 10 hilos en el foro. Un año en el foro Firma Spammer 25 mensajes en un día El más rápido de todo el oeste. Avatar personalizado
« Respuesta #57 en: Agosto 07, 2024, 10:27:36 pm »
Hay algunas imágenes que cuelan como auténticas...  :o
Si tengo que sacar un 6 para ganar... Ya puedo ir felicitando al rival...
 

Desconectado Manchi

    *
  • Lapidador experimentado.
  • *
  • Mensajes: 16557
  • Agradecido: 3709 veces
  • "Tú también flotarás."

    Total de insignias: 28
    Insignias: (Ver todas)
    Webmaster Votar 100 encuestas 15000 Posts 10 encuestas Votar 50 encuestas Superbacker (Más de 100 proyectos apoyados) Seis años en el foro. Forero ninja top #1 Cinco años en el foro 10000 Posts Spammer 100 mensajes en un día Forero ninja top #10 Artista Creador de encuestas Forero ejemplar (más de 1000 thanks) 5000 Posts Forero que nunca duerme. 720 horas (30dias) en DS. Forero querido (más de 100 thanks) Ha creado 10 hilos en el foro. Spammer 50 mensajes en un día Spammer 25 mensajes en un día El más rápido de todo el oeste. Votar 10 encuestas Primera encuesta votada Firma
« Respuesta #58 en: Agosto 07, 2024, 10:38:30 pm »
Hay algunas imágenes que cuelan como auténticas...  :o

Ya te digo, la del tío durmiendo y las de las tres chicas enseñando que la IA ya sabe hace manos me han dejao to loco  :o
Novia cornuda y algo plasta (incluso fea) número 7 de Dionisio

¿Mythic? NCUP, hoygan.

Yo lo que pasa es que soy un populista, que ahora se lleva mucho, un pagafantas, un planchabragas y un demagogo.

¡Quiero que me informen bien! ¡Pero que también me sorprendan! ¡Pero que no se retrasen!

Tú lo que quieres es un huevo kinder.
 

Desconectado Ganix

    *
  • Lapidador experimentado.
  • *
  • Mensajes: 8415
  • Agradecido: 4237 veces
  • En casa no pinto nada...
    • ganix
    • ionganix
    • Huid de aquí! No es bueno para vuestra cartera...

    Total de insignias: 28
    Insignias: (Ver todas)
    10 encuestas Votar 100 encuestas Seis años en el foro. Cinco años en el foro Kingdom Death: Monster Fan Votar 50 encuestas 5000 Posts Spammer 50 mensajes en un día Creador de encuestas Awaken Realms Fan Forero ninja top #10 Forero ninja top #1 Ha creado 10 hilos en el foro. Artista Forero ejemplar (más de 1000 thanks) Spammer 25 mensajes en un día Webmaster Tres años en el foro. Donativo Darkstone 2018 El más rápido de todo el oeste. Forero que nunca duerme. 720 horas (30dias) en DS. Forero querido (más de 100 thanks) Mecenas HQ25 Votar 10 encuestas Primera encuesta votada
« Respuesta #59 en: Agosto 07, 2024, 10:57:47 pm »
Hay algunas imágenes que cuelan como auténticas...  :o

Y que sabrás tu de fotografía!
Mejor deja a los fotógrafos profesionales que opinen. Oh wait!

Ya te digo, la del tío durmiendo y las de las tres chicas enseñando que la IA ya sabe hace manos me han dejao to loco  :o

La de las manos, me ha llamado la atención por que la falange distal (he tendió que mirar como se llamaba), está más rosada que las demás. Me he mirado las manos, y efectivamente las mías son algo más rosadas que las otras. No tanto como en la foto, pero es así.
Que miedito me da esto, si se hace mal uso de ello.
If you don't like something, change it. If you can't change it, change your attitude. Don't complain.