Colaboradores


Stable Diffusion: Tutoriales y cosas interesantes

  • 81 Respuestas
  • 137222 Vistas

0 Usuarios y 1 Visitante están viendo este tema.

Desconectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 210
  • Agradecido: 178 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #75 en: Octubre 14, 2024, 12:19:35 pm »
Bueno, pues he hecho un pequeño experimento y me ha salido bastante bién... Si recordáis, hace un tiempo, las imágenes que yo creaba en Stable Diffusion usaban una especie de estilo que descubrí por casualidad a combinar varios modelos (entre ellos mi versión del modelo del estilo de Azpiri de Stable Diffusion 1.5) de una determinada forma, básicamente el de estas imágenes:





Es decir, que no era un modelo concreto sino una combinación de varios... Pues bién, ya llevaba un tiempo pensando en entrenar un modelo con imágenes generadas de esta forma para convertirlo en un estilo normal, en modelos más modernos como Pony y Flux, con la intención de conservar la estética y tener las ventajas de dichos modelos. Así que me puse manos a la obra y entrené un LoRa con un set de imágenes de entrenamiento formado por unas 73 imágenes de las mejores generadas por mí mismo con dicho estilo (y con menos fallos de los típicos como en las manos y tal) en Flux, y bueno, pues parece que lo he clavado y a la primera. La ventaja es que ya no me salen las manos mal y puedo controlar mucho mucho mejor lo que quiero que salga en las imágenes gracias al mejor entendimiento de Flux. Unas cuantas imágenes de ejemplo:

















Como podéis ver, el estilo clavado al 100% pero con mejores manos y anatomía. Lo he puesto en Civitai y parece que está teniendo buena aceptación (más de 80 descargas en 2 días). Para el que lo quiera probar, se puede descargar aquí:

https://civitai.com/models/844159/western-comic-semirealistic-25d-style-for-flux

Mi siguiente idea es entrenarlo en Pony y así se podrán hacer cosas 'más subidillas de tono' con dicho estilo  ;D
 
Los siguientes usuarios han dado gracias a este post: Fardelejo, LordPep

Desconectado Manchi

    *
  • Lapidador experimentado.
  • *
  • Mensajes: 16558
  • Agradecido: 3714 veces
  • "Tú también flotarás."

    Total de insignias: 28
    Insignias: (Ver todas)
    Webmaster Votar 100 encuestas 15000 Posts 10 encuestas Votar 50 encuestas Superbacker (Más de 100 proyectos apoyados) Seis años en el foro. Forero ninja top #1 Cinco años en el foro 10000 Posts Spammer 100 mensajes en un día Forero ninja top #10 Artista Creador de encuestas Forero ejemplar (más de 1000 thanks) 5000 Posts Forero que nunca duerme. 720 horas (30dias) en DS. Forero querido (más de 100 thanks) Ha creado 10 hilos en el foro. Spammer 50 mensajes en un día Spammer 25 mensajes en un día El más rápido de todo el oeste. Votar 10 encuestas Primera encuesta votada Firma
« Respuesta #76 en: Octubre 14, 2024, 12:38:27 pm »
Si les pones menos ropa a las chicas las deja ya directamente en pelotas  ;D
« Última modificación: Octubre 14, 2024, 01:09:49 pm por Vince »
Novia cornuda y algo plasta (incluso fea) número 7 de Dionisio

¿Mythic? NCUP, hoygan.

Yo lo que pasa es que soy un populista, que ahora se lleva mucho, un pagafantas, un planchabragas y un demagogo.

¡Quiero que me informen bien! ¡Pero que también me sorprendan! ¡Pero que no se retrasen!

Tú lo que quieres es un huevo kinder.
 

Desconectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 210
  • Agradecido: 178 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #77 en: Octubre 14, 2024, 04:17:43 pm »
Si les pones menos ropa a las chicas las deja ya directamente en pelotas  ;D

Si, es que digamos que como ha aprendido principalmente del material de Azpiri es muy tipo lo que se veía en revistas como Cimoc y Heavy Metal, y por eso tiende mucho al famoso 'bikini armor'  ;D Pero a Flux, que le gustan los prompts muy largos y detallados, si le describes bien la ropa, las puede vestir como quieras... A ellos también tiene mucha tendencia a hacerlos tipo Conan a pecho descubierto jejeje Pero salen unas imágenes muy chulas a veces, como estas:









« Última modificación: Octubre 14, 2024, 04:21:43 pm por sirdrak »
 
Los siguientes usuarios han dado gracias a este post: Fardelejo, Manchi, LordPep, tylerdurden8

Desconectado LordPep

    *
  • Golliath
  • ******
  • Mensajes: 1031
  • Agradecido: 558 veces
  • Carpe Ludum
    • LordPeP
    • LordPeP
    • Frikigames (in memoriam)

    Total de insignias: 15
    Insignias: (Ver todas)
    Forero que nunca duerme. 720 horas (30dias) en DS. El más rápido de todo el oeste. Seis años en el foro. Votar 10 encuestas Cinco años en el foro Ha creado 10 hilos en el foro. CMON Fan Forero querido (más de 100 thanks) Mecenas HQ25 Firma Primera encuesta votada Webmaster Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #78 en: Octubre 15, 2024, 01:04:13 pm »
Muchas gracias @sirdrak

el modelo funciona bastante bien, he estado jugando un poco con él y la verdad es que da buenos resultados! sigo teniendo problemas siempre con el tema de las manos pero mucho mejor!

para muestra un botón :



Un abrazo!
Carpe Ludum
 
Los siguientes usuarios han dado gracias a este post: Fardelejo, sirdrak, tylerdurden8

Desconectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 210
  • Agradecido: 178 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #79 en: Diciembre 26, 2024, 04:32:29 pm »
Bueno, pues estos días he estado probando a versionar el último modelo que entrené para Flux que puse aquí (el de Western Comic 2'5D) para Pony ya que con Flux no se puede -aún- hacer cosillas NSFW 'decentemente', y porque me he fijado que cuando entreno modelos para Pony, estos parecen retener mayor cantidad de detalles que en Flux. Y resulta que el resultado es aún mejor de lo que esperaba. Hace un par de días lo subí a Civitai y salen unas chavalas que quitan el hipo jejeje Una muestra de las imágenes de la galería del modelo:






















Como véis mayor detalle, mejores texturas, rasgos más realistas y variados, etc... Y la posibilidad de hacer 'cosillas subidillas de tono'... Se puede descargar de aquí:

https://civitai.com/models/844159/western-comic-semirealistic-25d-style-for-flux-and-pony

En cuanto a novedades en IA, lo que hay ahora es un boom de IAs opensource para generar vídeo de forma local, que están evolucionando muy rápido... Hay varias que son muy prometedoras y que no tienen nada que envidiar a las de pago, encabezadas por Hunyuan Video (la mejor ahora mismo, aunque también la que más recursos consume), y luego CogvideoX, LTX Video y Mochi-1. Son muy interesantes y ya he estado probando LTX Video y está muy bien, de hecho se está haciendo muy popular porque es la que menos recursos exige y genera los vídeos muy rápido, y además admite modos text2video (el habitual de escribir un prompt y generar el vídeo desde cero), image2video (le das una imagen como fotograma inicial y anima dicha imagen) y video2video (le das un vídeo y lo transforma en otro).
 
Los siguientes usuarios han dado gracias a este post: LordPep

Desconectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 210
  • Agradecido: 178 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #80 en: Febrero 09, 2025, 05:01:27 pm »
Hoy os voy a comentar un poco las novedades que hay en cuanto a generación de vídeos con IA pero en local y opensource, en contraposición a los servicios online por suscripción como Kling, Hailuo Minimax o Dream machine de Luma... Lo cierto es que en los últimos meses se está viendo un auténtico 'boom' con avances significativos similares a los que acontecieron en la generación de imágenes cuando apareció Stable Diffusion 1.5 en 2022, sobre todo con la aparición de cierto modelo del que os hablaré luego.

Al principio la adopción de estos modelos se ha hecho más complicada por las ya consabidas limitaciones técnicas referentes a la cantidad de VRAM cada vez más alta que piden los nuevos modelos para funcionar (con la honrosa excepción de LTX video), a la que no ayuda la tradicional racanería de nVidia a la hora de aumentar la cantidad de VRAM en las tarjetas gráficas de usuario. La salida de la nueva generación de gráficas RTX 50xx no ha hecho mas que empeorar las cosas, ya que nVidia, para seguir teniendo ventaja en el mercado profesional de IA y obligar a que si quieres más VRAM tengas que ir a una gráfica de este tipo, al contrario de lo que sería lo lógico, ha seguido manteniendo los 16 GB de VRAM como máximo (al menos por ahora, no sabemos si esto cambiará con futuras variantes Super de las mismas) en las gráficas de gama media alta como las 5070 y las 5080 en lugar de aumentar su VRAM a 20 o 24 GB, ya que amunta la de la 5090 a 32 GB. Afortunadamente, ya que todos estos modelos tienen una arquitectura moderna basada en 'transformers', como los LLM, ha sido posible aplicar el mismo tipo de optimizaciones que a estos para hacer funcionar los modelos en equipos más humildes con menos VRAM.

A día de hoy han aparecido los siguientes modelos:

- Mochi: El primer modelo de vídeo de alta calidad con resultados cercanos a lo que ofrecen los servicios de suscripción de pago. La pega que ha impedido su popularización es que pide 64 GB de VRAM para funcionar y que no tiene modo 'image2video' (el que permite generar una animación a partir de una imagen suministrada)
- CogvideoX: Este es el primer modelo con unos requisitos altos pero aceptables que se empezó a popularizar, también de los primeros en aparecer, y que sí tiene los tres modos (video2video, txt2video e img2video)
- LTX video: Lo de este modelo supuso el primer 'Boom' y que hizo que el tema empezase a despegar. Sus puntos fuertes es que es un modelo muy ligero (más o menos como SD XL) que funciona en una gran cantidad de equipos y que es rapidísimo generando los vídeos, hasta el punto de que con gráficas potentes (una 4090 por ejemplo) la generación del vídeo se acerca al tiempo que tarda en reproducirse el vídeo. Además tiene los tres modos antes comentados, y habría sido el más popular de no ser por la llegada del último contendiente. Las pegas son que los vídeos que genera no son de tan buena calidad como los de CogvideoX, por ejemplo, y que para que de buenos resultados hay que escribir prompts muy largos y detallados, hasta el punto de que se recomienda generarlos con un LLM. Tampoco se le da bien animar cosas que no sean fotorrealistas, como dibujos animados.
- Hunyuan video: Tenemos un ganador, señores!! La llegada de este modelo, por varias cosas que ahora comentaré, ha sido una auténtica revolución similar a la que supuso la llegada de Stable Diffusion 1.5. Aunque pide bastante VRAM para funcionar, se puede utilizar incluso con sólo 8 GB de VRAM usando algunas de sus versiones pequeñas en GGUF. Su versión del modo img2video no ha sido publicada aún pero sus desarrolladores dicen que la publicarán en breve. Sin embargo, lo que le ha hecho destacar son los siguientes puntos:
      * Su calidad es la mayor de todos, cercana a la de los servicios de suscripción
      * Es muy fácil entrenar LoRas para él, de hecho igual de fácil que entrenarlos para un modelo de generación de imágenes, pudiendo usar en el entrenamiento imágenes o clips de vídeo. Esto implica poder entrenar personas, personajes, animaciones de todo tipo, estilos artísticos, etc... Algo que no ofrecen ni en sueños las IAs de suscripción de pago.
      * Es el único modelo que no tiene censura, siendo capaz de mostrar desnudos integrales tanto masculinos como femeninos, representar correctamente los genitales y hasta entender conceptos sexuales, por lo que, gracias a los LoRas, es capaz de generar todo tipo de porno muy realista (y ya se sabe que el sexo es una gran fuerza que hace avanzar curiosamente la tecnología, como está pasando aquí). También conoce bastante bien la anatomía y las manos suelen salir bien.
      * Es el mejor modelo que he visto representando anime y series de animación. Lo que he podido ver es bastante sorprendente (pondré algunos ejemplos luego).

Por estas razones, este último ha despertado un enorme entusiasmo en la comunidad y ya hay LoRas de todo tipo. En realidad ya lleva unos meses disponible, pero por unas cosas y otras no lo pude probar hasta esta semana y la verdad es que me han asombrado sus resultados... Ya estoy deseando entrenar LoRas para él y ver qué consigo...

Os voy a dejar con unos ejemplos de animación usando un LoRa con el estilo artístico de Katsuhiro Otomo (el creador de Akira), que lo que más me sorprende es que ha sido entrenado sólo con imágenes y no con clips de video:





























Me parece impresionante teniendo en cuenta que son imágenes 100% generadas por Hunyuan sin partir de una imagen previa...
 
Los siguientes usuarios han dado gracias a este post: Fardelejo

Desconectado sirdrak

    *
  • US. Marshal
  • ****
  • Mensajes: 210
  • Agradecido: 178 veces

    Total de insignias: 8
    Insignias: (Ver todas)
    Forero querido (más de 100 thanks) Primera encuesta votada Seis años en el foro. Cinco años en el foro Mecenas HQ25 Avatar personalizado Tres años en el foro. Un año en el foro
« Respuesta #81 en: Febrero 09, 2025, 07:07:34 pm »
Por cierto, y que casi lo olvido... Aquí dejo los tutoriales de AcademiaSD tanto para instalar Hunyuan Video en ComfyUI, como para entrenar sus LoRas con One Trainer:



Y para entrenar LoRas:

 
Los siguientes usuarios han dado gracias a este post: Fardelejo