Stable Diffusion: Tutoriales y cosas interesantes

Aficiones y hobbies > Inteligencia artificial en los juegos de mesa

<< < (11/12) > >>

sirdrak:

--- Cita de: Fran Scythe en Enero 03, 2024, 12:46:00 pm ---Hola, @sirdrak podrías comentar algo de la versión 6 de Midjourney? Concretamente me tiene intrigado el comando /tune. Aunque aún no lo he utilizado, me da la impresión de que es un intento de respuesta a estas IAs tipo Stable Diffusion para poder "afinar" o crear tu propio estilo.

Enviado desde mi CPH2343 mediante Tapatalk

--- Fin de la cita ---

Lo cierto es que no uso Midjourney ni ninguna otra de pago, prefiero el Opensource... Midjourney sigue siendo la más avanzada a nivel visual y en fotorrealismo, pero no deja de ser un modelo especializado entrenado con muchos recursos funcionando sobre Stable Diffusion... En estos últimos tiempos las IAs privativas están intentando incorporar algunas de las opciones de Stable Diffusion, como por ejemplo hizo Firefly de Adobe, al incorporar modos de edición equivalentes al img2img y al inpainting de SD. Sin embargo, en el tema de poder entrenar tus propios modelos no están ni van a estar nunca a la altura de las IAs Opensource, por no mencionar que salen novedades en formas de extensiones (en el caso de Automatic1111), nodos personalizados y workflows (en el caso de ComfyUI) de forma contínua, por lo que siempre van a tener más funcionalidades, más avanzadas y con mayor control que las otras de pago. En serio, no merece la pena pagar una suscripción... Con los modelos adecuados y currándotelo bién puedes conseguir resultados similares e incluso superiores a los de Midjourney o directamente hacer cosas imposibles en él...

Fran Scythe:
No, si leyéndote a lo largo del hilo me doy cuenta de todo esto que comentas, mi problema es que soy manco y no llego a ese nivel de conocimiento, ese por eso que me tengo q quedar en Mj. Aparte de que el equipo mínimo necesario me da la impresión de que es más potente del que tengo para acceder a Mj.

Enviado desde mi CPH2343 mediante Tapatalk

sirdrak:
Bueno, hace tiempo que no actualizo sobre novedades de IA para generar imágenes, pero con lo acontecido esta semana, creo que es necesario hacerlo, pero primero vamos por partes:

- Desde febrero han ido saliendo versiones de SD XL cuyo objetivo era poder generar imágenes con un número menor de pasos y pr tan mucha mayor rapidez. Empezó con SD XL Turbo y le siguió SD XL lighting, que conseguía una calidad algo mayor.

- Tras muchos meses de modelos de anime más o menos mediocres desde la salida de SD XL (siendo hasta hace poco mejores los basados en SD 1.5), aparecen dos grandes modelos 'buenos' de Anime/hentai: Animagine V3 y Pony Diffusion V6. Este último es un modelo muy particular que se convierte rápidamente en el mejor modelo de SD XL y el más popular de todos los modelos de SD XL. La particularidad es que es un modelo entrenado desde cero usando la bae tecnológica de SD XL, por un usuario con tres gráficas profesionales nVidia H100 en su poder. Conjuntamente con un grupo de colaboradores, crean el modelo entrenándolo con una selección de 3 millones de imágenes etiquetadas manualmente por humanos, una por una. Por esa razón, se convierte en un modelo increíble que entiende muy bien lo que se le pide, principalmente nsfw (entrenado en hentai) pero muy válido también para imágenes nsfw. Debido a que es un modelo tan particular, se deben entrenar los LoRas de personajes y estilos específicamente para él, pero tienen un gran éxito.

- Aparecen nuevas técnicas para mejorar la compresión de los prompts de modelos 'antiguos'. Concretamente aparece ELLA, que lo que hace es utilizar un LLM, concretamente T5 XL de Google, para que sustituya a la interpretación del prompt que hace el text encoder de los modelos basados en SD 1.5. El resultado es bastante bueno, aunque no obstante hay un problema de censura de personajes famosos y otras cosas debido a que ya venía incluída con el LLM de Google. Sin embargo, la interpretación de los prompts mejora acercándose a lo que vemos con Dall-e 3. de momento sólo se puede usar en ComfyUI y sólo con modelos de SD 1.5.

- Aparece un 'workflow' para ComfyUI de reescalado con el objetivo de conseguir imágenes espectaculares intentando imitar al servicio online Magnific.ai (que es muy caro). Se convierte en el mejor método de reescalado (añadiendo nuevos detalles) actual. Su nombre es Supir.

- Se publican nuevos modelos generadores de imágenes con arquitecturas más modernas y mejor para la comprensión de prompts. Destacan Stable Cascade (de Stability.ai), Pixart Sigma (que usa un enfoque similar al de Stable Diffusion 3, sólo que utilizando un modelo pequeño y fácil y barato de entrenar conjuntamente con un LLM T5 para la interpretación de los prompts), y los recientes Hunyuan (modelo chino con un funcionamiento similar a SD3) y Lumines (otro modelo muy prometedor que además es multimodal y puede crear sonido, objetos 3D, etc...)

Ahora vamos con lo principal, y que tiene bastante miga, y que no es otra cosa que la publicación esta semana de Stable Diffusion 3 medium, la versión intermedia de SD3, que fué anunciado a primeros de año y ha resultado ser un auténtico caos. Empecemos por el principio:

- Resulta que Stability.ai en todo este tiempo no ha logrado establecer un modelo de negocio que le de beneficios, de forma que está al borde de la quiebra. A consecuencia de esto, y diversas decisiones de la directiva, paulatinamente se han ido yendo todos los ingenieros que participaron en el desarrollo de Stable Diffusion desde sus comienzos, de forma que en marzo de este año ya no quedaba ninguno. Para colmo, Emad Mostaque, CEO de la compañía y el principal defensor de que SD siga siendo opensource y libre en contra de las presiones de los inversores, también ha acabado abandonando la compañía hace un par de meses. Con esto, todos los implicados en la creación y desarrollo de SD ya no están en Stability.

- Las cuentas de Stability no salen... En el primer trimestre de 2024 han tenido unos beneficions de 5M de $ y unas pérdidas de 30M. Empiezan a sonar rumores de que la compañía está en negociaciones para su venta.

- Antes de su marcha, Emad prometió que en mayo tendríamos SD3 para instalarlo en local en su versión más grande (SD3 tendrá varias versiones de diferente tamaño con la intención de que se pueda ejecutar en el mayor número de equipos posible, concretamente las versiones 8B - 8000 millones de parámetros -, 4B, 2B -la medium actualmente publicada- y una de 900M de parámetros para equipos más humildes). Sin embargo, tras marcharse en abril, esto no sucedió y se retrasó la publicación del modelo, que en cambio sí se puso en la API de stability pero previo pago y bastante caro, por cierto. En la comunidad empezaron a circular sospechas de que Stability.ai estaba pensando en dejar de ser Opensource, como hizo Open.ai , y pasar a ofrecer sus modelos online como Dall-e 3 y similares, tras una pasarela de pago.

- Hace unas semanas, algunos empleados de Stability, Lykon concretamente (el responsable del checkpoint Dreamshaper de SD, que fué contratado por la compañía y ha sido el que ha estado encargando de publicitar SD3), empiezan a publicitar literalmente '2B is all that you need', como insinuando la publicación de SD3 medium, pero que mucha gente interpretó como que la intención era darnos a los usuarios una versión menor de SD3 y quedarse ellos los modelos grandes para sí, para ofrecerlos únicamente en su plataforma online previo pago.

- Stability.ai contrata a la ex-responsable de la censura en Twitter antes de que se convirtiera en X, despedida fulminantemente por Elon Musk nada mas llegar. Se le designa como responsable del equipo de 'seguridad' (o sea, de censura) de los modelos.

- Finalmente, se publica SD3 2B medium y se desata el caos: Resulta que los usuarios descubren no sólo que el modelo está fuertemente censurado, sino que la censura a acabado afectando a la generación normal de imágenes con personas, estropeando totalmente la anatomía y creando verdaderos horrores con simplemente pedirle cosas tan simples como 'mujer tendida sobre la hierba'. Ningún modelo anterior de SD, ni los más antiguos, han tenido problemas similares con la anatomía. Además, queda claro que está relacionado con la censura, porque SD3 funciona perfectamente con el resto de imágenes en los que no se representan personas.

- Para colmo, resulta que Stability cambia la licencia bajo la que funciona SD3, de forma que en vez de ser 100% opensource como Sd 1.5 o SD XL, y de libre uso tanto para uso no comercial como comercial, ahora SD3 es de uso libre sólo para uso no comercial. Ahora para usarla comercialmente, hay que contratar una de las licencias que hay en Stability, que son dos: Creators (para pequeños creadores, de 20$ al mes), y la Enterprise (para empresas que tengan mñas de 1M de $ de beneficios) que hay que negociar directamente con ellos y no tiene un precio fijo. Resulta que la primera limita la creación de imágenes con SD3 a 6000 al mes (no queda claro si se refiere a la generación local o a generaciones cuando se usa SD3 en servicios online). Para colmo, una vez la gente ha empezado a leer las condiciones legales de las licencias, hay claúsulas tan disparatadas como que, si se entrena algún modelo usando como base SD3 (lo que lleva la comunidad haciendo desde la existencia de SD) pasaría prácticamente a ser suyo, y que si se deja de pagar la licencia, tendrías que destruir tu modelo y todas las imágenes creadas con él.

- Por si lo anterior fuera poco, resulta que se da el caso de que el creador del modelo de Anime/Hentai más importante de Stable diffusion XL, Pony Diffusion V6 (que tiene la particularidad de que lo entrenó desde cero usando tres nVidia H100), que quiere sacar una versión para SD3, se pone en contacto con stability para intentar contratar una licencia Enterprise, ya que aunque tiene la Creators, piensa ceder su modelo en servicios de generación online (aunque igualmente estaría desponible libremente para que los usuarios lo usen localmente gratis). Se encuentra con que desde Stability lo tratan mal, con condescendencia y hasta se ríen de él (al ser el suyo un modelo nsfw, a pesar de ser el más importante de SD XL en uso), y le ignoran por completo, no permitiéndole conseguir contratar la licencia. Debido a esto, decide que ya no sacará pony para SD3.

- Las últimas noticias del culebron este son que algunos empleados de Stability han admitido que SD3 medium en realidad era una beta que se decidió publicar por el cabreo de la comunidad con el retraso de SD3 8B y que se le quitó el nombre de 'beta' en el último minuto. Aseguran que tienen pensado sacar una versión mejorada del modelo aunque no antes de publicar la versión SD3 8B. Emad Mostaque se pronuncia sobre la polémica en X y comenta que está sorprendido por lo acontecido porque cuando él se marchó de la empresa, el modelo estaba casi acabado y funcionaba perfectamente con la anatomía, por lo que dice que tiene claro que los problemas se introdujeron durante la fase de 'alineamiento para la seguridad' (la censura vamos) del modelo, posterior a su salida. Hay que comentar también, que SD3 8B, en el servicio online de Stability.ai a través de su API, no tiene los problemas que ha mostrado SD3 2B medium.

sirdrak:
Por cierto, a las novedades antes comentadas, he de añadir una personal... Ya que os he hablado de la popularidad del modelo de anime Pony Diffusion V6 y sus virtudes, me animé por fin a sacar una versión de mi modelo de estilo de Alfonso Azpiri para Pony XL. Al ser la primera vez entrenando LoRas de SD XL me costó un poco conseguir los resultados que buscaba, pero tras varias pruebas conseguí mi LoRa de estilo, que he publicado en Civitai, al igual que el original que hice para SD 1.5. Lo que más me gusta es que es capaz de crear personajes de Azpiri muy bien, incluyendo a Lorna, Sally Gothic, Bethlehem Steele, Thaca Reem, etc... Incluso es capaz de sacar bien a Mot, aunque le cuesta un poco más. Además, se puede 'activar' el estilo 'acuarela', que Azpiri usaba a menudo, simplemente añadiendo al prompt las etiquetas 'retro artstyle, watercolor /(medium/)' y/o 'traditional media, 1980s (style)'. Os dejo algunos ejemplos:

Como se puede obsevar, algunos beneficios de usar Pony XL con mi LoRa es que las manos y la anatomía son mejores,se pueden hacer imágenes con más de un personaje diferente al mismo tiempo simplemente con la descripción del prompt, mayor variedad de poses, etc... Se puede descargar aquí: https://civitai.com/models/495362/alfonso-azpiri-style-for-pony-xl

Antes de usarlo, es importante leer lo que pone en la descripción del modelo, ya que aconseja cómo usarlo para conseguir el mejor resultado posible, y que al ser el modelo Pony XL tan particular, tiene una serie de eiquetas propios que es imprescindible usar en los prompts.

sirdrak:
Bueno, y hay más novedades respecto al asunto de SD3 y el culebrón de Stability.ai... Las siguientes:

- Comfyanonimous (el creador de ComfyUI, que llevaba tiempo trabajando en Stability.ai) anuncia que ha dejado él también la empresa y cuenta que en realidad parece ser que en la empresa no quieren publicar las versiones grandes 4B y 8B de SD3 y que por eso publicaron 2B a sabiendas de que estaba mal, y que se fué de la empresa porque se dió cuenta de que no tenían intención de trabajar para sacar el mejor modelo posible...

- La mayor web del mundo de recursos de Stable Diffusion, Civitai, ha decidido banear SD3 y todo modelo o contenido relacionado debido al tema de las claúsulas abusivas de las licencias comerciales de Stability.ai y el estado de SD3 medium, que está literalmente roto. Esto es algo muy gordo... Por ahora Stability.ai no ha dicho ni pío desde que todo esto comenzó.

- Parece ser que Stability.ai se salva de la bancarrota por los pelos, por una fuerte inversión de Facebook en la compañía... Ahora ha cambiado el CEO y el nuevo es el CEO de Weta Digital, la empresa de efectos especiales para cine y televisión:

June 21 (Reuters) - British artificial intelligence startup Stability AI has appointed Prem Akkaraju as its new chief executive officer, the Information reported on Friday, citing a person involved in the decision.Akkaraju, former CEO of visual effects company Weta Digital, is part of a group of investors including former Facebook President Sean Parker that has stepped in to save Stability with a cash infusion, which could result in a lower valuation for the firm, the report said.The new funding will likely shrink the stakes of some existing investors, who have collectively contributed more than $100 million, according to the report.Stability AI declined to comment.The company had said in May it was in talks with a group of investors for a large equity investment into the cash-strapped firm.

Reporting by Juby Babu in Mexico City; Editing by Shilpi Majumdar

La inyección de dinero la ha recibido nada menos que de Sean Parker, el creador de Napster y cofundador de Facebook, toda una leyenda. Está por ver el significado de esto y como afectará a la orientación de la empresa y si continuará o no apostando por el opensouerce (yo creo que no lo hará, y lo ocurrido tiene mucho que ver con esta inversión).

Por otro lado, otra novedad que se está haciendo muy popular y que merece la pena comentar, es la nueva IA para generar vídeos que da mejores resultados que las disponibles hasta ahora. Se trata de Dream Machine de Luma Labs, que permite hacer vídeos con mas nitidez y consistencia... Permite generar de forma gratuíta unos 30 vídeos al mes. Yo ya la he estado probando y algunos resultados son muy interesantes, con animaciones con mucha mayor movilidad en los personajes y menos deformaciones. En este vídeo podeís ver algunos ejemplos creados a partir de conocidos memes de internet:

Además, y como complemento a la anterior, hay otra IA mucho más ambiciosa de este tipo que apunta directamente a hacer la competencia a Sora de Open.ai. Es de origen chino y se llama Kling, y permite hacer vídeos realistas que ya muchas veces no se pueden distinguir de vídeos creados por métodos tradicionales. Se han adelantado a Sora en cuanto a que ya está disponible para que lo usen los usuarios. La pega es que para registrarse pide un número de teléfono chino, por lo que de momento sólo está al alcance de los usuarios chinos. En el siguiente vídeo hablan de él y se pueden ver algunos ejemplos:

Navegación

[0] Índice de Mensajes

[#] Página Siguiente

[*] Página Anterior

Mierda, no hemos podido dar tus gracias.

Agradeciendo...

Ir a la versión completa