Recursos para usar Stable Diffusion
“Una imagen vale más que mil palabras” ― Kurt Tucholsky
0. Consejos si vas a lo kamikaze
-
Si vas a usar Google Colab, créate una cuenta nueva de Google porque te va a crear muchos ficheros en tu Drive. Unos 4-5 GB más las imágenes que vayas generando, que se guardarán en tu Drive.
-
Para tener imágenes en poco tiempo, genera imágenes con pocos pasos, yo uso 20 y cuando encuentres algo que te guste, genéralas con la misma semilla pero con 40-50 pasos para tener mejores imágenes.
-
Genera imágenes en resoluciones no más grandes de 768px. Luego puede usar modelos ESRGAN para subir la resolución de esas imágenes x4 e incluso x8. La mayoría de GUIs de Stable Diffusion lo traen integrado.
-
Si quieres mejorar las caras pasa tu imagen generada pásala por un modelo GFPGAN. La mayoría de GUIs de Stable Diffusion lo traen integrado.
TLTR
-
¿Quieres usar Stable Diffusion gratis? Puedes hacerlo desde un notebook de Google Colab. Usa el de TheLastBen
-
No sabes qué es Google Colab y solo quieres jugar un poco. Créate una cuenta en Dream Studio. Es la aplicación oficial de Stability.ai y tienes créditos gratis para generar muchas imágenes.
-
¿Quieres entrenar Stable Diffusion con tus imágenes y gratis? Aquí tienes el tutorial que usé yo
-
¿Quieres profundizar en el tema en castellano y de una forma sencilla? Mira los videos de Carlos Santana - DotCSV
-
¿Estás interesado en el debate sobre los derechos de autor de estos modelos? Lee este artículo de Marelisa Blanco que compartió zigiella en la Barcelona Software Crafters 2022
Índice
- ¿Qué son los modelos text to image?
- ¿Qué son los modelos de difusión?
- Historia
- La velocidad cambia con la liberación de Stable Diffusion
- Documentación oficial
- Aplicaciones con las que puedes usar Stable Diffusion
- Tutoriales
- Notebooks de Google Colab que puedes usar gratis
- Ayudas para generar buenos prompts
- ¿Qué es Dreambooth?
- Glosario
- Métodos de sampling que he probado hasta ahora
1. ¿Qué son los modelos text to image?
- Ejemplo: https://imagen.research.google/
2. ¿Qué son los modelos de difusión?
- Resumen en el video de la web de DALL-E 2
3. Historia
-
La mayor parte está extraída de este video: # ¡Y AHORA la IA también crea VÍDEOS y MODELOS 3D! (de DALL-E 2 a DreamFusion)
-
2018 - GPT-1
-
2019 - GPT-2
-
2020 - GPT-3
-
Enero 2021 - DALL-E
-
Abril 2022 - DALL-E 2
-
Mayo 2022 - Imagen de Google
- Agosto 2022 - Stable Diffusion revienta el mercado porque es el primer modelo de este tipo Open Source de verdad.
- En ML necesitas, el código, los datos y poder entrenar el modelo en una máquina que no te hipoteque para toda la vida…
- Hasta ahora, modelos similares sólo liberaban el código y necesitabas conseguir datos y máquinas muy grandes para los entrenos.
- En muchos casos solo se publica el paper sin código con las explicación de como lo han hecho.
- Pero Stability.ai publica el modelo Stable Diffusion, los datos y es entrenable en máquinas accesible para usuarios particulares.
- Detrás de Stable Diffusion está un multimillonario conocido como Emad.
- Agosto 2022 - Se publica DreamBooth de Google. Explica cómo reentrenar modelos de difusión con muy pocas imágenes.
- Solo se publica el paper sin código [https://dreambooth.github.io/(https://dreambooth.github.io/](https://dreambooth.github.io/(https://dreambooth.github.io/)
- En 2 semanas estaba implementado en Stable Diffusion por la comunidad: https://github.com/XavierXiao/Dreambooth-Stable-Diffusion
- Solo se publica el paper sin código [https://dreambooth.github.io/(https://dreambooth.github.io/](https://dreambooth.github.io/(https://dreambooth.github.io/)
4. La velocidad cambia con la liberación de Stable Diffusion
-
Sólo en los últimos 2 meses:
-
DALL-E 2 ya no es beta privada y puedes subir fotos con caras reales y hacer in-painting y out-painting
-
Stability.ai saca Dream Studio y consigue hacer conversiones de imagen a imagen
-
La comunidad ha combinado el img2img para crear videos: https://youtu.be/rvHgcOa9gDk
-
Sale Make-A-Video: https://makeavideo.studio/
-
Sale Phenaki: https://phenaki.video/
-
Google saca Imagen-Video: https://imagen.research.google/video/
-
Esta semana han sacado Dream-Fusion: genera cualquier malla 3d que le pidas…..: https://dreamfusion3d.github.io/
-
Ya hay demos de Text To Audio
-
Ya hay demos de Text to Animation
-
Inyectan capital de 101 millones a StabilityAI para seguir haciendo su magia. Stability AI, desarrolladora de Stable Diffusion, recauda 101 millones de dólares en una ronda de financiación
-
-
Y cuando leas esto habrán pasado decenas de cosas más…
5. Documentación oficial
-
Reddit oficial: https://www.reddit.com/r/StableDiffusion/
-
Github oficial con el modelo: https://github.com/CompVis/stable-diffusion
-
Link modelo Satble Diffusion 1.4 para descargar o usar: https://huggingface.co/CompVis/stable-diffusion-v1-4
6. Aplicaciones con las que puedes usar Stable Diffusion
-
Dream Studio - Web oficial para usar el modelo. Es de pago pero inicialmente te dan créditos para probar: https://beta.dreamstudio.ai/dream
-
Crea imágenes con tus fotos. Es de pago: https://avatarai.me/
-
Si tienes PC con Windows y GPU Nvidia. Es gratis: https://nmkd.itch.io/t2i-gui
-
Si quieres usarlo gratis mirá el punto Notebooks de Google Colab que puedes usar gratis
7. Tutoriales
-
Tutorial para entrenar Stable Diffusion con tus imágenes (usando DreamBooth): https://bytexd.com/how-to-use-dreambooth-to-fine-tune-stable-diffusion-colab/
-
Crear vídeos con Stable Diffusion: https://colab.research.google.com/github/deforum/stable-diffusion/blob/main/Deforum_Stable_Diffusion.ipynb
-
Stable Diffusion Infinity para hacer outpainting: https://github.com/lkwq007/stablediffusion-infinity
-
Web para redimensionar tus imágenes de forma sencilla: Birme
8. Notebooks de Google Colab que puedes usar gratis
-
Stable Diffsuion WebUI para generar imágenes: TheLastBen
-
Está semana(01/10/2022) han mejorado Dreambooth para entrenar más rápido y con menos recursos y con WebUI: https://colab.research.google.com/github/TheLastBen/fast-stable-diffusion/blob/main/fast-DreamBooth.ipynb
-
Google Colab oficial de Stable Difussion: https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb
-
Google Colab con Otra WebUI parecida a Dream Studio: https://colab.research.google.com/github/altryne/sd-webui-colab/blob/main/Stable_Diffusion_WebUi_Altryne.ipynb
9. Ayudas para generar buenos prompts
-
Web para inspiración de imágenes y prompts: https://lexica.art/
-
Otra web para inspiración de imágenes y prompts: https://www.krea.ai/
-
Generador automático de prompts a partir de una idea: https://promptomania.com/stable-diffusion-prompt-builder/
-
Ver estilos de artistas para Stable Diffusion: https://www.urania.ai/top-sd-artists
-
Buscar como entiende las palabras/conceptos Stable Diffusion: https://haveibeentrained.com
-
Dataset con el que se ha entrenado Stable Diffusion https://laion.ai/blog/laion-5b/
-
Img2Prompts: Para generar prompts a partir de imágenes. https://replicate.com/methexis-inc/img2prompt
-
Crear prompts paso a paso: https://phraser.tech/landing
-
Guía para crear buenos prompts: https://docs.google.com/document/d/17VPu3U2qXthOpt2zWczFvf-AH6z37hxUbvEe1rJTsEc/edit
10. ¿Qué es Dreambooth?
-
Técnica para poder reentrenar modelos de difusión con muy pocas imágenes.
-
Código creado por la comunidad: https://github.com/XavierXiao/Dreambooth-Stable-Diffusion
11. Glosario
-
Modelos de difusión: https://developer.nvidia.com/blog/improving-diffusion-models-as-an-alternative-to-gans-part-1/
-
Ejemplo de difusión: Video de DALL-2
- Outpainting: generar nuevas imágenes a partir de otras. Por ejemplo para expandir un cuadro.
- Pulsar el botón Timelapse del ejemplo de OpenAI
- Inpainting: cambiar solo un trozo de una imagen. Por ejemplo poner un sombrero a una persona
12. Métodos de sampling que he probado hasta ahora
-
Euler a: más artísitico
-
Euler: más realista
-
LMS: Falla con cosas realistas
-
Heun: colores más estridentes
-
DPM Fast: Muy loco