Fooocus AI probó la generación de imágenes AI nunca ha sido tan fácil!

Usted probablemente sabe esto: Escuchas sobre todos estos geniales generadores de imágenes de IA, quieres probarlo, y luego..?

Luego pasas tres horas instalando la versión correcta de Python, buscas en Google cualquier mensaje de error salvaje y tal vez incluso te rindes frustrado al final. En cualquier caso, fue lo mismo conmigo cuando quise probar Stable Diffusion por primera vez.

Pero en algún momento he terminado Fooocus AI Tropezó, y francamente: Me hubiera gustado haber descubierto esto antes. Tomó menos de cinco minutos desde la descarga hasta la primera imagen generada. No es broma. ¿Y los resultados? Tan bueno como las herramientas más complicadas, pero sin toda la frustración.

Déjame mostrarte por qué solo uso Fooocus ahora y por qué esto también podría ser interesante para ti.

¿Qué es Fooocus?

Bien, clasificación corta: Fooocus es básicamente un software de generación de imágenes de IA basado en el mismo modelo SDXL que todas las demás herramientas: Automatic1111, ComfyUI y como se llaman todas. ¿La diferencia? Los desarrolladores se preguntaron: «¿Qué pasaría si simplemente... simplemente lo hiciéramos?»

Realmente se sentaron y dijeron: «Máximo tres clics desde la descarga hasta la primera imagen». ¿Y sabes qué? Lo han hecho. Sin horas de ver tutoriales, sin acrobacias en la línea de comandos, solo comience y comience.

La cosa es algo así como Midjourney, excepto que se ejecuta en su propia computadora y es completamente gratis. Y en comparación con las otras herramientas SDXL, Fooocus hace automáticamente todo el trabajo técnico molesto que de otro modo tendría que hacer usted mismo.

Instalación: Nunca ha sido tan fácil

Normalmente escribiría una novela sobre los requisitos del sistema ahora, pero honestamente: si has comprado un PC medio actualizado con una tarjeta gráfica Nvidia en los últimos años, probablemente esté funcionando. Incluso con solo 4 GB de VRAM, funciona gracias a algo de magia de Microsoft (intercambio virtual). Lo probé en mi antigua GTX 1660 Ti, funciona bien.

Aquí es cómo empezar

Ten cuidado, te mostraré la instalación ahora, y no vas a creer lo simple que es:

Ir a GitHub lllyasviel/Fooocus (pero tenga cuidado, a veces aparecen sitios web falsos en Google: vaya directamente a GitHub). Descargue la última versión, actualmente este es el 2.5er. Este es un archivo ZIP, por lo que 2-3 GB de tamaño.

Desempaquetarlos en algún lugar: simplemente los arrojé a una carpeta «KI-Kram» en el disco duro. A continuación, vaya a la carpeta y haga doble clic en run.bat. Eso fue. En serio.

Al principio, el programa descarga automáticamente todos los modelos que necesita. Dependiendo de Internet, esto toma unos minutos. Toma un poco de café, y cuando vuelvas, todo estará hecho. El navegador se abre automáticamente con la interfaz Fooocus, generalmente bajo localhost:7865.

Tengo una captura de pantalla aquí... oh no, te puedes imaginar: Hay un gran cuadro de texto en la parte superior y un botón «generar» en la parte inferior. Nada más se necesita al principio.

En serio, esa fue toda la instalación.

Al principio no pensé que pudiera ser tan fácil. Esperé 20 minutos a que sucediera algo complicado. Pero no, eso fue todo. No hay instalación de Python, no hay entornos virtuales, no hay dependencias infierno. Haz doble clic y ya está.

En comparación: Cuando instalé Automatic1111 el año pasado, me senté en él durante dos noches. Primero instaló Python en la versión correcta, luego clonó Git, luego probó algunas versiones de Torch porque algo no funcionaba constantemente. ComfyUI fue aún peor: me rendí en algún momento y me quedé con A1111.

Y luego aparece Fooocus y convierte todo el drama en un proceso de cinco minutos. ¿Por qué otros no lo han hecho así hace mucho tiempo?

Mi primera prueba: "Wow, eso fue rápido"

Bien, así que esta cosa está pasando ahora. Tomé la prueba clásica: «un gato sentado en el alféizar de una ventana» y hace clic en Generar. No más ajustes, solo el prompt.

Quince segundos después, tenía una foto. Y no una foto de mierda, sino una que parecía que había estado jodiendo los ajustes durante horas. El gato parecía realista, la piel tenía detalles, la iluminación era correcta, todo estaba bien.

Pensé que era suerte, así que lo intenté de nuevo. «Un mago anciano en un bosque místico»: una vez más, un mensaje tan genérico como el que se puede encontrar en todas partes como ejemplo. Otros 15 segundos, otro gran resultado. La barba tenía cabello individual, la túnica tenía arrugas y texturas, en el fondo había luciérnagas, que no había mencionado explícitamente.

La diferencia con otras herramientas: Trabajo automático vs. manual

Aquí es donde se pone interesante, porque ahí es donde Fooocus realmente se destaca de la competencia. Déjame mostrarte lo que suele pasar cuando trabajas con SDXL:

La forma normal (con Automatic1111 o ComfyUI)

Imagina que quieres generar una imagen. Esto es lo que normalmente tienes que hacer:

En primer lugar, tienes que conseguir los modelos correctos. Eso significa que vas a cualquier sitio web como Hugging Face o Civitai, buscas el modelo base SDXL (hay diferentes versiones, ¿cuál fue la mejor otra vez?), descárgalo. Esto es a menudo 6-7 GB por modelo.

Entonces necesitas el modelo Refiner. Este es un modelo adicional que mejora los detalles. Así que de nuevo 6 GB de descarga. Pero espera, ¿a dónde tiene que ir esto ahora? Sí, en la carpeta de modelos, pero ¿en qué subcarpeta? ¿Era eso puestos de control o modelos/difusión estable?

Entonces tienes que ver si necesitas un EAU (no tienes idea de lo que es, pero supuestamente importante). También debe colocarlo en la carpeta correcta. Si olvidas eso, tus fotos se ven divertidas.

Cuando finalmente tienes todo en el lugar correcto, es hora de generar. Pero espera: primero tienes que elegir el modelo adecuado en la interfaz gráfica de usuario. A continuación, active el refinador. A continuación, establezca el paso en el que debe comenzar el refinador. A continuación, elija el método de muestreo. A continuación, establece los pasos. Entonces la Escala de Orientación...

Verás, esto es trabajo. Y si no sabes exactamente lo que estás haciendo, los resultados son a menudo meh. Solía pasar horas dando vueltas alrededor de todos estos parámetros.

El camino Fooocus

Inicie el programa. Entra pronto. Haga clic en Generar. Ya terminé.

En serio, ahora, eso es todo. Pero, ¿qué sucede en el fondo? Fooocus hace exactamente lo que acabo de describir, de forma automática y correcta:

Gestión de modelos: Al principio, Fooocus descarga automáticamente los mejores modelos SDXL. No cualquiera, sino los que funcionan bien. También terminan automáticamente en la carpeta correcta. No tienes que preocuparte por eso.

Integración del refinador: Va a ser técnicamente emocionante aquí, incluso si no tienes que verlo todo. Fooocus tiene un truco: Utilizan el refinador dentro del mismo muestreador que el modelo base. Esto suena como una charla nerd al principio, pero el efecto es real: las imágenes parecen más coherentes porque el refinador puede basarse en la información del modelo base. Con A1111 y ComfyUI, se ejecutan en muestreadores separados, lo que no tiene esta ventaja.

¿Pero sabes qué es lo mejor? No tienes que saber todo esto. Sólo funciona.

Optimización rápida: Esta es mi característica favorita. Fooocus tiene un modelo GPT-2 que se ejecuta internamente (sin idea de por qué están tomando GPT-2, pero no importa) que se expande automáticamente y mejora sus indicaciones.

Escribes «un gato»: Fooocus lo convierte en «un gato fotorrealista con textura detallada, fotografía profesional, alta calidad, enfoque nítido, iluminación natural y profundidad de campo». No tienes que escribirlo tú mismo. El sistema hace esto por usted basado en lo que la experiencia ha demostrado que funciona bien.

Con otras herramientas, usted tiene que poner todo esto en el prompt usted mismo. Solía tener enormes archivos de texto con «buenas indicaciones», que luego siempre copiaba y adaptaba. ¿Con Fooocus? Ya no es necesario.

La superficie: Simple pero no estúpido

Cuando abre Fooocus por primera vez, puede pensar: «Hm, eso parece bastante... vacío.» Eso también es cierto. Arriba hay un cuadro de texto grande para su mensaje, incluido uno para el mensaje negativo (cosas que NO deberían estar en la imagen), y luego hay algunas configuraciones básicas.

Puede elegir la relación de aspecto (1:1 para Instagram, 16:9 para miniaturas de YouTube, etc.), establecer cuántas imágenes generar y elegir entre diferentes ajustes preestablecidos de estilo. Era la primera vez.

Me pareció casi demasiado simple al principio. ¿Dónde están todos los ajustes? Pero entonces me di cuenta: No los necesito. Para 95% Los ajustes básicos son suficientes para mis fotos.

Para los nerds: El modo avanzado también está disponible

Si quieres más control, no hay problema. Hay una pestaña avanzada donde puede configurar todas las cosas técnicas. Modos de rendimiento (calidad, velocidad, velocidad extrema), resoluciones personalizadas, escala de guía, pasos de muestreo, etc.

La diferencia con A1111 es: Estos ajustes son opcionales. El programa funciona muy bien sin ellos. Con A1111, la GUI te volará los oídos en el primer lanzamiento con un centenar de opciones diferentes, y no sabes por dónde empezar. En Fooocus, están ahí cuando los necesitas, pero no son molestos cuando no los necesitas.

Ahora me he dado cuenta de que casi nunca toco la configuración avanzada. La configuración automática es lo suficientemente buena.

GUI vs. línea de comandos: Por qué Fooocus puntúa aquí

¿Alguna vez has intentado trabajar con la línea de comandos? ¿Así que eso es correcto? ¿Con algún comando que tengas que escribir?

Con muchas configuraciones SDXL, no puedes evitarlo. Incluso si la herramienta tiene una GUI, primero debe iniciarla desde la línea de comandos. Y si algo no funciona, dice: «Abra la línea de comandos e introduzca los siguientes comandos...»

Soy desarrollador, puedo manejar la línea de comandos. Pero entiendo totalmente cuando la gente dice: «No, seamos realistas, eso es demasiado complicado para mí». Mi amiga también quería generar imágenes el otro día, y cuando quería explicarle cómo iniciar A1111 («Así que abres la línea de comandos, ve a la carpeta correcta con CD, «activar el entorno virtual con...»), solo puso los ojos en blanco.

¿Con Fooocus? «Solo haz doble clic en run.bat.» Todo el mundo lo entiende. Una pestaña del navegador se abrirá y se abrirá. Sin comandos crípticos, sin «activar venv» o «instalar pip» o lo que sea.

Este es el punto donde Fooocus es mejor no solo para principiantes, sino también para personas que solo quieren generar imágenes sin meterse con cosas de TI.

Estilos: 275 presets prefabricados que realmente marcan la diferencia

Tengo que admitir, cuando vi que Fooocus tiene más de 275 presets de estilo diferentes, pensé: "Oh Dios, no necesito más opciones". Pero luego las probé, y son realmente buenas.

Un estilo no es solo unas pocas palabras rápidas adicionales. Estas son configuraciones completas que también optimizan los parámetros técnicos. Si elige «Cinematic», no solo obtendrá un aspecto cinematográfico, sino que el sistema también ajustará los parámetros de muestreo para obtener el mejor resultado para este estilo.

Algunos ejemplos que me parecieron particularmente geniales:

cinematográfico: Perfecto para cualquier cosa que se parezca a una captura de pantalla de una película. Destellos de lente frescos, iluminación dramática, el programa completo. Tomé algunas fotos para una miniatura de YouTube: parecía muy profesional.

anime: Si te gusta el estilo de anime, ese es el camino a seguir. No hay resultados híbridos extraños, pero sí un aspecto de anime realmente limpio. Mi amigo está haciendo diseños de personajes para su juego indie.

Fotografía: Este es mi estilo por defecto. Parece que alguien tomó fotos con una cámara realmente buena. No es tan artificial como algunas imágenes de IA.

También puedes combinar varios estilos. Cinematic + Fantasy, por ejemplo, te ofrece escenas de fantasía cinematográfica. El sistema es lo suficientemente inteligente como para mezclar los dos estilos con sensatez.

La cosa caliente al respecto: Con otras herramientas, tendrías que crear estos efectos por ti mismo. Pruebe diferentes indicaciones, ajuste los parámetros, tal vez cargue LoRA. En Fooocus, solo tienes que hacer clic en un estilo y funciona.

Ejemplos prácticos: Cómo realmente uso Fooocus

Suficiente teoría, déjame mostrarte cómo uso esto en la vida real:

Contenido para redes sociales

De vez en cuando hago contenido para Instagram y LinkedIn. Solía mirar Unsplash o Pexels para fotos de stock que nunca encajan exactamente. Ahora lo estoy haciendo así:

Creo que lo que necesito, por ejemplo, «espacio de trabajo moderno con ordenador portátil y taza de café, luz de la mañana». Elija el estilo "Fotográfico", establezca la relación de aspecto en 1:1 para Instagram (o 16:9 para LinkedIn) y genere 4-5 variantes. No tomará dos minutos.

Luego elegiré el mejor, tal vez haga alguna gradación de color en Lightroom (no tengo que hacerlo, pero me gusta) y el post está listo. De la idea a la imagen terminada: 10 minutos como máximo.

Esto habría llevado más tiempo con A1111, porque primero tendría que pasar por todos los ajustes. ¿Con Fooocus? Rápidamente, elija el estilo, hecho.

Arte conceptual para un proyecto

El otro día tuve un proyecto en el que quería visualizar diferentes conceptos de habitación. Como «espacio de oficinas futurista con plantas, iluminación natural, diseño minimalista».

Con Fooocus primero generé 20-30 variantes diferentes, solo para ver qué es posible. Puede que me haya costado media hora. Luego elegí los tres mejores y los usé como indicaciones de imagen (más sobre eso) para crear variantes aún más específicas.

Al final, tenía una muy buena colección de conceptos con los que podía seguir trabajando. Si hubiera hecho esto con un diseñador, habríamos terminado con unos pocos miles de euros y varias semanas en términos de costo y tiempo. ¿Con Fooocus? Una tarde y 0 euros.

Ilustraciones para un sitio web / material impreso

Para sitios web y material impreso, necesito imágenes de forma regular. Imágenes de encabezado, ilustraciones para ciertos conceptos, tales cosas. En el pasado, realmente pasé tiempo buscando fotos de stock adecuadas y editándolas.

Ahora solo estoy escribiendo un mensaje basado en el tema del artículo. Por ejemplo, para un artículo sobre productividad: «persona que trabaja centrada en el escritorio, plantas de fondo, iluminación cálida, atmósfera productiva». Estilo «arte digital» o «fotográfico», lo que sea mejor.

Lo mejor: Las fotos son únicas. Nadie más tiene las mismas fotos. No más momentos de «lo he visto en cualquier otro lugar».

Indicación de imagen: De bueno a impresionante

Vale, ahora va a ser genial. Fooocus no solo puede text-to-picture, sino también image-to-picture. Subes una imagen, y Fooocus genera variaciones de ella o la usa como inspiración.

Usé esto el otro día: Tenía una foto de un paisaje, la composición encontró buena, pero el clima era meh. Así que subí la foto y escribí: «misma composición, pero iluminación de la hora dorada con nubes dramáticas». Boom, resultado perfecto.

También puede controlar la influencia de la imagen de referencia. A los 100% se mantiene muy cerca del original, a los 30% toma la única inspiración aproximada. E incluso puede combinar varias imágenes: composición de la imagen 1, estilo de color de la imagen 2, detalles de la imagen 3.

Esto funciona más fácilmente con Fooocus que con la competencia, porque todos los parámetros técnicos ya están preestablecidos con sensatez. En A1111 tendrías que jugar con Denoising Strength, ControlNet y lo que sé. En Fooocus, subes la imagen, y simplemente funciona.

Lo que Fooocus no es

Para ser justos, Fooocus no es la mejor solución para todos. Hay situaciones en las que las otras herramientas se ajustan mejor:

Si realmente quieres controlar todos y cada uno de los aspectos del proceso de generación (cada nodo, cada parámetro, cada paso), estás mejor servido con ComfyUI. Fooocus automatiza mucho, y a veces eso significa menos control.

Si tiene flujos de trabajo personalizados muy especiales con decenas de ControlNets diferentes y procesamiento de varias etapas y qué sé, entonces A1111 o ComfyUI ofrecen más posibilidades.

Y si desea trabajar con Stable Diffusion 1.5 u otros modelos más antiguos (sin idea de por qué, pero a algunas personas les gusta), entonces Fooocus no es óptimo. Esto está realmente recortado a SDXL.

Para 90% El usuario es Fooocus pero la mejor opción. A menos que realmente quieras profundizar y controlar cada parámetro tú mismo.

Rendimiento: ¿También se está ejecutando en mi computadora?

A menudo recibo la pregunta: «¿Es buena mi GPU para esto?» Respuesta corta: Probablemente sí.

Lo he probado en diferentes sistemas:

PC para juegos (RTX 4060TI 16GB + 32GB RAM): Funciona como lubricado. 1024×1024 imágenes en 12-15 segundos. También puede hacer resoluciones más altas con el aumento de escala, no hay problema.

Ordenador portátil viejo (GTX 1660 Ti, 8GB RAM): También funciona. Toma más tiempo, por lo que 25-30 segundos para una imagen, pero funciona. A veces tengo que cambiar al modo «velocidad» en lugar de «calidad», pero los resultados siguen siendo buenos.

Ordenador alternativo (RTX 2070 Super, 8GB VRAM): Funciona sin problemas. Incluso tiene solo 8 GB de RAM, pero la opción Virtual Swap de Microsoft sigue funcionando.

En comparación, Fooocus es incluso un poco más rápido que A1111 con la misma configuración. Probablemente se deba a que el oleoducto está más optimizado. Pero la verdadera ganancia no es la velocidad pura: es el tiempo que NO pasas optimizando la configuración.

Si no funciona: Solución de problemas

Normalmente, Fooocus simplemente corre. Pero a veces hay problemas. Aquí hay algunas cosas que he encontrado:

Errores fuera de memoria: A veces sucede cuando se están ejecutando demasiados otros programas. Solución: Otros programas hambrientos de GPU cierran (Chrome con 50 pestañas, por ejemplo) o activan el «Modo VRAM bajo» en los ajustes. Por lo general ayuda.

La generación toma para siempre: Compruebe primero si el modo «Calidad» con los pasos máximos no está activo inadvertidamente. La «velocidad» o la «velocidad extrema» son perfectamente adecuadas para los ensayos. La ampliación también lleva tiempo: si no la necesitas, se desactiva.

Las fotos se ven divertidas: Sobre todo es en el prompt. Sé más específico. O agregue cosas al mensaje negativo que no desea. «Anatomía borrosa, distorsionada y mala» a menudo ayuda.

El programa no se inicia: Compruebe el firewall o antivirus. A veces bloquean la descarga inicial de los modelos. O el puerto 7865 ya está ocupado, entonces hay que cambiarlo en el archivo de configuración, pero eso nunca fue necesario para mí.

Honestamente, tuve menos problemas con Fooocus que con cualquier otra herramienta en esta área. La mayoría de las cosas simplemente funcionan fuera de la caja.

Actualizaciones y mantenimiento: Se ejecuta por sí mismo

Fooocus se está desarrollando activamente. Cada pocas semanas hay nuevas versiones con correcciones de errores y características. Actualizar es súper fácil:

O simplemente descargas la nueva versión y la descomprimes en una nueva carpeta. Si tienes modelos personalizados, cópialos, listo.

O, si tiene Git en él, vaya a la carpeta Fooocus y haga tirón de git. Aún más fácil.

El desarrollo está en constante progreso. Actualmente la versión 2.5.x está activada, y trae mejoras realmente geniales en la pintura (es decir, la edición de partes de imágenes). Espero con ansias lo que sigue.

Mi conclusión después de un mes de uso intensivo

He estado usando Fooocus aquí y allá desde hace algún tiempo, y honestamente puedo decir: No echo de menos la A1111. No un poco.

Las imágenes son igual de buenas, por supuesto que lo es SDXL. Pero la forma en que hay es mucho más agradable. Abro el programa, escribo un mensaje, y 20 segundos después tengo una buena imagen. Sin ajustes de configuración de media hora, sin solución de problemas, sin frustración.

Para creadores de contenido, diseñadores o simplemente personas que quieren hacer imágenes geniales, Fooocus es perfecto. Te quita la complejidad técnica sin condescenderte. Todavía puedes profundizar si quieres, pero no tienes que hacerlo.

Tres cosas que me gustan más:

En primer lugar,: La instalación. Puedo recomendar cualquier Fooocus sin tener que enviar videos tutoriales por una noche. «Descárgalo, haz doble clic en él, hazlo», todo el mundo lo entiende.

En segundo lugar,: Gestión automática de modelos. Ya no tengo que preocuparme por encontrar, descargar y organizar los modelos correctos. Fooocus hace eso. Y honestamente, eso es un gran ahorro de tiempo.

En tercer lugar,: Consistencia de los resultados. En la A1111 siempre tuve esos días en los que de repente todas las fotos parecían una mierda y no sabía por qué. ¿Con Fooocus? Sólo funciona. Siempre. Los ajustes del coche están tan bien ajustados que puedes confiar en ellos.

¡Así que ahora es tu turno!

Si has leído hasta ahora, ahora sabes más sobre Fooocus que la mayoría de las personas que ya lo usan. ¡Es hora de probarlo usted mismo!

Este es el plan: Vaya a GitHub, busque «lllyasviel/Fooocus«, descargar la última versión (v2.5.5). Descomprima la cosa, haga doble clic en run.bat (o launch.py si está en Linux / Mac), espere unos minutos mientras se cargan los modelos y luego comience.

Comience con algo simple: «un hermoso paisaje» o «un lindo gato»: ya conoces los clásicos. Mira lo que está pasando. Pruebe diferentes estilos. Experimenta con la obtención de imágenes. ¡Diviértete con él!

¡Feliz generación!