Probabilmente sapete questo: Hai sentito parlare di tutti questi fantastici generatori di immagini AI, vuoi provarlo e poi...?
Quindi passi tre ore a installare la versione corretta di Python, a cercare su Google eventuali messaggi di errore selvaggio e forse anche a rinunciare alla frustrazione alla fine. In ogni caso, è stato lo stesso con me quando ho voluto provare per la prima volta Stable Diffusion.
Ma ad un certo punto sono finito Fooocus AI Inciampato, e francamente: Avrei voluto scoprirlo prima. Ci sono voluti meno di cinque minuti dal download alla prima immagine generata. Non scherzo. E i risultati? Buono come gli strumenti più complicati, ma senza tutta la frustrazione.
Lascia che ti mostri perché uso solo Fooocus ora e perché questo potrebbe essere interessante anche per te.
Che cosa è Fooocus?
Ok, breve classificazione: Fooocus è fondamentalmente un software di generazione di immagini AI basato sullo stesso modello SDXL di tutti gli altri strumenti – Automatic1111, ComfyUI e come sono tutti chiamati. La differenza? Gli sviluppatori si sono chiesti: "E se... l'avessimo appena fatto?"
Si sedettero davvero e dissero: "Massimo tre clic dal download alla prima immagine". E sai una cosa? L'hanno fatto. Nessuna ora di guardare i tutorial, nessuna acrobazia da riga di comando, basta iniziare e iniziare.
La cosa è un po 'come Midjourney, tranne che funziona sul proprio computer ed è completamente gratuito. E rispetto agli altri strumenti SDXL, Fooocus fa automaticamente tutto il fastidioso lavoro tecnico che altrimenti dovresti fare da solo.
Installazione: Non è mai stato così facile
Normalmente scriverei un romanzo sui requisiti di sistema ora, ma onestamente: se hai acquistato un PC mezzo aggiornato con una scheda grafica Nvidia negli ultimi anni, probabilmente è in esecuzione. Anche con solo 4GB di VRAM, funziona grazie ad un po' di magia Microsoft (virtual swap). L'ho testato sulla mia vecchia GTX 1660 Ti: funziona bene.
Ecco come iniziare
Attenzione, vi mostrerò l'installazione ora, e non crederete quanto sia semplice:
Vai a GitHub lllyasviel/Fooocus (ma attenzione, a volte su Google appaiono siti web falsi: vai direttamente su GitHub). Scarica l'ultima versione, attualmente questo è il 2.5er. Questo è un file ZIP, quindi 2-3 GB di dimensioni.
Disimballali da qualche parte: li ho appena gettati in una cartella "KI-Kram" sul disco rigido. Quindi vai alla cartella e fai doppio clic su run.bat. E' stato cosi'. Sul serio.
Al primo avvio, il programma scarica automaticamente tutti i modelli di cui ha bisogno. A seconda di Internet, questo richiede alcuni minuti. Prendi un caffe' e quando torni, e' tutto finito. Il browser si apre automaticamente con l'interfaccia Fooocus, di solito sotto localhost:7865.
Ho uno screenshot qui... oh no, potete immaginare: C'è una grande casella di testo in alto e un pulsante "genera" in basso. All'inizio non c'è bisogno di altro.
Seriamente, quella era l'intera installazione.
All'inizio non pensavo potesse essere così facile. Ho aspettato 20 minuti che succedesse qualcosa di complicato. Ma no, quello era tutto. Nessuna installazione Python, nessun ambiente virtuale, nessuna dipendenza inferno. Basta fare doppio clic e il gioco è fatto.
In confronto: Quando ho installato Automatic1111 l'anno scorso, mi sono seduto su di esso per due serate. Prima ha installato Python nella versione corretta, poi ha clonato Git, poi ha provato alcune versioni Torch perché qualcosa non funzionava costantemente. La ComfyUI era ancora peggio: ad un certo punto mi sono arreso e sono rimasto con l'A1111.
E poi arriva Fooocus e trasforma l'intero dramma in un processo di cinque minuti. Perché gli altri non l'hanno fatto così tanto tempo fa?
Il mio primo test: "Wow, è stato veloce"
Ok, questa cosa sta succedendo ora. Ho fatto il classico test: "un gatto seduto su un davanzale della finestra" e cliccato su Genera. Niente più impostazioni, solo il prompt.
Quindici secondi dopo, avevo una foto. E non una foto di merda, ma una che sembrava che mi fossi scopato le impostazioni per ore. Il gatto sembrava realistico, la pelliccia aveva dettagli, l'illuminazione era corretta: tutto andava bene.
Ho pensato che fosse fortunato, così ho provato di nuovo. "Un mago anziano in una foresta mistica" – ancora una volta un suggerimento generico come si può trovare ovunque a titolo di esempio. Altri 15 secondi, un altro grande risultato. La barba aveva i capelli singoli, la veste aveva rughe e texture, sullo sfondo c'erano le lucciole, che non avevo menzionato esplicitamente.
La differenza rispetto ad altri strumenti: Lavoro automatico vs. manuale
È qui che diventa interessante, perché è lì che Fooocus si distingue davvero dalla concorrenza. Lascia che ti mostri cosa succede di solito quando lavori con SDXL:
Il modo normale (con Automatic1111 o ComfyUI)
Immaginate di voler generare un'immagine. Ecco cosa devi fare di solito:
Prima di tutto, è necessario ottenere i modelli giusti. Ciò significa che vai su qualsiasi sito web come Hugging Face o Civitai, cerca il modello di base SDXL (ci sono diverse versioni, quale è stata di nuovo la migliore?), scaricalo. Questo è spesso 6-7 GB per modello.
Quindi hai bisogno del modello Refiner. Questo è un modello aggiuntivo che migliora i dettagli. Quindi di nuovo 6 GB di download. Ma aspetta, dove deve andare adesso? Sì, nella cartella modelli, ma in quale sottocartella? Era quello punti di controllo oppure modelli/diffusione stabile?
Quindi devi vedere se hai bisogno di un EAU (non hai idea di cosa sia, ma presumibilmente importante). Devi anche metterlo nella cartella giusta. Se te lo dimentichi, le tue foto sembrano divertenti.
Quando finalmente hai tutto nel posto giusto, è il momento di generare. Ma aspetta: prima devi scegliere il modello giusto nella GUI. Quindi attivare il raffinatore. Quindi impostare il passo in cui il raffinatore dovrebbe iniziare. Quindi scegliere il metodo di campionamento. Quindi imposta i passaggi. Poi la scala di orientamento...
Vedi, questo e' lavoro. E se non sai esattamente cosa stai facendo, i risultati sono spesso meh. Passavo ore a girare intorno a tutti questi parametri.
Il sentiero Fooocus
Avvia il programma. Entra subito. Clicca su Genera. Ho finito.
Davvero, ora, tutto qui. Ma cosa succede sullo sfondo? Fooocus fa esattamente ciò che ho appena descritto, in modo automatico e corretto:
Gestione del modello: Al primo avvio, Fooocus scarica automaticamente i migliori modelli SDXL. Non tutti, ma quelli che funzionano bene. Inoltre, finiscono automaticamente nella cartella giusta. Non devi preoccuparti.
Integrazione dei raffinatori: Sarà tecnicamente eccitante qui, anche se non devi vedere tutto. Fooocus ha un trucco: Usano il raffinatore all'interno dello stesso campionatore del modello base. All'inizio sembra un discorso da nerd, ma l'effetto è reale: le immagini appaiono più coerenti perché il raffinatore può basarsi sulle informazioni del modello di base. Con A1111 e ComfyUI, funzionano in campionatori separati, il che non ha questo vantaggio.
Ma sai cosa è meglio? Non devi sapere tutto questo. Funziona e basta.
Ottimizzazione rapida: Questa è la mia caratteristica preferita. Fooocus ha un modello GPT-2 in esecuzione internamente (non so perché stanno prendendo GPT-2, ma non importa) che si espande automaticamente e migliora le vostre richieste.
Scrivi "un gatto" - Fooocus lo trasforma in "un gatto fotorealistico con texture dettagliata, fotografia professionale, alta qualità, messa a fuoco nitida, illuminazione naturale, profondità di campo". Non devi scriverlo da solo. Il sistema fa questo per te in base a ciò che l'esperienza ha dimostrato funzionare bene.
Con altri strumenti, devi mettere tutto questo nel prompt da solo. Avevo enormi file di testo con "buoni suggerimenti", che poi ho sempre copiato e adattato. Con Fooocus? Non è più necessario.
La superficie: Semplice ma non stupido
Quando apri Fooocus per la prima volta, potresti pensare: "Hm, sembra piuttosto... vuoto." È anche vero. Sopra c'è una grande casella di testo per il prompt, inclusa una per il prompt negativo (cose che NON dovrebbero essere nell'immagine), e poi ci sono alcune impostazioni di base.
Puoi scegliere le proporzioni (1:1 per Instagram, 16:9 per le miniature di YouTube, ecc.), impostare il numero di immagini da generare e scegliere tra diversi predefiniti di stile. Era la prima volta.
All'inizio l'ho trovato quasi troppo semplice. Dove sono tutte le impostazioni? Ma poi ho capito: Non mi servono. Per 95% Le impostazioni di base sono sufficienti per le mie foto.
Per i nerd: È disponibile anche la modalità avanzata
Se vuoi più controllo, nessun problema. C'è una scheda avanzata dove è possibile impostare tutte le cose tecniche. Modalità di prestazione (qualità, velocità, velocità estrema), risoluzioni personalizzate, scala di orientamento, passaggi di campionamento e così via.
La differenza con A1111 è: Queste impostazioni sono facoltative. Il programma funziona benissimo senza di loro. Con A1111, la GUI ti farà saltare le orecchie al primo lancio con un centinaio di opzioni diverse e non sai da dove iniziare. A Fooocus, sono lì quando ne hai bisogno, ma non sono fastidiosi quando non ne hai bisogno.
Ora mi sono reso conto che non tocco quasi mai le impostazioni avanzate. Le impostazioni automatiche sono abbastanza buone.
GUI vs. riga di comando: Perché Fooocus segna qui
Hai mai provato a lavorare con la riga di comando? Quindi e' vero? Con qualche comando da digitare?
Con molte configurazioni SDXL, non puoi aggirarlo. Anche se lo strumento ha una GUI, è necessario avviarlo prima dalla riga di comando. E se qualcosa non funziona, dice: «Aprire la riga di comando e immettere i seguenti comandi...»
Sono uno sviluppatore, posso gestire la riga di comando. Ma capisco perfettamente quando la gente dice: "No, ammettiamolo, è troppo complicato per me." Anche la mia amica voleva generare immagini l'altro giorno, e quando volevo spiegarle come avviare A1111 ("Quindi, apri la riga di comando, vai nella cartella giusta con cd, "attivare l'ambiente virtuale con..."), ha solo alzato gli occhi al cielo.
Con Fooocus? "Basta fare doppio clic su run.bat." Tutti lo capiscono. Una scheda del browser si aprirà e andrà. Nessun comando criptico, nessun "attiva venv" o "pip install" o altro.
Questo è il punto in cui Fooocus è migliore non solo per i principianti, ma anche per le persone che vogliono solo generare immagini senza incasinare le cose IT.
Stili: 275 preset già pronti che fanno davvero la differenza
Devo ammetterlo, quando ho visto che Fooocus ha oltre 275 preset di stile diversi, ho pensato: "Oh Dio, non ho bisogno di altre opzioni". Ma poi le ho provate, e sono davvero buone.
Uno stile non è solo un paio di parole rapide aggiuntive. Si tratta di configurazioni complete che ottimizzano anche i parametri tecnici. Se si sceglie "Cinematic", non solo si ottiene un aspetto cinematografico, ma il sistema regola anche i parametri di campionamento per ottenere il miglior risultato per questo stile.
Alcuni esempi che ho trovato particolarmente interessanti:
cinematografici: Perfetto per tutto ciò che sembra uno screenshot da un film. Raffreddare i bagliori delle lenti, illuminazione drammatica, il programma completo. Ho scattato alcune foto per una miniatura di YouTube: sembrava davvero professionale.
anime: Se ti piace lo stile anime, questa è la strada da percorrere. Nessun risultato ibrido strano, ma aspetto anime davvero pulito. Il mio amico sta progettando personaggi per il suo gioco indie.
Fotografico: Questo è il mio stile predefinito. Sembra che qualcuno abbia fatto delle foto con un'ottima macchina fotografica. Non così artificiale come alcune immagini AI.
È inoltre possibile combinare diversi stili. Cinematic + Fantasy, ad esempio, ti offre scene fantasy cinematografiche. Il sistema è abbastanza intelligente da mescolare i due stili in modo sensato.
La cosa eccitante su di esso: Con altri strumenti, dovresti creare questi effetti da solo. Provare diversi prompt, regolare i parametri, forse caricare LoRA. A Fooocus, basta fare clic su uno stile e funziona.
Esempi pratici: Come uso davvero Fooocus
Abbastanza teoria, lascia che ti mostri come uso questa cosa nella vita reale:
Contenuti per i Social Media
Di tanto in tanto faccio contenuti per Instagram e LinkedIn. Ho usato per guardare Unsplash o Pexels per le foto stock che non si adattano mai esattamente. Ora lo sto facendo in questo modo:
Penso a ciò di cui ho bisogno, ad esempio "spazio di lavoro moderno con computer portatile e tazzina da caffè, luce del mattino". Scegli lo stile "Fotografico", imposta l'Aspect Ratio su 1:1 per Instagram (o 16:9 per LinkedIn) e genera 4-5 varianti. Non ci vorranno due minuti.
Poi sceglierò il migliore, magari farò qualche color grading in Lightroom (non devo, ma mi piace) e il post è pronto. Dall'idea al quadro finito: 10 minuti max.
Questo avrebbe richiesto più tempo con A1111, perché avrei dovuto passare attraverso tutte le impostazioni prima. Con Fooocus? Rapidamente dentro, scegliere lo stile, fatto.
Arte concettuale per un progetto
L'altro giorno ho avuto un progetto in cui volevo visualizzare diversi concetti di stanza. Come "spazio per uffici futuristico con piante, illuminazione naturale, design minimalista".
Con Fooocus ho generato per la prima volta 20-30 varianti diverse, solo per vedere cosa è possibile. Potrebbe costarmi mezz'ora. Poi ho scelto i migliori tre e li ho usati come prompt delle immagini (più su questo) per creare varianti ancora più specifiche.
Alla fine, avevo una buona collezione di concetti con cui potevo continuare a lavorare. Se l'avessi fatto con un designer, saremmo finiti con qualche migliaio di euro e diverse settimane in termini di costi e tempi. Con Fooocus? Un pomeriggio e 0 Euro.
Illustrazioni per un sito web / materiale stampato
Per siti web e materiale stampato, ho bisogno di immagini su base regolare. Immagini di intestazione, illustrazioni per alcuni concetti, tali cose. In passato, ho davvero trascorso del tempo a trovare foto d'archivio adatte e modificarle.
Ora sto solo scrivendo un prompt basato sull'argomento dell'articolo. Ad esempio, per un articolo sulla produttività: "persona che lavora concentrata alla scrivania, piante sullo sfondo, illuminazione calda, atmosfera produttiva". Stile "arte digitale" o "fotografico", a seconda di quale sia il migliore.
I migliori: Le immagini sono uniche. Nessun altro ha le stesse immagini. Non più "l'ho visto da nessun'altra parte".
Richiedere l'immagine: Dal buono al fantastico
Ok, ora sara' davvero figo. Fooocus può non solo text-to-picture, ma anche image-to-picture. Si carica un'immagine e Fooocus ne genera variazioni o la usa come ispirazione.
L'ho usato l'altro giorno: Aveva una foto di un paesaggio, la composizione ha trovato bene, ma il tempo era meh. Così ho caricato la foto e ho scritto: "stessa composizione, ma illuminazione dell'ora d'oro con nuvole drammatiche". Boom, risultato perfetto.
È inoltre possibile controllare l'influenza dell'immagine di riferimento. A 100 anni% rimane molto vicino all'originale, a 30% prende l'unica ispirazione approssimativa. E puoi anche combinare diverse immagini: composizione dell'immagine 1, stile di colore dell'immagine 2, dettagli dell'immagine 3.
Questo funziona più facilmente con Fooocus che con la concorrenza, perché tutti i parametri tecnici sono già preimpostati in modo sensato. Su A1111 dovresti giocare con Denoising Strength, ControlNet e cosa so. Su Fooocus, carichi l'immagine e funziona.
Quello che Fooocus non è
Per essere onesti, Fooocus non è la soluzione migliore per tutti. Ci sono situazioni in cui gli altri strumenti si adattano meglio:
Se vuoi davvero controllare ogni singolo aspetto del processo di generazione (ogni nodo, ogni parametro, ogni fase), con ComfyUI ti servirà meglio. Fooocus automatizza molto, e a volte questo significa meno controllo.
Se hai flussi di lavoro personalizzati molto speciali con decine di ControlNet diversi e elaborazione multistadio e cosa so, allora A1111 o ComfyUI offrono più possibilità.
E se vuoi lavorare con Stable Diffusion 1.5 o altri modelli più vecchi (non hai idea del perché, ma ad alcune persone piace), Fooocus non è ottimale. Questo è davvero tagliato a SDXL.
Per 90% L'utente è Fooocus ma la scelta migliore. A meno che tu non voglia davvero andare in profondità e controllare ogni parametro da solo.
Prestazioni: Funziona anche sul mio computer?
Spesso ricevo la domanda: "La mia GPU è adatta a questo?" Risposta breve: Probabilmente sì.
L'ho testato su diversi sistemi:
PC da gioco (RTX 4060TI 16GB + 32GB RAM): Funziona come lubrificato. 1024×1024 immagini in 12-15 secondi. Può anche fare risoluzioni più elevate con upscaling, nessun problema.
Vecchio computer portatile (GTX 1660 Ti, 8GB RAM): Funziona anche. Ci vuole più tempo, quindi 25-30 secondi per una foto, ma funziona. A volte devo passare alla modalità "velocità" anziché alla "qualità", ma i risultati sono ancora buoni.
Computer alternativo (RTX 2070 Super, 8GB VRAM): Funziona senza intoppi. Ha anche solo 8 GB di RAM, ma l'opzione Virtual Swap di Microsoft funziona ancora.
In confronto, Fooocus è anche leggermente più veloce di A1111 con le stesse impostazioni. Probabilmente è perché la pipeline è più snella. Ma il vero vantaggio non è la velocità pura: è il tempo che NON si spende per ottimizzare le impostazioni.
Se non funziona: Risoluzione dei problemi
Normalmente, Fooocus semplicemente corre. Ma a volte ci sono problemi. Ecco alcune cose che ho incontrato:
Errori di memoria: A volte succede quando sono in esecuzione troppi altri programmi. Soluzione: Altri programmi affamati di GPU chiudono (Chrome con 50 schede, ad esempio) o attivano la "Modalità VRAM bassa" nelle impostazioni. Di solito aiuta.
La generazione dura per sempre: Verificare innanzitutto se la modalità «Qualità» con max Steps non è inavvertitamente attiva. La "velocità" o la "velocità estrema" sono perfettamente adatte per le prove. Anche l'upscaling richiede tempo: se non ne hai bisogno, si disattiva.
Immagini sembrano divertenti: Per lo più è al momento giusto. Sii più specifico. Oppure aggiungi cose al prompt negativo che non vuoi. "sfocata, distorta, cattiva anatomia" spesso aiuta.
Il programma non si avvia: Controlla firewall o antivirus. A volte bloccano il download iniziale dei modelli. Oppure la porta 7865 è già occupata, quindi è necessario modificarla nel file di configurazione, ma non è mai stato necessario per me.
Onestamente, ho avuto meno problemi con Fooocus che con qualsiasi altro strumento in questo settore. La maggior parte delle cose funzionano fuori dagli schemi.
Aggiornamenti e manutenzione: Funziona da solo
Fooocus è in fase di sviluppo attivo. Ogni poche settimane ci sono nuove versioni con correzioni di bug e funzionalità. L'aggiornamento è semplicissimo:
O si scarica la nuova versione e la si decomprime in una nuova cartella. Se hai modelli personalizzati, copiali, fatto.
Oppure, se hai Git su di esso, vai alla cartella Fooocus e fai git pull. Ancora più facile.
Lo sviluppo è in costante progresso. Attualmente la versione 2.5.x è attiva, e porta miglioramenti davvero interessanti nell'inpainting (cioè l'editing di parti di immagini). Non vedo l'ora di sapere cosa succedera'.
La mia conclusione dopo un mese di uso intensivo
Sto usando Fooocus qua e là da un po 'di tempo, e posso onestamente dire: Non mi manca l'A1111. Non un po'.
Le immagini sono altrettanto buone - ovviamente SDXL lo è. Ma il modo in cui c'è è molto più piacevole. Apro il programma, digito un prompt e 20 secondi dopo ho una buona immagine. Nessuna regolazione delle impostazioni di mezz'ora, nessuna risoluzione dei problemi, nessuna frustrazione.
Per i creatori di contenuti, i designer o semplicemente le persone che vogliono fare foto fantastiche, Fooocus è perfetto. Ti toglie la complessità tecnica senza paternalizzarti. Puoi ancora andare in profondità, se vuoi, ma non è necessario.
Tre cose che mi piacciono di più:
In primo luogo,: L'installazione. Posso consigliare qualsiasi Fooocus senza dover inviare video tutorial per una serata. "Download it, double click it, get it done" (Scaricalo, fai doppio clic su di esso, fallo) - lo capiscono tutti.
In secondo luogo,: Gestione automatica del modello. Non devo più preoccuparmi di trovare, scaricare e organizzare i modelli giusti. Fooocus lo fa. E onestamente, questo è un enorme risparmio di tempo.
In terzo luogo,: Coerenza dei risultati. Su A1111 ho sempre avuto quei giorni in cui improvvisamente tutte le foto sembravano merda e non sapevo perché. Con Fooocus? Funziona e basta. Sempre. Le impostazioni dell'auto sono così ben sintonizzate che puoi fare affidamento su di esse.
Quindi, ora tocca a te!
Se hai letto finora, ora sai di più su Fooocus rispetto alla maggior parte delle persone che già lo usano. E' ora di provarlo da soli!
Ecco il piano: Vai a GitHub, cerca "lllyasviel/Fooocus", scaricare l'ultima versione (v2.5.5). Disimballare la cosa, fare doppio clic su run.bat (o launch.py se si è su Linux / Mac), attendere alcuni minuti mentre i modelli si caricano, e quindi iniziare.
Inizia con qualcosa di semplice: "un bellissimo paesaggio" o "un gatto carino": conosci i classici. Guarda cosa sta succedendo. Prova stili diversi. Sperimenta con il prompt delle immagini. Divertiti con esso!
Generazione felice!