A.I. CREATED A MONSTER

Qualche giorno fa, caduta nel loop di scroll infinito dell’explorer di instagram, una foto cattura la mia attenzione, la apro, la guardo per qualche secondo: ritrae un signore anziano seduto su un autobus con in mano ha un mazzo di fiori, l’espressione triste, un flair di luce che entra dal finestrino avvolgendolo. E’ un’immagine bellissima, poetica, tecnicamente perfetta e carica d’emozione. Da fotografa mi chiedo: “Ma come ha fatto?”

Continuo a guardarla quasi estasiata ma il mio “bullshit-detector” si attiva. Qualcosa non quadra. Apro il profilo del fotografo e trovo una serie di immagini una più belle dell’altra: alcuni ritratti, alcune foto di moda, qualche foto ha il marchio di Photo Vogue, hanno tutte un’ qualcosa di etereo, quasi surreale. Quella sensazione di conti che non tornano si intensifica ma non riesco a capire quale sia il problema. Chiudo Instagram e mi dimentico dell’episodio, ma dopo qualche ora quando rientro nel tunnel l’algoritmo mi propone altre foto simili a quelle viste poco prima, ne apro una: ritrae una famiglia, padre madre e figlia dai tratti asiatici con un broncio serissimo, il figlio indossa una maschera simile al volto del padre, l’immagine è un po inquietante, la osservo meglio, più attentamente, e dopo aver notato che le mani delle persone ritratte avevano decisamente più dita del dovuto, capisco: non sono foto! 

Non sono nemmeno dipinti o illustrazioni, non è nemmeno digital art. E’ qualcosa di nuovo—incredibile e terrificante—che esiste da pochissimo e di cui non sapevo niente: l’A.I. TEXT-TO-IMAGE

Da quel momento sono entrata in un rabbit-hole di ricerche e test da cui sono uscita qualche giorno dopo con un quadro abbastanza chiaro e piena di meraviglia e terrore. In questo articolo vi racconto quello che ho imparato su questa nuova tecnologia che potrebbe sconvolgere intere industrie, se non il futuro del pianeta intero. (Ok, un po drammatica forse, ma neanche troppo…mò vi spiego, restate con me fino alla fine e perdonate se sbaglio qualche termine tecnico, I don’t speak tech molto bene.)

AI TEXT-TO-IMAGE, IL FAST FOOD DELL’IMMAGINE

L’AI text-to-image è una tecnologia basata sull’intelligenza artificiale in grado di generare immagini a partire da una descrizione testuale.

Funziona così: si scrive un testo—che si chiama promptche spiega con poche parole quello che si vuole vedere nell’immagine (per esempio io ho fatto delle prove inserendo il testo “donna che indossa sari rosa in skateboard a Tokyo”) e l’A.I. nel giro di pochi secondi genererà un immagine basata sulle parole inserite. Meglio si scrive la descrizione più dettagliata e di qualità sarà l’immagine generata.

Questo si può fare tramite dei programmi—chiamati anche modelli—i più avanzati (ovvero quelli che possono raggiungere i risultati più realistici e sorprendenti, come nelle immagini sopra) sono: DALL-E 2 di OpenAI, Midjourney, e Stable Diffusion. Google ha da poco annunciato la sua versione, Imagen, che però non è ancora disponibile, sta per aprire la fase beta. Ci sono modelli molto meno avanzati e accessibili a chiunque gratuitamente con cui è possibile “giocare”, ma i risultati sono di qualità molto bassa (Canva per esempio ha lanciato da poco una sua versione).

Ho provato a sperimentare usando la versione base di DALL-E, come vedete è un modello limitato (i volti sono spesso distorti)

COME FUNZIONANO I MODELLI A.I.

I modelli vengono “addestrati” ad elaborare milioni—se non miliardi—di immagini con testi associati, queste immagini vengono prese da dei database online (e qui incontriamo il primo problema etico, che vi spiego tra un attimo), gli vengono date in pasto e gli insegnano a riconoscere e rielaborare determinate caratteristiche. Con la conoscenza acquisita l’AI poi riesce a generare una nuova immagine, il tutto in pochi secondi. 

[*Ovviamente sto semplificando, la questione è assai complessa e varia da modello a modello, vi invito ad approfondire leggendo gli articoli che lascherò alla fine dell’articolo, o guardando questo video se parlate inglese.]

Questi modelli sono stati annunciati nel 2021e resi accessibili agli utenti del web solo l’estate dell’anno scorso. Parliamo quindi di una cosa nuovissima e che si sta evolvendo a velocità supersonica (la qualità è migliorata drasticamente da luglio a oggi). Considerando che siamo solo all’inizio dello sviluppo di questa tecnologia rivoluzionaria (e credo proprio che sia qui per restare) è impossibile non vederne il potenziale creativo: chiunque (artista o meno) tramite l’AI text to image, in una manciata di secondi, può generare (e non uso volutamente la parola creare) dal nulla dipinti, illustrazioni, immagini talmente realistiche da sembrare fotografie professionali (foto di persone e posti mai esistiti, o eventi mai accaduti). 

Insomma è una nuova forma d’arte, sicuramente incredibile e tutta da esplorare, che da un lato apre un mondo di nuove e infinite possibilità creative, ma dall’altro è inquietantemente terrificante.

Come tutte le cose potenti, anche questa porta con se una serie di aspetti negativi, preoccupanti e potenzialmente rischiosi per il benessere individuale e collettivo. , sotto diversi aspetti.

Il famoso fotografo di matrimoni Jonas Petrson da qualche mese ha aperto un profilo dedicato alle sue sperimentazioni con l’AI text-to-image. La serie “Youth is wasted on the young” è, a mio parere, poesia visiva.

THE ETHICAL DILEMMA

L’introduzione di questa tecnologia ha aperto un dibattito su dilemmi etici e pratici, sopratutto tra gli artisti (il cui lavoro verrà direttamente impattato da questa nuova tecnologia), è un dibattito interessante su cui anch’io mi sto scervellando da qualche giorno. Ci sono diversi punti da prendere in considerazione, analizziamoli insieme uno ad uno:

  • COPYRIGHT  

Da dove vengono le immagini che servono ad allenare i modelli AI? Facendosi questa domanda incappiamo nella prima falla etica: nessuno ha informazioni precise (le compagnie dietro questi modelli non sono molto trasparenti al riguardo) ma sappiamo che queste immagino vengono prese dal web (anche tramite siti di stock-image, piattaforme di fotografia e arte come 500pixels o Flickr, etc); i modelli quindi funzionano grazie all’acquisizione del lavoro di migliaia di artisti a cui non è stato chiesto il consenso di utilizzo del proprio lavoro e che non verranno ricompensati per tale acquisizione, ne ovviamente gli verranno dati i crediti.

Un altro aspetto da considerare è che questa tecnologia è talmente avanzata che può “imparare” lo stile di un determinato artista per poi replicarlo (quindi plagiarlo), ciò, sul lungo termine, può compromettere il guadagno di tale artista.

Per quanto riguarda il copyright dell’immagine generata invece è ancora tutto molto vago, ad oggi non esiste nessun copyright che protegge le opere generate da AI in quanto non c’è un autore umano (l’autore in fondo è l’AI).

FUN FACT: Getty Images ha fatto causa Stability AI (la compagnia che ha creato Stable Diffusion, uno dei modelli AI text-to-image più avanzati) per aver utilizzato milioni di immagini del suo database.

  • L’IMPATTO SUGLI ARTISTI

Illustratori, fotografi, artisti 3D…siamo tutti nella merda! Uno dei miei doni/maledizioni più grandi è il vederci lungo (da Miss nessuno qual’ero parlavo di dipendenza da social e dei danni che potevano fare alla nostre psiche e alla nostra autostima, anni prima dell’uscita di The Social Dilemma), ma non serve essere Cassandra per capire che questa nuova tecnologia potrebbe avere un impatto se non devastante almeno disturbante per molti artisti indipendenti che lavorano su commissione, attraverso diverse industrie: se chiunque può creare immagini/opere stupende e personalizzate in pochi secondi ,senza troppo sbatti, e a costo zero…beh è ovvio che parecchie cose cambieranno.

Per quanto riguarda la fotografia le conseguenze negative potrebbero essere tante, se invece di cercare fotografie reali chiunque può costruirsele semplicemente scrivendo un testo. Un fotografo professionista spende migliaia di euro in attrezzatura, anni di pratica e perfezionamento della propria tecnica e del proprio stile, viaggi per andare a fotografare un determinato posto o un determinato “soggetto”; con l’Ai text-to-image invece non c’è bisogno né di attrezzatura, né di soggetti, né di ricerche o spese di viaggio o di produzione, ne di pagare diritti d’autore.

La fotografia commerciale, quella editoriale, ma anche molti altri generi di fotografia così come li conosciamo potrebbero quindi cambiare radicalmente nei prossimi anni. Gli unici generi che si salveranno sono la fotografia di matrimonio (non puoi assumere un’ AI per far foto del tuo matrimonio) e la fotografia documentaristica, che, appunto documentando persone ed eventi reali, non può essere sostituita (non ci si può affidare all’AI per documentare una guerra o un qualsiasi evento reale, nessuna testata o pubblicazione le pubblicherebbe…o almeno si spera). Ciò non vuol dire che non si incontreranno problemi anche su questo fronte (approfondiamo questo punto nel paragrafo “WHAT IS REAL?”)

  • DISONESTÀ DIGITALE

Purtroppo la disonestà scorre da sempre—più, o meno, indisturbata—tra il genere umano, e anche in questo caso ne stiamo già vedendo degli esempi. Recentemente sono stati smascherati (da siti di fotografia come Petapixel) diversi casi di fotografi che spacciavano le loro immagini generate da AI come fotografie da loro scattate (il fotografo della foto del vecchietto sul bus che mi ha fatto iniziare le ricerche su questo tema è uno di quelli, ho oscurato il suo nome perché non mi va nè di fargli pubblicità, nè di esporlo alla ormai troppo comune gogna-social). Questi “fenomeni”, che accumulano followers a vita d’occhio sui social, rispondono pure ai complimenti degli utenti meravigliati con dei grandi “Grazie!”, prendendosi i meriti di tanta—artificiale—bellezza, a volte rispondono con informazioni sull’attrezzatura usata per “lo scatto”, oppure accompagnando le foto con storie sul soggetto inventate di sana pianta o con captions (tipo “Life in Mogadishu") che lasciano subdolamente pensare che la foto sia stata scattata in posti lontani (dove il “fotografo” però non è mai stato).

“Va be, so coglioni”, direte voi; si, sicuramente, ma tutta la questione diventa leggermente preoccupante quando anche piattaforme con un certo tipo di autorevolezza e risonanza iniziano a pubblicare immagini generate da AI spacciandole come fotografie, probabilmente senza l’intenzione di ingannare, ma semplicemente omettendone la natura, et voilà, il danno è fatto!

Recentemente Photo Vogue (una piattaforma nata per la fotografia e poi ampliata ad altre arti visive, incluse quelle digitali) ha più di una volta pubblicato immagini generate da AI text-to-image categorizzandole sotto generi come “documentary”.

Lo ribadisco in caso non fosse chiaro: l’AI text-to-image NON È fotografia.

Queste immagini (generate con AI text-to-image) dello stesso autore sono state categorizzate usando il filtro “documentary” nonostante di documentaristico non abbiano nemmeno un pixel. Grave errore (che contribuisce alla distorsione della realtà) dovuto a una svista degli editor ma anche a un omissione da parte dell’autore.

Per quanto i giochi di ego di certi “fotografi” siano tristi e poco dignitosi, c’è chi invece di “imbrogliare” per pomparsi l’ego o aumentare i followers lo fa per lucro: qualche mese fa, ad esempio, un contest fotografico (con premio in denaro) è stato vinto da una bellissima fotografia: un oceano al tramonto con un surfista che ci sfrecciava in mezzo, una foto apparentemente scattata con un drone. E invece no: la foto non era una foto, era un immagine generata con l’AI text-to-image. Poche ore dopo l’annuncio della vincita gli artefici dell’immagine vincitrice (in realtà il team di uno studio chiamato “Absolutely Ai”) sono usciti allo scoperto confessando e restituendo il denaro vinto; sul loro blog hanno poi spiegato che l’inganno era in realtà un esperimento, volevano provare agli occhi di tutti che la tecnologia AI è arrivata ad una svolta decisiva. Mi sa che ci sono riusciti! 

Ma a questo punto la domanda da porsi veramente qui è: con quali altri inganni dovremo aver a che fare?

  • WHAT IS REAL?

L’aspetto più terrificante di tutta questa questione per me è questo: come e per cosa verrà usata questa tecnologia in futuro?

Al momento ci sono ancora dei limiti a quello che L’AI text-to-image può fare (per esempio l’AI fa molta fatica a riprodurre realisticamente le mani, che spesso risultano avere più dita del dovuto o hanno forme strane) ma non è escluso che in un futuro non troppo remoto questi modelli raggiungano un livello di realismo e perfezione tale da far diventare indistinguibile ciò che è reale da ciò che non lo è.

Capire a cosa credere, capire se quello che vediamo sugli schermi sia vero o falso diventerà quasi impossibile perchè con i progressi che si stanno facendo in campo di manipolazione dei file anche il metadata ormai potrebbe essere cambiato, rendendo impossibile fornire la provenienza del file.

E qui arriva la parte terrificante: con l’AI text to image si possono generare foto rappresentanti qualsiasi tipo di situazione. Nelle mani sbagliate questo potrebbe voler dire ritrovarsi sommersi da immagini che ritraggono persone (reali) in situazioni (false) compromettenti, o che rappresentano fatti mai successi; potrebbero nascere problemi di pornografia non consensuale, o chissà quale tipo di propaganda sintetica, tutto è possibile insomma. Ci aspettano—più probabilmente che no—panorami irriconoscibili nelle prossime decadi. 

Nel giro di qualche anno la stragrande maggioranza delle immagini, dei video e dei testi (perché per chi non se ne fosse ancora accorto, sono già stati fatti passi da gigante pure sul fronte scrittura generata da AI) con cui verremo in contatto online potrebbero essere generati da AI, e sarà sempre più difficile capire cosa è stato creato da un essere umano e cosa da un intelligenza artificiale.

Stiamo già iniziando a vedere video deep-fakes iper-realistici, abbiamo visto con le elezioni americane del 2016 quanto la tecnologia possa influenzare la realtà in modi inaspettati, fake news e conspiracy-theory intossicano continuamente il tessuto sociale…il futuro distopico che in molti temono o idealizzano è già qui da un po’, questa ne è solo l’ennesima frontiera, e ha tutto il potenziale di destabilizzarci collettivamente, distorcendo ulteriormente la nostra percezione della realtà.

Come avrete capito ci sono parecchi campanelli d’allarme, ma come sempre non è la tecnologia in sé ad essere pericolosa, siamo noi con l’uso che ne facciamo.

Come prevenire scenari disastrosi quindi?

REGULATE THE SHIT OUT OF A.I.

A questo punto credo sia abbastanza urgente prendere delle precauzioni o meglio creare delle regolamentazioni per evitare disastri più avanti; in realtà servirebbero regolamentazioni su tanti altri fronti che riguardano la tecnologia e l’utilizzo che ne facciamo,  sia per proteggere l’estrazione dei nostri dati, sia per proteggere la nostra salute mentale (vi immaginate se anche solo un giorno a settimana i social non funzionassero PER NESSUNO? Quanto cazzo ci farebbe bene? Ma non succederà mai, perché per chi può prendere questo tipo di provvedimenti—Big Tech e politici—il Dio Profitto sarà sempre più importante del bene comune…ops, sto andando fuori tema, torniamo a noi.)

Siccome il buon senso è merce rara di questi tempi, credo sia necessario rendere la trasparenza sull’utilizzo dell’AI una questione legale. Bisognerebbe sempre dichiarare in modo esplicito e molto visibile (usando un marchio ad esempio) se un immagine sia stata generate da un’AI. Altrimenti dovremmo affidarci all’onestà di chi sta dietro le immagini, e non mi sembra una strategia vincente.

In un articolo del Nel York Times dove venivano illustrate le problematiche legate al progresso dell’intelligenza artificiale in vari ambiti, secondo il giornalista, per vivere un mondo digitalmente più sicuro per tutti le big tech—che stanno investendo miliardi di dollari nello sviluppo di intelligenze artificiali—dovrebbero diventare molto più trasparenti sul funzionamento di certe tecnologie e sui rischi che comportano, i politici dovrebbero capire questi rischi e mettersi al passo coi tempi (quindi auguri!), e I media d’informazione dovrebbero fare un lavoro migliore nello spiegare il tutto a chi—come me—non se ne intende. Temo che siamo ad anni luce dal raggiungere tutto questo.

Tirando le somme, l’AI text-to-image ha sicuramente un potenziale creativo immenso, ne riconosco la bellezza e l’artisticità; potrebbe essere una cosa positiva come potrebbe diventare una tragedia collettiva. In un mondo dove la linea tra online e offline, fisico e digitale, reale e non reale, diventa sempre più sfuocata, mi preoccupa constatare quanto molti di noi si stanno allontanando sempre di più dal mondo fisico dove servono le mani per fare le cose, dove servono gli scambi umani—nel senso più profondo del termine—per sentirsi connessi l’uno all’altra, dove serve tempo per ottenere risultati che nutrano l’essere nel profondo. Sono cintura nera di seghe mentali e etiche, quindi il mio ago della bilancia spinge più verso la tragedia collettiva, ma spero con tutto il cuore di sbagliarmi.

Esco da questo rabbit-hole di ricerche con molte più domande che risposte: 

Se tutti possono creare immagini a raffica e in tempo record, che valore avrà tutto questo? 

Gli artisti che lavorano nelle arti visive—che già sono poco tutelati—hanno speranza di sopravvivere a questo ennesimo sconvolgimento di mercato o verranno fottuti e fagocitati da questo nuovo mostro?

Quanta ulteriore distorsione della realtà vivremo?

Questa nuova tecnologia è una svolta che permetterà a molte persone di avvicinarsi alla creatività e all’arte, o è l’ennesima frontiera della gratificazione istantanea, sintomo di una società sempre più pigra e egotica che vuole tutto e subito, ma senza fare il lavoro—e la fatica—che ci vogliono per creare qualcosa di valido, prendendosi però i meriti che spettano a un artista?

Lascio che ognuno di voi trovi le sue risposte. Mi piacerebbe leggerne alcune.

Mi trovate su telegram e a breve pubblicherò un reel su instagram con un mini riassunto di questo articolo, facile da far girare. Come sempre, condividete questo articolo dove volete, fate girare e spammate tutto ai quattro venti!

VVB 💛