Quan el Gólem dirigeix l’audiovisual

21 d'Abril de 2025

Diu la llegenda jueva que un rabí de Praga va crear un ésser de fang, el Gólem, per protegir la comunitat. El va dotar de força, obediència i una missió clara. Però es va oblidar d’una cosa: posar-hi límits. I el Gólem, com tot algoritme mal dissenyat, va acabar convertint-se en una amenaça.

Avui en dia aquest Gólem treballa als estudis de postproducció d’una gran productora audiovisual. No dorm, no cobra, i pot doblar una pel·lícula a 27 idiomes en tres minuts. Afegeix pluja a una escena rodada durant la sequera, crea figurants digitals sense que ningú se n’adoni, o simula els moviments i la veu d’un actor que ja no pot enregistrar més diàlegs. Tot molt impressionant, fins que descobreixes que el Gólem ha après a còpia d'agafar coses d’altres actors sense permís. I ha decidit que, per casualitat, tots tenen uns trets una mica asiàtics o caucàsics, segons d’on sigui el seu amo.

Les eines d’IA generativa han irromput al sector audiovisual com un exèrcit de Gólems eficients. No n’hi ha pocs, són una legió: OpenAI, Gemini, Adobe, Runway, Luma, ElevenLabs, i un llarg etcètera. I sí, les possibilitats creatives són infinites. Si abans rodaves una localització en un matí, ara tens totes les localitzacions inimaginables a cop de clic i amb força avantatges: reducció de costos, escenes impossibles, adaptacions automàtiques per a diferents mercats, accessibilitat millorada amb subtítols i doblatges en temps real... La teva creativitat és el límit. Però tot s’hi val?

Doncs… depèn. És una caixa negra i hem de poder-la obrir i remenar.

"Les eines d’IA generativa han irromput al sector audiovisual com un exèrcit de Gólems eficients"

El primer punt de la caixa és l’origen de les dades. Si entrenem models amb materials protegits amb drets d’autor, o sense el consentiment explícit de les persones que hi apareixen, estem creant una bomba ètica, independentment de la seva legalitat. I això no és ciència-ficció: les demandes de guionistes, actors, i creadors de contingut han crescut exponencialment. Volen garantir que no se’ls esborri de la cadena de valor, i que són imprescindibles pel funcionament del sector cultural. Per alguns professionals, aquest és l’últim clau d’un taüt que feia molt de temps que els perseguia.

Un actor de doblatge que havia clonat la seva veu i la venia a través d’una plataforma per usar-se, confessava que cobrava més del que rebia de royalties d'ElevenLabs, que fent feina d’actor de doblatge de carn i ossos en un estudi. Clar, la feina se li ha multiplicat, i ara ja no només parla la seva llengua, sinó que ho fa en totes les del món de manera simultània.

H&M ha clonat a 30 de les seves models per produir el material que necessita. Elles cobren, però treballen incansablement. No envelleixen, no s’engreixen, no es cansen, no es queixen.

El segon punt de la caixa negra és la seguretat. Quan pugem vídeos a plataformes per fer-ne tractaments amb IA, estem entregant materials sovint confidencials (campanyes no publicades, preestrenes, pilots...). Cal revisar els termes d’ús i exigir entorns de processament privats, i segurs. Que no tot acabi, ves per on, entrenant el Gólem de la competència.

"Quan pugem vídeos a plataformes per fer-ne tractaments amb IA, estem entregant materials sovint confidencials"

Mireu què ha passat amb Hayao Miyazaki de l’estudi Ghibli, que ell no va donar cap material per entrenar, però que, casualment, ChatGPT sap imitar-li l’estil (però no l’ànima, val a dir).

Ja sabeu on van totes les coses que pengeu en aquestes eines? Adobe va anunciar fa uns mesos que tot allò que féssiu amb les seves eines podia ser utilitzat per entrenar els seus algoritmes. L’enrenou va ser tal que l’empresa va haver de sortir al pas i assegurar que mai havia fet servir contingut dels usuaris per entrenar IA generativa, i que els nous termes de servei ho deixaven clar. Però si el problema s’ha de desmentir és que, com a mínim, la sospita era raonable. I això ja és prou greu. La ironia? Tu pagues la subscripció, ells es mengen les teves pors creatives i encara t’has de donar les gràcies. A casa meva això té un nom…

I finalment, el tercer punt de la caixa, i un dels més difícils de veure: els biaixos. Si el teu model ha après a fer càstings basant-se en el cinema nord-americà dels anys 90, és probable que el resultat sigui una repetició inconscient dels mateixos estereotips. La IA no és creativa: només replica patrons. Un lloret que crida “visca el Barça” perquè l’alimentis de pipes.

"Si el teu model ha après a fer càstings basant-se en el cinema nord-americà dels anys 90, és probable que el resultat sigui una repetició inconscient dels mateixos estereotips"

Un exemple clar d'aquests biaixos es va evidenciar en un estudi de la Queen Mary University, que va revelar que els models d'IA entrenats amb dades de la indústria cinematogràfica mostraven biaixos de gènere significatius entre actors i actrius. Això subratlla com la IA pot perpetuar les desigualtats existents si s'entrena amb dades històricament esbiaixades. I no ho són gairebé totes, d’esbiaixades?

Què podem fer, doncs? Produir amb seny. Aplicar l’ètica professional de sempre al nou context tecnològic. Documentar processos, auditar models, exigir transparència a proveïdors tecnològics, companys, eines, processos, i formar equips humans que entenguin tant el llenguatge audiovisual com el computacional. Perquè si deixem que la IA decideixi qui surt a càmera, què es diu, i com es diu, no ens caldran professionals creatius amb mirades entrenades per la comunicació. Només necessitarem un bon magatzem de dades al núvol, una estètica de stock casposa i un públic que no pregunti massa. I això no és futur distòpic, és un PowerPoint fet per algú que no ha tocat una càmera en sa vida.