La nostra veu de Scarlett Johansson

23 de Maig de 2024

Em confesso superat per l’actualitat de la IA. A la segona meitat del segle passat els cicles es comptaven per dècades. Als períodes de sobre expectatives coneguts com a primaveres els succeïen els inevitables hiverns de la decepció. Entrat el segle XX, el superàvit de dades massives que va portar internet i l’augment de les capacitats computacionals van propiciar una nova primavera basada en l’aprenentatge màquina. Els cicles dels avenços en IA van passar a ser cada cop més curts: de dècades, a lustres i de lustres a anys.

Tot això va canviar el 2017 amb la publicació per part d’investigadors de Google i de la universitat de Toronto del seminal article acadèmic All You Need Is Attention (Tot el que cal és atenció). Els autors hi presenten el model de xarxa neuronal anomenat transformador, que excel·leix en tasques com la traducció automàtica, la generació de text, el resum de documents i la resposta a preguntes. Tots recordem que en un moment determinat Google Translate va millorar notablement; va ser el 2017 quan va començar a fer servir transformadors.

"Els cicles dels avenços en IA van passar a ser cada cop més curts: de dècades, a lustres i de lustres a anys"

També els trobem el model en el nom de l’aplicació més popular de la història: la T final de GPT és la inicial de transformadors, fet que converteix aquest artefacte matemàtic en un fenomen de cultura pop. Perquè si una cosa ha fet OpenAI amb el ChatGPT és convertir la IA en un fenomen de cultura popular. Sense aquesta aproximació no s’entén el que (ens) està passant.

Ve a tomb perquè tots solets han fet que els cicles anuals d’avenços en IA passin de ser anuals a setmanals (diaris, si sou assidus a Huggingface). Tot just parlàvem la setmana passada dels anuncis que OpenAI havia fet: el nou model ChatGPT 4 i les millores en interacció en imatge, vídeo i àudio especialment. Als vídeos de demostració s’hi veuen situacions de conversa quotidiana on ChatGPT via mòbil és un més: dos amics que conversen cadascú amb el seu idioma, ChatGPT que respon preguntes de l’audiència i fins i tot un ChatGPT descrivint l’habitació a un altre ChatGPT en una conversa equiparable a la de dos amics. SPOILER ALERT: recordem sempre que això són vídeos comercials d’OpenAI, ni tan sols sabem si són demos reals, si abans han estat preparades o quantes preses falses hi ha de cada vídeo. El que sí que sabem del cert és que són una tria dels millors exemples de funcionament.

"Si una cosa ha fet OpenAI amb el ChatGPT és convertir la IA en un fenomen de cultura popular"

Si teniu l’aplicació mòbil de ChatGPT i hi heu conversat, ho heu fet encara amb la versió antiga. Tot i ser infinitament més competent que Siri o Alexa —no intel·ligent— les seves capacitats de conversa empal·lideixen si les comparem amb les de les demos: molt més naturals, fluides i expressives, potser massa. Un dels salts qualitatius que hem pogut sentir és el de la simpatia, l’empatia, la suggestió i el sarcasme. És impossible no quedar-te atrapat en una conversa que sembla talment amb una noia real, que té un punt de sensual i que, malgrat que la sentim per primera vegada ens resulta estranyament familiar. De fet, a tothom ens ha recordat l’assistent Samantha de la pel·lícula Her. Per si algú no hi havia arribat solet, Sam Altman, el CEO d’OpenAI, ho titulava el mateix dia del llançament: “her” (sic, no fa servir mai majúscules).

Hem arribat a Her? En demos i a Twitter, sí. Són vídeos ens porten conceptualment a la pel·lícula de Spike Jonze, però hi ha una magdalena de Proust que ho fa més evident i subtil alhora: la veu s’assembla molt a la de l’Scarlett Johansson, l’actriu que posava la veu a la Samantha de Her. Consideracions sexistes a banda (els assistents sempre tenen veu de dona) l’associació amb la pel·lícula ha arribat a tothom, Scarlett Johansson inclosa. De fet, ja li havia arribat quan amics i parents li van enviar enregistraments de converses amb Sky quan OpenAI va publicar l’app de ChatGPT el 18 de maig del 2023.

"No deixa de ser paradoxal que la veu d’un assistent d’IA sigui la veu de milions d’intel·ligències naturals"

Sota la pressió mediàtica de l’afer, OpenAI va decidir dilluns passat, retirar la veu Sky del seu catàleg adduint que tot havia estat una mala interpretació, que no hi havia hagut cap intenció d’imitar la veu de Johansson, que havia sortit d’un càsting de 400 amb actors reals dels quals se’n van seleccionar 5. Malgrat això pugui ser cert, no nega el fet que busquessin una imitadora de Johansson per connectar-nos proustianament amb l’escenari de Her. Ho sabem del cert perquè li va dir a Johanssson el mateix Altman.

Un parell d’hores després de la decisió d’OpenAI de retirar la veu en qüestió, Scarlett Johansson va fer arribar un comunicat a l’NPR explicant la seva versió. Resulta que al setembre Sam Altman li havia fet una oferta per posar la veu a la nova versió de ChatGPT 4. Li va dir que creia que “donant veu al sistema, podria establir un pont entre les empreses tecnològiques i els creatius i ajudar els consumidors a sentir-se còmodes amb el canvi sísmic relacionat amb els humans i la IA. Va dir que pensava que la meva veu seria reconfortant per a la gent”. Ho signaria el mateix Proust.

Johansson explica que després de considerar-ho, va declinar. Malgrat tot, dos dies abans de la publicació de ChatGPT 4, Altman es va posar en contacte amb l’agent de l’actriu demanant-li que reconsiderés la seva postura. Encara no havia donat cap resposta quan al cap de dos dies sortia el ChatGPT 4 amb la veu Sky, una imitació de la Samantha de Her. El final de la nota és especialment interessant. Diu que “en un moment en què tots estem lluitant amb deepfakes i la protecció de la nostra pròpia imatge, la nostra pròpia obra, les nostres pròpies identitats, crec que aquestes són qüestions que mereixen una claredat absoluta. Espero amb ganes una resolució en forma de transparència i l’aprovació de la legislació adequada per ajudar a garantir que els drets individuals siguin protegits.”

"Spike Jones hagués contractat mai Scarlett Johansson si hagués pogut generar la seva veu de franc? Potser sí, per ser qui és, però i si hagués estat un director novell?"

El cas és més important del que sembla. Els models de transformadors són extremadament eficaços a l’hora de generar continguts, però per a fer-ho els calen grans volums de dades que sovint estan protegides per drets d'autor, fet que planteja greus problemes ètics. Si ho portem a l’extrem, a la curta, aquests sistemes poden comportar la despossessió del treball de milions de persones i concentrar-ne els beneficis en mans de molt pocs. Spike Jones hagués contractat mai Scarlett Johansson si hagués pogut generar la seva veu de franc? Potser sí, per ser qui és, però i si hagués estat un director novell? O una actriu desconeguda? El doblatge és una porta d’entrada a les arts escèniques, on aprendran els aprenents d’actors? Transporteu-ho a tots els oficis on el mestratge i l’aprenentatge són fonamentals, és a dir, tots.

No deixa de ser paradoxal que la veu d’un assistent d’IA sigui la veu de milions d’intel·ligències naturals.