La intel·ligència artificial s’ha convertit en un narrador global. El problema és que aquest narrador parla, sobretot, en anglès. I quan parla en anglès, què passa amb les nostres llengües, les nostres empreses i la nostra cultura?
La intel·ligència artificial ja no és només una eina per redactar correus o resumir informes. A poc a poc, s’ha convertit en un filtre del coneixement, de l’art i de la memòria col·lectiva. La pregunta és inevitable: qui parla quan parla la IA? Quina mirada del món ens retorna? La resposta incomoda: avui la IA pensa -i ens fa pensar- en anglès. I això té conseqüències molt reals.
Els grans models de llenguatge s’entrenen amb quantitats ingents de textos que circulen per internet. Meta va reconèixer que LLaMA 2 es va entrenar amb gairebé un 90% de dades en anglès. OpenAI, en el cas de GPT-3 (l’últim model amb xifres transparents), va admetre que més del 92% del seu corpus era en anglès, i amb prou feines un 0,77% en castellà. Amb GPT-4 i GPT-5 no tenim dades oficials, però tot apunta al mateix: l’anglès continua sent la llengua dominant, encara que s’intenti afegir diversitat amb traduccions o dades sintètiques. En altres paraules: el que “sap” la IA ho ha après sobretot de textos nord-americans i britànics. No reflecteix una visió global, sinó una visió globalitzada des de l’anglosaxó.
El que “sap” la IA ho ha après sobretot de textos nord-americans i britànics. No reflecteix una visió global, sinó una visió globalitzada des de l’anglosaxó
Això es nota quan demanem a la IA que ens parli de referents culturals. No avalua el mèrit artístic, sinó la freqüència d’aparició en les dades. Salvador Dalí, amb una hemeroteca de més de 74.000 articles digitalitzats a la Fundació Gala-Salvador Dalí i presència en més de 100 idiomes a la Viquipèdia, pot quedar eclipsat per Georgia O’Keeffe, la seva obra està àmpliament documentada en anglès i ocupa més espai en corpus anglosaxons. La diferència no està en la rellevància cultural, sinó en l’idioma dels textos que alimenten l’algoritme. Dalí està sobradament documentat, però gran part del seu arxiu és en català, castellà o francès, llengües que amb prou feines representen un 10% de l’entrenament. O’Keeffe, en canvi, apareix constantment en fonts nord-americanes, i això la fa més visible per a la IA. Al final, qui no apareix en anglès apareix menys en el relat algorítmic.
El problema s’agreuja en llengües amb poc pes digital. El català, per exemple, representa menys del 0,1% del contingut indexat a internet, davant del 5,6% del castellà i més del 44% de l’anglès, segons la Fundació Rafael del Pino. Això té efectes directes: un estudiant que redacta el seu TFG en català i utilitza una IA generativa obtindrà respostes menys precises, amb errors o limitacions d’estil. Professionals que treballen en català trobaran menys suport automatitzat per redactar, resumir o generar idees. La IA malinterpreta expressions culturals, girs lingüístics i referents locals. Quan la IA no entén la teva llengua, tampoc entén la teva cultura.
La diferència no està en la rellevància cultural, sinó en l’idioma dels textos que alimenten l’algoritme. Dalí està sobradament documentat, però gran part del seu arxiu és en català, castellà o francès
Europa ha intentat marcar una diferència amb lleis com el Reglament General de Protecció de Dades o la recent Llei d’intel·ligència artificial, centrades en l’ètica i la transparència. Però si les eines que fem servir estan entrenades des de Silicon Valley, en anglès i amb marcs culturals aliens, quina sobirania ens queda?
L’alternativa no està només a competir en volum de dades, sinó en construir una IA que respecti la diversitat cultural i lingüística. Iniciatives com el model Aina, per al català, o el model Mistral, en l’àmbit europeu, són senyals que hi ha un altre camí possible.
La conclusió és senzilla i contundent: una cultura que no s’entrena desapareix del relat. La intel·ligència artificial no és neutral: reflecteix exactament el món que li donem a llegir. Si no l’alimentem amb les nostres llengües, els nostres referents i els nostres valors, cada vegada serà més difícil reconèixer-nos-hi. Perquè una tecnologia que no ens representa acaba distorsionant el que som. El futur no es limita a programar-se: també es narra. I ha arribat el moment d’assegurar-nos que les nostres històries estiguin presents en aquesta narració.