Google: J’accuse

Una colla d’usuaris de Twitter han denunciat aquesta setmana que “Google discrimina el català” a les seves pàgines de resultats. La mateixa setmana que el Departament de Justícia dels EUA ha decidit portar Google als tribunals per pràctiques monopolístiques en l’àmbit de la publicitat en línia. La mateixa en què els serveis de Microsoft al núvol han caigut parant l’activitat de moltes empreses i administracions. Tres conseqüències diferents de la mateixa causa: la concentració de poder de les grans tecnològiques.

J’accuse

Al desembre, estava escrivint sobre l’afer Dreyfuss <spam>per al meu proper llibre, que surt al mes que ve</spam>. En volia recuperar la carta que Émile Zola havia publicat al diari L’Aurore denunciant el cas i vaig cercar “J’accuse” a Google. Tinc el sistema operatiu, el navegador i les preferències de cerca de Google en català. Tinc, a banda, el catalanitzador de Softcatalà que m’ajuda en l’escriptura i el meu historial de navegació és ple de pàgines en la llengua d’Albert Pla. Google va trigar 0,48 segons en ordenar-me per rellevància els 2.320.000 resultats que té amb el terme J’accuse. El primer resultat era de la Viquipèdia en castellà, el segon el de la Viquipèdia en català. La resta eren tot enllaços a contingut en castellà tret de l’extracte de la columna dreta que aquest sí que era en català. I encara més estrany: l’enllaç a l’article en català de Viquipèdia estava indentat, com si depengués de l’article en castellà.

Amb la mosca rere l’orella vaig fer unes quantes proves: amb una sessió d’incògnit, netejant la caché, l’historia de cerca, les galetes, amb VPN i sense, canviant la meva ubicació a Andorra… res. Sempre prioritat als resultats en castellà fins i tot quan eren del tot obvis. Proveu de cercar Manuel de Pedrolo i veureu com l’enllaç a l’article en català surt en segona posició.

Google non solum

Vaig fer el tuit pertinent explicant el què, molts tuitaires s’hi van sumar i d’altres em van explicar que a ells també els passava i que ho havien denunciat a Google. Va ser l’Àlex Hinojo qui va mencionar l’usuari @searchliaison, que és de Google i qui s’ocupa dels temes de cerca. Van dir que s’ho mirarien i van demanar als tuitaires captures de pantalles de cerques on el castellà es prioritzés al català. Jo mateix em vaig trobar cercant una informació del Departament de Cultura i fent clic al primer resultat que era la pàgina oficial de la Generalitat en castellà.

Ara la campanya ha tornat a revifar amb molts tuitaires —anònims i il·lustres— denunciant que el més calent és a l’aigüera. Ignoro si hi ha alguna organització al darrera o és espontània però el fet és que demostra que el tema encara no està resolt. Google ha tornat a respondre, en anglès i en català, que s’ho estan mirant i que ja ens en diran alguna cosa quan ho tinguin. Però podria ser que no hi poguessin fer massa. Al gener, ho investigava l’Albert Cuesta a l’Ara i arribava a la conclusió de que la cosa ve de més amunt. Segons Cuesta pot ser degut a “un canvi en els estàndards de codificació del contingut, i que els cercadors en són només les víctimes en primera instància”. Ho podeu comprovar vosaltres mateixos cercant “Pere Aragonès” a Google, al cercador indie DuckDuckGo o al Bing de Microsoft. En tots els casos el català surt per sota el castellà amb l’afegit que a DuckDuckGo l’anglès és el primer resultat.

Jo acuso

Dit això, no hi ha excuses. La informació pot estar codificada per dalt, etiquetada per baix o bé classificada segons els criteris de l’Emporio celestial de conocimientos benévolos de J.L. Borges. Però això ha de ser transparent per a l’usuari que espera que Google li faci la vida més fàcil i no que l’obligui a prendre decisisions en base a criteris culturals, socials o polítics a cada clic. Perquè estem parlant d’això, de la política de la informació. Els especialistes en màrqueting, i tothom que tingui un negoci, saben que de sortir en una posició o en una altra en una pàgina de resultats en pot dependre el seu futur. Això mateix li pot passar a la llengua catalana o a qualsevol llengua que estigui subordinada a una altra.

Si feu clic a l’article que us proposa Google en primera posició, esteu fent un seguit de petits canvis que agregats són molt poderosos

A la pràctica s’entén més. Si feu clic a l’article que us proposa Google en primera posició —perquè aneu ràpid, perquè ja us està bé o perquè també en castellà sou proficients— esteu fent un seguit de petits canvis que agregats són molt poderosos. Per començar li esteu dient a Google que de dos resultats amb contingut similar us inclineu pel resultat en castellà. L’agregat de tots aquests clics podria fer que el seu algorisme entengués que la versió en català no és prou rellevant per al gruix dels usuaris i eventualment deixar-la de mostrar. Si els resultats són enllaços al web d’una empresa privada amb versió en català i castellà, en fer clic al castellà li esteu sumant una visita que esteu restant de la versió del web en català. Quan els responsables financers analitzin el cost per usuari de mantenir un web en la nostra llengua no els sortiran els números i potser decideixen a partir de llavors no tenir web en català.

La IA aprèn de tu

I no acaba aquí. Una acció aparentment tan innòcua com fer clic en un enllaç o altre té conseqüències també en el futur. Els assistents de veu com Siri, Alexa o Cortana sovint agafen informació de Viquipèdia que llegeixen a l’usuari. Molts altres serveis depenen dels seus continguts per oferir els seus serveis. Un decrement de les visites a les pàgines en català té un impacte negatiu en la seva qualitat: com menys gent llegeixi articles en una llengua, menys probabilitats de trobar-hi errors i corregir-los o de col·laborar-hi amb nou contingut. El procés invers passa amb les pàgines de la Viquipèdia en castellà.

Si heu jugat amb l’omnipresent ChatGPT ja us haureu adonat que entén i respon en català

Si heu jugat amb l’omnipresent ChatGPT ja us haureu adonat que entén i respon en català. Això es deu a que als 43 terabytes de dades amb els que es va entrenar el seu model de llenguatge hi havia una bona representació del català. I no només el ChatGPT.

El bit del Gran Poder

No crec que calguin més exemples per adonar-se que el futur del català, i el de la majoria de llengües i cultures, depenen de les grans tecnològiques. El cas de Google només n’és un exemple però convé tenir-lo present. Es tracta d’un simple i alhora complexe algorisme d’ordenació; literalment unes quantes línies de codi a l’algorisme de Google poden influir en la salut digital d’una llengua amb totes les conseqüències físiques que se’n deriven.

El futur del català, i el de la majoria de llengües i cultures, depenen de les grans tecnològiques

Un darrer exemple el vam tenir ahir amb la caiguda dels serveis al núvol de Microsoft. Empreses, administració, escoles, oenagés i tot tipus de particulars es van trobar sense poder accedir al seu correu, fer conferències per Teams o accedir als seus arxius a OneDrive per culpa “d’una errada en la configuració de la xarxa”. Una altra vegada una línia de codi, que en aquest cas pot tombar l’activitat de milers d’empreses país, en aquest cas via la seva administració.

Què passaria si un estat que tingués els serveis al núvol amb Microsoft, Amazon o Google en vulgués regular la seva activitat? En una negociació qui tindria més poder? Seguirem el cas del Departament de Justícia contra Google per veure si finalment se li aplica la llei anti-monopoli. El 2001 es va aplicar a Microsoft i va haver d’abandonar la seva posició predominant amb el navegador Internet Explorer; hi vam guanyar tots.

Edició de 26 de gener de 2023 a les 11:32: L’Albert Cuesta em fa notar que ja va parlar de la discriminació del català tan aviat com el 20 de setembre del 2022 a la seva secció al Catalunya Nit de Catalunya Ràdio. De passada recomanar-vos que us subscriviu al pòdcast de la secció a la vostra plataforma habitual.

Avui et destaquem
El més llegit