Google: J'accuse

Una grupo de usuarios de Twitter han denunciado esta semana que "Google discrimina el catalán" en sus páginas de resultados. La misma semana que el Departamento de Justicia de EE.UU. ha decidido llevar a Google a los tribunales por prácticas monopolísticas en el ámbito de la publicidad en linea. La misma en la que los servicios de Microsoft en la nube han caído parando la actividad de muchas empresas y administraciones. Tres consecuencias diferentes de la misma causa: la concentración de poder de las grandes tecnológicas.

J'accuse

En diciembre, estaba escribiendo sobre el asunto Dreyfuss <spam>para mi próximo libro, que sale al mes que viene<spam>. Quería recuperar la carta que Émile Zola había publicado en el diario L'Aurore denunciando el caso y busqué "J'accuse" en Google. Tengo el sistema operativo, el navegador y las preferencias de búsqueda de Google en catalán. Tengo, a parte, el catalanitzador de Softcatalà que me ayuda en la escritura y mi historial de navegación está lleno de páginas en la lengua de Albert Pla. Google tardó 0,48 segundos en ordenarme por relevancia los 2.320.000 resultados que tiene con el término J'accuse. El primer resultado era de Wikipedia en castellano, el segundo el de Viquipèdia en catalán. El resto eran todo enlaces a contenido en castellano sacado del extracto de la columna derecha que este sí que era en catalán. Y todavía más extraño: el enlace al artículo en catalán de Viquipèdia estaba indentado, como si dependiera del artículo en castellano.

Con la mosca detrás de la oreja hice unas cuantas pruebas: con una sesión de incógnito, limpiando la memoria caché, el historial de búsqueda, las galletas, con VPN y sin, cambiando mi ubicación a Andorra… nada. Siempre prioridad a los resultados en castellano incluso cuando eran del todo obvios. Probad de buscar Manuel de Pedrolo y veréis cómo el enlace en el artículo en catalán sale en segunda posición.

Google non solum

Hice el tuit pertinente explicando el qué, muchos tuiteros se sumaron y otros me explicaron que a ellos también los pasaba y que lo habían denunciado a Google. Fue Àlex Hinojo quién mencionó al usuario @searchliaison, que es de Google y quien se ocupa de los temas de búsqueda. Dijeron que se lo mirarían y pidieron a los tuiteros capturas de pantallas de búsquedas donde el castellano se priorizara al catalán. Yo mismo me encontré buscando una información del Departamento de Cultura y haciendo clic al primer resultado que era la página oficial de la Generalitat en castellano.

Ahora la campaña ha vuelto a reavivar con muchos tuiteros—anónimos e ilustres— denunciando que el proceso está en ciernes. Ignoro si hay alguna organización detrás o es espontánea pero el hecho es que demuestra que el tema todavía no está resuelto. Google ha vuelto a responder, en inglés y en catalán, que se lo están mirando y que ya nos dirán algo cuando lo tengan. Pero podría ser que no puedan hacer demasiado. En enero, lo investigaba Albert Cuesta en el Ara y llegaba a la conclusión de que la cosa viene de más arriba. Según Cuesta puede ser debido a "un cambio en los estándares de codificación del contenido, y que los buscadores son solo las víctimas en primera instancia". Lo podéis comprobar vosotros mismos buscando "Pere Aragonès" en Google, en el buscador indie DuckDuckGo o en el Bing de Microsoft. En todos los casos el catalán sale por debajo del castellano con el añadido de que en DuckDuckGo el inglés es el primer resultado.

Yo acuso

Dicho esto, no hay excusas. La información puede estar codificada por arriba, etiquetada por abajo o bien clasificada según los criterios del Emporio celestial de conocimientos benévolos de J.L. Borges. Pero esto tiene que ser transparente para el usuario que espera que Google le haga la vida más fácil y no que la obligue a tomar decisisions en base a criterios culturales, sociales o políticos a cada clic. Porque estamos hablando de esto, de la política de la información. Los especialistas en marketing, y todo el mundo que tenga un negocio, saben que de salir en una posición o en otra en una página de resultados puede depender su futuro. Esto mismo le puede pasar a la lengua catalana o a cualquier lengua que esté subordinada a otra.

Si hacéis clic en el artículo que os propone Google en primera posición, estáis haciendo una serie de pequeños cambios que agregados son muy poderosos

En la práctica se entiende mejor. Si hacéis clic al artículo que os propone Google en primera posición —porque vais rápido, porque ya os está bien o porque también en castellano sois proficientes— estáis haciendo una serie de pequeños cambios que agregados son muy poderosos. Para empezar le estáis diciendo a Google que de dos resultados con contenido similar os inclináis por el resultado en castellano. El agregado de todos estos clics podría hacer que su algoritmo entendiera que la versión en catalán no es bastante relevante para el grueso de los usuarios y eventualmente dejarla de mostrar. Si los resultados son enlaces en el web de una empresa privada con versión en catalán y castellano, al hacer clic al castellano le estáis sumando una visita que estáis restando de la versión de la web en catalán. Cuando los responsables financieros analicen el coste por usuario de mantener un web en nuestra lengua no les saldrán los números y quizás deciden a partir de entonces no tener web en catalán.

La IA aprende de tú

Y no acaba aquí. Una acción aparentemente tan inocua como hacer clic en un enlace u otro tiene consecuencias también en el futuro. Los asistentes de voz como Siri, Alexa o Cortana a menudo cogen información de Wikipedia que leen al usuario. Otros muchos servicios dependen de sus contenidos para ofrecer sus servicios. Un descenso de las visitas a las páginas en catalán tiene un impacto negativo en su calidad: cuanto menos gente lea artículos en una lengua, menos probabilidades de encontrar errores y corregirlos o de colaborar con nuevo contenido. El proceso inverso pasa con las páginas de Wikipedia en castellano.

Si habéis jugado con el omnipresente ChatGPT ya os habréis dado cuenta que entiende y responde en catalán

Si habéis jugado con el omnipresente ChatGPT ya os habréis dado cuenta que entiende y responde en catalán. Esto se debe de a que en los 43 terabytes de datos con los que se entrenó su modelo de lenguaje había una buena representación del catalán. Y no solo al ChatGPT.

El bit del Grande Poder

No creo que hagan falta más ejemplos para darse cuenta que el futuro del catalán, y el de la mayoría de lenguas y culturas, dependen de las grandes tecnológicas. El caso de Google solo es un ejemplo pero conviene tenerlo presente. Se trata de un simple y a la vez complejo algoritmo de ordenación; literalmente unas cuántas líneas de código en el algoritmo de Google pueden influir en la salud digital de una lengua con todas las consecuencias físicas que se derivan.

El futuro del catalán, y el de la mayoría de lenguas y culturas, dependen de las grandes tecnológicas

Un último ejemplo lo tuvimos ayer con la caída de los servicios en la nube de Microsoft. Empresas, administración, escuelas, ONG y todo tipos de particulares se encontraron sin poder acceder a su correo, hacer conferencias por Teams o acceder a sus archivos en OneDrive por culpa "de un error en la configuración de la red". Otra vez una línea de código, que en este caso puede tumbar la actividad de miles de empresas de un país, en este caso vía su administración.

¿Qué pasaría si un estado que tuviera los servicios en la nube con Microsoft, Amazon o Google quisiera regular su actividad? ¿En una negociación quien tendría más poder? Seguiremos el caso del Departamento de Justicia contra Google para ver si finalmente se le aplica la ley anti-monopolio. En el 2001 se aplicó a Microsoft y tuvo que abandonar su posición predominante con el navegador Internet Explorer; ganamos todos.

 

Edición de 26 de enero de 2023 a las 11:32: Albert Cuesta me hace llegar que ya había hablado de la discriminación del catalán el 20 de septiembre del 2022 en su sección en el Catalunya Nit de Catalunya Ràdio. De paso recomendaros que os subscribáis al podcast de la sección en vuestra plataforma habitual.

Hoy Destacamos
Lo más leido