Carlos Castillo: "Certes decisions sobre nosaltres són preses per un algoritme"

L'any 2018 la meitat de grans corporacions utilitzaran el Big Data; un fenomen creixent que aquests dies experts com Carlos Castillo analitzen en un congrés a Barcelona

Carlos Castillo, autor del llibre Big Crisi Data i expert en mineria de dades durant catàstrofes naturals

Periodista i consultor a sibilare

04 d'Octubre de 2016 - 02:00

El Big Data és avui més gran que mai. S'utilitza a l'Administració pública, per gestionar milions de dades dels ciutadans; a les grans multinacionals, per analitzar l'impacte de la seva marca; o a petits negocis, que volen comprendre el comportament dels seus clients. Segons Eurecat, Centre Tecnològic de Catalunya, la meitat de les grans corporacions utilitzaran el Big Data en dos anys.

L'ús d'aquesta tecnologia, però, també implica certs riscos. La privacitat de les dades o la discriminació són alguns dels aspectes que preocupen més als experts. El Big Data Congress reuneix aquests dies a Barcelona a més de 40 professionals de diferents àmbits i disciplines per analitzar-ho i examinar el gran potencial d'aquest fenomen. Un dels experts que hi intervenen és Carlos Castillo, director del grup de Data Science d'Eurecat, i autor del llibre Big Crisi Data. Castillo és especialista en mineria de dades i en l'ús d'aquesta tecnologia en situacions d'emergència, així com en el tractament ètic de les dades.

Per què cal fer mineria de dades en situacions d'emergència?
El primer que observem en una situació de crisi és que la gent no està indefensa davant un desastre. Estem acostumats a la idea de Hollywood que quan hi ha una catàstrofe tothom corre en cercles... Però no és així. Normalment les persones són les primeres que reaccionen i tracten d'ajudar-se a si mateixes i als altres. I, moltes vegades, ho fan a les xarxes. També veiem que la gent el que busca és informació. El problema és que els volums d'informació involucrada en situacions d'emergència són molt grans; i amb aquest volum es requereixen eines específiques.

I aquí entra l'anàlisi de dades...
Exacte. L'aplicació més desenvolupada és la de crear mapes durant una crisi d'acord amb missatges a les xarxes socials. Per exemple, tuits que indiquin que hi ha una persona ferida o atrapada. Si considerem individualment aquest tipus de missatges, és difícil extreure'n una conclusió. Per això ens cal agregar tots aquests esdeveniments individuals en una sola anàlisi.

Quines altres aplicacions té el data mining en casos d'emergència?
La mineria de dades ha d'implantar-se al cicle complet d'un desastre. Des de la preparació prèvia (si l'emergència és anunciada, com amb una inundació), fins al moment del desastre i la posterior etapa de recuperació. En aquest sentit, crec que una feina important dels mitjans socials és coordinar la reconstrucció i els donatius. Moltes vegades els desastres n'ocasionen un altre; que és que es reben un munt de coses que la gent no necessita. I llavors cal lidiar amb una allau de sabates que ningú ha demanat; quan el que calia era l'aigua o queviures.

I com poden ajudar les xarxes en aquest sentit?
Doncs trobant aquestes necessitats de la població. També pot ajudar a expandir l'horitzó de qui pot fer una acció. Ningú hauria pensat fa quaranta anys que seria tan fàcil enviar diners al Nepal després d'un terratrèmol i ara es pot fer amb un sol clic. En desastres més llargs, com un desastre econòmic o climàtic, també es pot ajudar amb la difusió.

Fins a quin punt entren aquí dilemes ètics sobre el tracte a aquestes dades?
Jo crec que la tecnologia crea problemes, però també crea moltes solucions. En el cas de la privacitat, hi ha metodologies poder utilitzar les dades sense necessitat de saber-ho tot. Hi ha algoritmes que permeten anonimitzar les dades de manera intel·ligent, lliurant una garantia matemàtica que asseguri que ningú és identificable individualment en les dades.

I qui pren la decisió de fer aquest procés?
Qui té la dada completa té la responsabilitat de custodiar-la i protegir-la contra ciberatacs. Però també ha de transformar les dades a l'hora de lliurar-les a un tercer, de manera que es respecti la privacitat. Pot, per exemple, eliminar els anys concrets de naixement i intercanviar-los per dècades; o canviar els codis postals pels noms de les ciutats. Aquest procés de distorsionar lleugerament les dades garanteix l'anonimat, i permet igualment que, per exemple, un investigador mèdic faci la seva feina.

Hi ha algun tipus de regulació en aquest àmbit?
Per ara el que preval en la indústria és el blanc o negre. O et lliuro totes les dades, o no et lliuro res. I això bloqueja molt. Quan parles amb investigadors biomèdics, et diran que és extremadament difícil accedir a dades, i això és un impediment perquè ells puguin avançar en tractaments de medicina.

Quins altres problemes suposa el tractament de les dades?
Doncs que poden donar lloc a una certa discriminació. Cada vegada més, certes decisions sobre nosaltres són preses parcialment per un algoritme. Per exemple, quan es decideix amb Big Data sobre si un client d'un banc ha de rebre o no un crèdit. O la publicitat a Google. S'ha demostrat que si una usuària busca feina, Google li oferirà treballs més mal pagats que a un home. Això no passa perquè Google estigui fent servir el sexe com a element distintiu, sinó que ho està aproximant usant altres factors. Els algoritmes poden discriminar, independentment que un no els lliuri dades discriminatòries.

Com podem combatre aquesta discriminació?
El més important és que els usuaris finals no es rendeixin. Hi ha gent que ja ha capitulat i ha renunciat al seu dret universal a la privacitat. A més, és important que els algoritmes no prenguin decisions. Només han de ser sistemes que hi donin suport. No pot ser que decisions de polítiques públiques, per exemple, es prenguin sense tenir en compte les dades; però tampoc pot ser que les dades decideixin.

Creu que estem avançant cap a un model més ètic i esperançador, o més aviat cap a un món on les nostres vides estaran decidides per algoritmes?
Depèn de nosaltres. Aquestes són tecnologies que poden ajudar en molts aspectes, però també tenen els seus propis problemes. La industrialització va portar un munt de problemes, i també molt de benestar. El que cal fer és veure com minimitzar allò que hi ha de dolent i aprofitar el que hi ha de bo. Jo veig senyals positius. A Europa s'està discutint i desenvolupant el dret a l'explicació; que és el dret a què, si un algoritme m'avalua com un criminal amb probabilitats de reincidir, jo pugui rebre una explicació sobre el perquè d'aquesta categorització.

Encara hi ha molta feina per fer?
Sí. Però per sort, hi ha una gran riquesa d'aproximacions al Big Data. Les administracions públiques estan interessades, les empreses estan interessades, els acadèmics, la gent que fa lleis... Aquest congrés és un exemple que hi ha un gran interès que va molt més enllà de l'àmbit tecnològic. És important que les decisions en aquest terreny no les prenguem només la gent d'informàtica; ens impliquen a tots i hem de prendre-les entre tots.