La ciberseguretat ha estat sempre una disciplina plena d’instruccions analògiques: No deixis la porta oberta als ciberdelinqüents, no enganxis la contrasenya en un post-it a l’escriptori, no facis clic a un enllaç d’un correu que promet herències d’un príncep nigerià… I ara, el 2026, hem afegit una nova norma bàsica: no expliquis a ningú el teu “system prompt”.
Les últimes setmanes han estat especialment delirants dins el món de la IA generativa. Investigadors, hackers, red teamers i simples usuaris amb massa temps lliure estan aconseguint extreure instruccions internes de models comercials, manipular agents autònoms i saltar-se limitacions d’un sistema que pot tenir mal les bases, i que ara mateix ens estan venent com el futur de tots i totes.
Fa anys que el sector tecnològic viu atrapat en el mantra del move fast and break things, que se li atribueix a Mark Zuckerberg i els seus primers anys de Facebook. I bé, han trencat coses, com per exemple la confiança dels usuaris en les grans empreses tecnològiques. El problema és que ara les coses que es trenquen no són només aplicacions per compartir selfies amb molts filtres. Ara es trenquen sistemes que processen dades sensibles, automatitzen decisions empresarials o tenen accés directe a correus, fitxers i eines internes. Segons una investigació publicada aquest mateix mes, s’han detectat més d’un milió de serveis d’IA exposats amb configuracions insegures o vulnerables. Un milió, on a dins de cada milió de serveis hi ha milers d’usuaris. Feu els comptes.
"Fa anys que el sector tecnològic viu atrapat en el mantra del 'move fast and break things'"
En qualsevol altre sector això provocaria compareixences parlamentàries, dimissions i algun documental del Sense Ficció amb drons sobrevolant centres de dades sota la pluja i la veu de Carles Porta. Però a la IA encara hi ha qui la veu com “els inevitables problemes de la innovació”.
Un cop dur i directe a la realitat del sistema: molts sistemes d’IA són fràgils perquè s’han construït massa ràpid i presses per sortir al mercat abans que la competència.
El prompt leakage és un concepte que descriu la filtració de les instruccions internes que controlen una intel·ligència artificial, i ara mateix és un terme de moda. El sector sap que aquestes eines ignoren què vol dir informació confidencial. Per ells tot és informació. Només prediuen la següent paraula estadísticament plausible. I això converteix la seguretat en un problema que va més enllà de les matemàtiques i la ciberseguretat.
Una IA no sap res. Una IA no sap que no hauria de revelar el seu prompt intern. Potser té unes instruccions de no revelar-ho, però si el té escrit en alguna banda, hi ha maneres de fer-lo sortir, ja que una IA sempre intenta ser útil. I aquí potser hi ha la bretxa del sistema, perquè hem construït sistemes extraordinàriament convincents per ser els nostres amics i complaure’ns, abans de saber com controlar-los.
No sé si porteu equips de persones, però imagineu tenir una persona a l’equip brillant, que treballa com una mula, que no diu mai que no, que resol de manera magistral, però que si li estires la llengua t’explica tots els plans corporatius d’aquí a cinc anys a tothom que passa per davant. No, home no! Així no!
Els investigadors estan observant tècniques molt més sofisticades per la nova generació d’atacs cierrnètics: injeccions indirectes amagades en documents, webs o correus, manipulació d’agents autònoms, prompts llargs amb estructures narratives, o jailbreaks emocionals que exploten patrons psicològics apresos pels models. És fascinant i terrorífic al mateix temps.
Especialment perquè l’ecosistema està evolucionant més de pressa que les pràctiques de seguretat. Mentre algunes empreses encara estan descobrint què és exactament un model de llenguatge, altres ja connecten agents d’IA a sistemes interns, CRM, repositoris de codi i eines financeres. Tot automatitzat. Tot “intel·ligent”. Tot perfectament capaç de convertir un error lingüístic en una incidència corporativa de primer nivell. Després de dècades repetint que “l’usuari és l’esglaó més feble de la cadena”, ara resulta que el sistema també ho és.
"Menys demos espectaculars amb música èpica a LinkedIn i més auditoria interna"
Precisament perquè aquests problemes existeixen, ara tenim una oportunitat extraordinària per fer les coses millor. El fet que es detectin vulnerabilitats, que existeixin jailbreakers professionals o que apareguin estudis acadèmics qüestionant la robustesa dels models és, en realitat, un símptoma de maduresa tecnològica. Ara hi pensem! La ciberseguretat clàssica també va néixer així, d'acord amb desastres i molta humilitat. La diferència és que ara estem intentant posar normes a sistemes probabilístics que funcionen com una mena de subconscient estadístic.
Menys demos espectaculars amb música èpica a LinkedIn i més auditoria interna, amics. Menys obsessionar-se amb qui té el model més llest i simpàtic i més preguntar-se qui té el model més governable i transparent. Perquè la IA útil serà la que podrà conviure amb humans i els seus drets digitals.
Al final, el problema del prompt leakage és que nosaltres encara confonem fluïdesa amb fiabilitat, i la fluïdesa ha d’anar acompanyada de robustesa, criteri i confiança. I aquesta és, probablement, la gran carrera tecnològica de la nostra dècada.