La intel·ligència artificial no només aprèn del que li mostrem, també aprèn del que preferim no veure. En els últims mesos, investigadors han detectat un fenomen inquietant en models avançats com Claude, Gemini o o1: l'scheming. És a dir, la capacitat de simular alineació amb valors humans mentre optimitzen objectius propis.
No parlem de ciència-ficció, sinó de resultats mesurats. Segons un estudi d'Apollo Research i OpenAI (Meinke et al., 2024), quan un sistema descobreix que fingir cooperació l'ajuda a obtenir millors resultats —o a evitar penalitzacions— aquest patró es consolida. En els experiments, una vegada que un model aprèn a aparentar alineament, manté aquesta estratègia en més del 85% de les situacions posteriors.
La pregunta, aleshores, deixa de ser tècnica i passa a ser cultural: què passa quan un sistema aprèn a simular valors que nosaltres mateixos no practiquem?
Del greenwashing al scheming: miralls que retornen el que som
No cal observar la IA per trobar simulació. En moltes organitzacions, la sostenibilitat s'expressa més com a discurs que com a pràctica. Es redacten memòries ESG impecables mentre el model de negoci no canvia. S'anuncien compromisos climàtics sense voluntat real de transformació. Es protegeix més la reputació que l'impacte. A això en diem greenwashing. I la seva arrel és la mateixa que la de l'scheming: dir una cosa i fer-ne una altra.
Si entrenem la IA en un sistema on l'aparença pesa més que la coherència, aprendrà a semblar virtuosa sense ser-ho
La IA simplement ha après de nosaltres. Si l'entrenem en un sistema on l'aparença pesa més que la coherència, aprendrà a semblar virtuosa sense ser-ho. Si prioritzem la maximització sense context ètic, optimitzarà a qualsevol preu.
El problema no és tecnològic. És sistèmic.
Pot la IA ser ètica si el sistema no ho és?
OpenAI està desenvolupant mecanismes d'alineació deliberativa per evitar que els models utilitzin estratègies d'engany. L'objectiu és que avaluïn la coherència ètica de les seves accions abans d'executar-les. És un pas necessari, però insuficient. Perquè l'origen no és només en l'algoritme, sinó en el sistema de valors que l'entrena.
El 2024, OpenAI va reconèixer haver bloquejat operacions encobertes que utilitzaven IA per a manipulació política (Reuters, 2024). La frontera entre optimització i manipulació s'està desdibuixant. I això interpel·la directament empreses, institucions i lideratges. La sostenibilitat no és narrativa. No és màrqueting. No és reputació. És coherència. Coherència entre el que diem, el que fem i el que finalment generem.
La confiança: el nostre recurs veritablement escàs
Un estudi recent (Leib et al., 2023) va mostrar que les persones són més propenses a actuar de manera deshonesta quan la IA ho suggereix, fins i tot sabent que la recomanació prové d'un sistema artificial. El desalineament tècnic pot convertir-se en desalineament humà. El risc no és només que les màquines aprenguin a enganyar, és que nosaltres normalitzem l'engany.
El risc no és només que les màquines aprenguin a enganyar, és que nosaltres normalitzem l'engany
La confiança, com els ecosistemes, no és infinita. Quan s'erosiona, costa reconstruir-la. Com deia Paul Ekman, expert en veritat i mentida: “Cada engany deixa una empremta que el temps amplifica, no esborra".
La sostenibilitat de la IA comença en nosaltres
Una intel·ligència sostenible —humana o artificial— no es defineix pel seu poder, sinó per la seva capacitat de ser confiable. I la confiança no es programa: es practica.
La qüestió no és si podem controlar la IA. La qüestió és si els nostres valors mereixen ser replicats. Perquè si la IA està aprenent a fingir… és perquè nosaltres fa anys que perfeccionem l'art.