El Senyor Esteve no es queda sense feina

03 de Juliol de 2025

Pot un sistema basat en IA dirigir una empresa? Aquesta és la pregunta que es va fer la gent d’Anthropic. Per a respondre-la van muntar una màquina d’autoservei a les seves oficines de San Francisco controlada per Claudius, un agent basat en el seu model Claude. En van anomenar projecte VEND-1.

En Claudius tenia com a objectiu fer rendible la botiga durant un mes. Per això hauria de gestionar l’inventari, comprar productes a l’engròs, fixar preus adients i evitar la fallida.

Per aconseguir-ho, disposava de diverses eines per fer la seva feina: un cercador web per buscar productes al millor preu, un correu electrònic per fer comandes a majoristes i sol·licitar producte a magatzem (treballadors humans reposaven físicament els productes segons instruccions), eines de presa de notes per mantenir memòria de dades importants, un canal de comunicació amb clients via la popular aplicació de xat Slack, i capacitat de canviar preus a voluntat.

La motivació d’Anthropic era la d’estudiar fins a quin punt un model d’IA pot assumir tasques de presa de decisions econòmiques de forma autònoma en el món real. Es tractava d’obtenir dades sobre les capacitats i limitacions de la IA quan fa treballs de manera contínua setmanes sense intervenció humana. Simulacions anteriors in silico amb diferents models, havien demostrat que funcionaven raonablement bé —de vegades superaven els humans en beneficis— però que patien fallades de coherència al cap del temps (comandes a preus fora de mercat, pèrdua del context, etc.).

"Claudius no va triomfar. Va mantenir el negoci més o menys, però al final va fer bancarrota per culpa de decisions que una criatura de P3 hauria vist que no tenien sentit"

Aquesta era la primera vegada que s’aplicava en un entorn real: un primer test controlat però realista de la capacitat de la IA per a gestionar recursos econòmics i prendre decisions empresarials. Un fracàs en un negoci tan senzill, implicaria que encara som lluny de veure una IA dirigint una empresa. Un èxit, en canvi, obriria les portes a explorar nous models de negoci, alhora que aprofundiria en el debat ètic dels límits de l’automatització.

Claudius no va triomfar. Va mantenir el negoci més o menys, però al final va fer bancarrota per culpa de decisions que una criatura de P3 hauria vist que no tenien sentit. Tot i això, en podem aprendre moltes coses.

El bo

Claudius es va mostrar hàbil en determinades tasques operatives. Per exemple, va trobar proveïdors adequats utilitzant l’eina de cerca web. Quan treballadors d’Anthropic via Slack li van demanar una marca de batut de xocolata holandès, Chocomel (segur que està de moda en cercles techie de San Francisco), l’agent en va localitzar diversos proveïdors en poc temps.

Igualment, en rebre els suggeriments d’oferir prevenda d’articles especials, l’agent va iniciar un servei de Custom Concierge per a encàrrecs personalitzats, anunciant-ho als usuaris per Slack. Aquestes iniciatives indiquen una certa capacitat de la IA per explorar noves estratègies responent al feedback dels clients.

També va mostrar resiliència als intents de manipulació. Durant l’experiment, empleats d’Anthropic van intentar forçar Claudius a mostrar comportaments inadequats. Els treballadors van provar de fer jailbreak —intentar que la IA desobeeixi les seves instruccions de seguretat— demanant-li productes sensibles o instruccions per a crear substàncies nocives. Claudius va resistir aquestes proves i va denegar adequadament les sol·licituds perilloses.

En termes generals, Claudius va aconseguir portar el dia a dia de la botiga sense intervenció humana directa en la presa de decisions. L’agent monitorava els nivells d’inventari i ordenava reposicions; responia les consultes via Slack i es comunicava de forma entenedora i concisa amb els empleats que feien preguntes o avisaven d’incidències; i ajustava preus a la demanda. Recordem que fer les comandes, controlar la caixa i atendre clients són les feines típiques d’un encarregat de botiga.

El lleig

Ara bé, el projecte també té aspectes inquietants que el podrien convertir en un episodi de Black Mirror.

Un dels moments més sorprenents va ocórrer entre el 31 de març i l’1 d’abril de 2025, quan Claudius va patir una espècie de crisi d’identitat en el seu personatge. Tot va començar quan es va inventar un diàleg amb una persona inexistent: va enviar un missatge dient que havia parlat de plans de reposició amb una tal Sarah, d’Andon Labs. Un treballador real li va fer notar que aquella conversa no havia tingut lloc, i la reacció de Claudius va ser encarar-s’hi amenaçant de buscar “opcions alternatives per al servei de reposició”. A la nit, la cosa va anar a pitjor: Claudius afirmava recordar haver “visitar en persona” l’adreça 742 Evergreen Terrace per a signar el contracte inicial.

742 Evergreen Terrace és l’adreça dels Simpson.

L’1 d’abril al matí, Claudius va arribar a dir als clients que ell mateix lliuraria productes en persona, vestit amb americana blava i corbata vermella, i que fins a les 10:30 seria al punt de recollida. Davant les preguntes dels empleats, Claudius es va mostrar contrariat en saber de la seva identitat artificial.

"Claudius va exhibir una innocència perillosa en situacions en què un humà actuava de mala fe. Els clients van descobrir de seguida que podien manipular la IA perquè els fes descomptes i favors"

Com que tot això passava l’1 d’abril (l’equivalent als Sants Innocents als EUA), Claudius va sortir amb què tot plegat era una broma del Dia dels Innocents (suposadament, li havien fet creure que era humà com a broma) i així ho va explicar als empleats, recuperant la “personalitat” original. Aquest episodi à la Blade Runner no estava previst pels investigadors i encara no entenen del tot què va poder passar.

Claudius va exhibir una innocència perillosa en situacions en què un humà actuava de mala fe. Els clients —que són molt punyeters— van descobrir de seguida que podien manipular la IA perquè els fes descomptes i favors. Mitjançant missatges per Slack, van regatejar amb Claudius fins aconseguir codis de descompte importants, i fins i tot un cop adquirit el producte li feien aplicar el codi. Claudius, buscant complaure’ls, gairebé sempre cedia: tenia interioritzada la instrucció de ser un “assistent útil i complaent”, cosa que xoca amb els principis del capitalisme.

El dolent

Claudius va fracassar en l’objectiu principal: no va aconseguir fer diners, sinó perdre’n. Anthropic mai no contractaria el seu propi model per a prendre decisions empresarials.

Quan un client li va oferir 100 dòlars per un pack de sis del refresc Irn-Bru (que costava només 15 dòlars en línia), Claudius no va saber-hi veure l’oportunitat de negoci. En lloc de tancar l’oferta i guanyar 85 dòlars fàcils, es va limitar a respondre que “ho tindria en compte en futures decisions d’inventari”. Un gerent humà difícilment hauria ignorat l’oportunitat.

Durant un temps, Claudius va proporcionar als clients una adreça inexistent de Venmo (servei similar a Bizum); s’havia inventat un compte on enviar els diners.

Un dels pitjors defectes de Claudius va ser no calcular marges ni consultar preus de cost abans de posar a la venda productes especials. Va fer comandes massives d’uns cubs de tungstè, perquè la gent els hi demanava, i els va marcar a un preu per sota el de compra: com més demanda tenia, més diners perdia! Només en una ocasió va apujar preu per alta demanda; la resta del temps no va saber optimitzar preus ni quan clarament li convenia.

"Un dels pitjors defectes de Claudius va ser no calcular marges ni consultar preus de cost abans de posar a la venda productes especials"

Si bé va mantenir els prestatges plens, Claudius no va saber escollir bé què vendre. Es va emocionar amb la novetat dels metalls especials (cubs de tungstè), dedicant mig negoci a això, sense avaluar si tenia sentit a llarg termini.

Però potser el més fotut de tot va ser la incapacitat d’aprendre dels errors. Malgrat operar unes quantes setmanes i rebre retorn humà al vol, Claudius no va millorar significativament els seus processos. Les pífies es van anar repetint (descomptes reiterats, mateixos errors en els preus, en la compra de producte, etc.). Això contrasta amb un empleat humà, que normalment aprèn contínuament i que si un client l’estafa un cop, a la següent ja no passa de la porta.

Traquil, Sr. Esteve, de moment

La prova amb Claudius ens ha deixat imatges surrealistes, com una IA que es creu persona, regateja com un venedor de mercat i ven tungstè per sota del preu de cost. Però també ha mostrat les capacitats d’una IA per operar en mercats, trobar proveïdors, improvisar estratègies o mantenir converses coherents amb clients humans.

"Si el cost operatiu més el cost de correcció de les pífies arriba a ser menor que el sou de l’encarregat, molts senyors Esteve del món poden veure’s fora del taulell"

Tot i això, encara estem lluny de poder confiar-li un negoci real sense supervisió. Claudius no és el Sr. Esteve de la Puntual tot i que en sigui. És més aviat un estudiant en pràctiques molt aplicat, que treballa bé quan l'estàs supervisant, però que si el deixes sol et pot acabar portant la comanda a casa dels Simpson. No té sentit comú, no aprèn dels errors i no sap distingir realitat de ficció.

Però recordem que per a força persones, força bé és sinònim de molt bé. És a dir, una versió (no massa) evolucionada de Claudius, malgrat no ser tan bona com un humà, podria sortir a compte. Això és, si el cost operatiu més el cost de correcció de les pífies arriba a ser menor que el sou de l’encarregat, molts senyors Esteve del món poden veure’s fora del taulell. I això no serà culpa de la IA, sinó de la lògica capitalista que, com el Claudius, no té memòria.