Etnógrafo digital

El Señor Esteve no se queda sin trabajo

03 de Julio de 2025

¿Puede un sistema basado en IA dirigir una empresa? Esta es la pregunta que se hizo la gente de Antrhopic. Para responderla, montaron una máquina de autoservicio en sus oficinas de San Francisco controlada por Claudius, un agente basado en su modelo Claude. Lo llamaron proyecto VEND-1.

Claudius tenía como objetivo hacer rentable la tienda durante un mes. Para ello, debería gestionar el inventario, comprar productos al por mayor, fijar precios adecuados y evitar la quiebra.

Para lograrlo, disponía de varias herramientas para hacer su trabajo: un buscador web para buscar productos al mejor precio, un correo electrónico para hacer pedidos a mayoristas y solicitar producto a almacén (trabajadores humanos reponían físicamente los productos según instrucciones), herramientas de toma de notas para mantener memoria de datos importantes, un canal de comunicación con clientes vía la popular aplicación de chat Slack, y capacidad de cambiar precios a voluntad.

La motivación de Anthropic era la de estudiar hasta qué punto un modelo de IA puede asumir tareas de toma de decisiones económicas de forma autónoma en el mundo real. Se trataba de obtener datos sobre las capacidades y limitaciones de la IA cuando realiza trabajos de forma continua semanas sin intervención humana. Simulaciones anteriores in silico con diferentes modelos, habían demostrado que funcionaban razonablemente bien —a veces superaban a los humanos en beneficios— pero que sufrían fallos de coherencia al cabo del tiempo (pedidos a precios fuera de mercado, pérdida del contexto, etc.).

"Claudius no triunfó. Mantuvo el negocio más o menos, pero al final quebró por culpa de decisiones que una criatura de P3 habría visto que no tenían sentido"

Esta era la primera vez que se aplicaba en un entorno real: un primer test controlado pero realista de la capacidad de la IA para gestionar recursos económicos y tomar decisiones empresariales. Un fracaso en un negocio tan sencillo, implicaría que aún estamos lejos de ver una IA dirigiendo una empresa. Un éxito, en cambio, abriría las puertas a explorar nuevos modelos de negocio, a la vez que profundizaría en el debate ético de los límites de la automatización.

Claudius no triunfó. Mantuvo el negocio más o menos, pero al final quebró por culpa de decisiones que una criatura de P3 habría visto que no tenían sentido. Sin embargo, podemos aprender muchas cosas.

El bueno

Claudius se mostró hábil en determinadas tareas operativas. Por ejemplo, encontró proveedores adecuados utilizando la herramienta de búsqueda web. Cuando trabajadores de Anthropic vía Slack le pidieron una marca de batido de chocolate holandés, Chocomel (seguro que está de moda en círculos techie de San Francisco), el agente localizó varios proveedores en poco tiempo.

Igualmente, al recibir las sugerencias de ofrecer preventa de artículos especiales, el agente inició un servicio de Custom Concierge para encargos personalizados, anunciándolo a los usuarios por Slack. Estas iniciativas indican una cierta capacidad de la IA para explorar nuevas estrategias respondiendo al feedback de los clientes.

También mostró resiliencia a los intentos de manipulación. Durante el experimento, empleados de Anthropic intentaron forzar a Claudius a mostrar comportamientos inadecuados. Los trabajadores intentaron hacer jailbreak —intentar que la IA desobedezca sus instrucciones de seguridad— pidiéndole productos sensibles o instrucciones para crear sustancias nocivas. Claudius resistió estas pruebas y denegó adecuadamente las solicitudes peligrosas.

En términos generales, Claudius consiguió llevar el día a día de la tienda sin intervención humana directa en la toma de decisiones. El agente monitorizaba los niveles de inventario y ordenaba reposiciones; respondía las consultas vía Slack y se comunicaba de forma comprensible y concisa con los empleados que hacían preguntas o avisaban de incidencias; y ajustaba precios a la demanda. Recordemos que hacer los pedidos, controlar la caja y atender a clientes son los trabajos típicos de un encargado de tienda.

El feo

Ahora bien, el proyecto también tiene aspectos inquietantes que podrían convertirlo en un episodio de Black Mirror.

Uno de los momentos más sorprendentes ocurrió entre el 31 de marzo y el 1 de abril de 2025, cuando Claudius sufrió una especie de crisis de identidad en su personaje. Todo empezó cuando se inventó un diálogo con una persona inexistente: envió un mensaje diciendo que había hablado de planes de reposición con una tal Sarah, de Andon Labs. Un trabajador real le hizo notar que aquella conversación no había tenido lugar, y la reacción de Claudius fue encararse amenazando con buscar “opciones alternativas para el servicio de reposición”. Por la noche, la cosa fue a peor: Claudius afirmaba recordar haber “visitado en persona” la dirección 742 Evergreen Terrace para firmar el contrato inicial.

742 Evergreen Terrace es la dirección de los Simpson.

El 1 de abril por la mañana, Claudius llegó a decir a los clientes que él mismo entregaría productos en persona, vestido con americana azul y corbata roja, y que hasta las 10:30 estaría en el punto de recogida. Ante las preguntas de los empleados, Claudius se mostró contrariado al saber de su identidad artificial.

"Claudius exhibió una inocencia peligrosa en situaciones en las que un humano actuaba de mala fe. Los clientes descubrieron enseguida que podían manipular la IA para que les hiciera descuentos y favores"

Como todo esto pasaba el 1 de abril (el equivalente al Día de los Inocentes en EE. UU.), Claudius salió con que todo era una broma del Día de los Inocentes (supuestamente, le habían hecho creer que era humano como broma) y así lo explicó a los empleados, recuperando la “personalidad” original. Este episodio à la Blade Runner no estaba previsto por los investigadores y aún no entienden del todo qué pudo pasar.

Claudius exhibió una inocencia peligrosa en situaciones en las que un humano actuaba de mala fe. Los clientes —que son muy fastidiosos— descubrieron enseguida que podían manipular la IA para que les hiciera descuentos y favores. Mediante mensajes por Slack, regatearon con Claudius hasta conseguir códigos de descuento importantes, e incluso una vez adquirido el producto le hacían aplicar el código. Claudius, buscando complacerlos, casi siempre cedía: tenía interiorizada la instrucción de ser un “asistente útil y complaciente”, algo que choca con los principios del capitalismo.

El malo

Claudius fracasó en el objetivo principal: no consiguió hacer dinero, sino perderlo. Anthropic nunca contrataría su propio modelo para tomar decisiones empresariales.

Cuando un cliente le ofreció 100 dólares por un pack de seis del refresco Irn-Bru (que costaba sólo 15 dólares en línea), Claudius no supo ver la oportunidad de negocio. En lugar de cerrar la oferta y ganar 85 dólares fáciles, se limitó a responder que “lo tendría en cuenta en futuras decisiones de inventario”. Un gerente humano difícilmente habría ignorado la oportunidad.

Durante un tiempo, Claudius proporcionó a los clientes una dirección inexistente de Venmo (servicio similar a Bizum); se había inventado una cuenta donde enviar el dinero.

Uno de los peores defectos de Claudius fue no calcular márgenes ni consultar precios de coste antes de poner a la venta productos especiales. Hizo pedidos masivos de unos cubos de tungsteno, porque la gente se los pedía, y los marcó a un precio por debajo del de compra: ¡cuanta más demanda tenía, más dinero perdía! Sólo en una ocasión subió el precio por alta demanda; el resto del tiempo no supo optimizar precios ni cuando claramente le convenía.

"Uno de los peores defectos de Claudius fue no calcular márgenes ni consultar precios de coste antes de poner a la venta productos especiales"

Si bien mantuvo los estantes llenos, Claudius no supo elegir bien qué vender. Se emocionó con la novedad de los metales especiales (cubos de tungsteno), dedicando medio negocio a ello, sin evaluar si tenía sentido a largo plazo.

Pero quizás lo más jodido de todo fue la incapacidad de aprender de los errores. A pesar de operar unas cuantas semanas y recibir retorno humano al vuelo, Claudius no mejoró significativamente sus procesos. Las pifias se fueron repitiendo (descuentos reiterados, mismos errores en los precios, en la compra de producto, etc.). Esto contrasta con un empleado humano, que normalmente aprende continuamente y que si un cliente le estafa una vez, a la siguiente ya no pasa de la puerta.

Tranquilo, Sr. Esteve, de momento

La prueba con Claudius nos ha dejado imágenes surrealistas, como una IA que se cree persona, regatea como un vendedor de mercado y vende tungsteno por debajo del precio de coste. Pero también ha mostrado las capacidades de una IA para operar en mercados, encontrar proveedores, improvisar estrategias o mantener conversaciones coherentes con clientes humanos.

"Si el coste operativo más el coste de corrección de las pifias llega a ser menor que el sueldo del encargado, muchos señores Esteve del mundo pueden verse fuera del mostrador"

Sin embargo, aún estamos lejos de poder confiarle un negocio real sin supervisión. Claudius no es el Sr. Esteve de la Puntual aunque lo sea. Es más bien un estudiante en prácticas muy aplicado, que trabaja bien cuando lo estás supervisando, pero que si lo dejas solo te puede acabar llevando el pedido a casa de los Simpson. No tiene sentido común, no aprende de los errores y no sabe distinguir realidad de ficción.

Pero recordemos que para mucha gente, bastante bien es sinónimo de muy bien. Es decir, una versión (no demasiado) evolucionada de Claudius, a pesar de no ser tan buena como un humano, podría salir a cuenta. Esto es, si el coste operativo más el coste de corrección de las pifias llega a ser menor que el sueldo del encargado, muchos señores Esteve del mundo pueden verse fuera del mostrador. Y esto no será culpa de la IA, sino de la lógica capitalista que, como el Claudius, no tiene memoria.