Nuestra voz de Scarlett Johansson

23 de Mayo de 2024

Me confieso superado por la actualidad de la IA. En la segunda mitad del siglo pasado, los ciclos se contaban por décadas. A los períodos de sobre expectativas conocidos como primaveras les sucedían los inevitables inviernos de la decepción. Entrado el siglo XX, el superávit de datos masivos que trajo internet y el aumento de las capacidades computacionales propiciaron una nueva primavera basada en el aprendizaje máquina. Los ciclos de los avances en IA pasaron a ser cada vez más cortos: de décadas, a lustros y de lustros a años.

Todo esto cambió en 2017 con la publicación por parte de investigadores de Google y de la universidad de Toronto del seminal artículo académico All You Need Is Attention (Todo lo que necesitas es atención). Los autores presentan el modelo de red neuronal llamado transformador, que sobresale en tareas como la traducción automática, la generación de texto, el resumen de documentos y la respuesta a preguntas. Todos recordamos que en un momento determinado Google Translate mejoró notablemente; fue en 2017 cuando comenzó a usar transformadores.

"Los ciclos de los avances en IA pasaron a ser cada vez más cortos: de décadas, a lustros y de lustros a años"

También encontramos el modelo en el nombre de la aplicación más popular de la historia: la T final de GPT es la inicial de transformadores, hecho que convierte a este artefacto matemático en un fenómeno de cultura pop. Porque si algo ha hecho OpenAI con el ChatGPT es convertir la IA en un fenómeno de cultura popular. Sin este enfoque no se entiende lo que está sucediendo.

Viene al caso porque por sí solos han hecho que los ciclos anuales de avances en IA pasen de ser anuales a semanales (diarios, si son asiduos a Huggingface). Justo hablábamos la semana pasada de los anuncios que OpenAI había hecho: el nuevo modelo ChatGPT 4 y las mejoras en interacción en imagen, vídeo y audio especialmente. En los vídeos de demostración se ven situaciones de conversación cotidiana donde ChatGPT vía móvil es uno más: dos amigos que conversan cada uno con su idioma, ChatGPT que responde preguntas de la audiencia e incluso un ChatGPT describiendo la habitación a otro ChatGPT en una conversación equiparable a la de dos amigos. SPOILER ALERT: recordemos siempre que estos son vídeos comerciales de OpenAI, ni siquiera sabemos si son demos reales, si antes han sido preparadas o cuántas tomas falsas hay de cada vídeo. Lo que sí sabemos con certeza es que son una selección de los mejores ejemplos de funcionamiento.

"Si una cosa ha hecho OpenAI con el ChatGPT es convertir la IA en un fenómeno de cultura popular"

Si tenéis la aplicación móvil de ChatGPT y habéis conversado, lo habéis hecho todavía con la versión antigua. A pesar de ser infinitamente más competente que Siri o Alexa —no inteligente— sus capacidades de conversación empal·lideixen si las comparamos con las de las demos: mucho más naturales, fluidas y expresivas, quizás demasiadas. Uno de los saltos cualitativos que hemos podido sentir es el de la simpatía, la empatía, la sugestión y el sarcasmo. Es imposible no quedarte atrapado en una conversación que parece talmente con una chica real, que tiene un punto de sensual y que, a pesar de que la sentimos por primera vez nos resulta extrañamente familiar. De hecho, a todo el mundo nos ha recordado el asistente Samantha de la película Her. Por si alguien no había llegado solet, Sam Altman, el CEO de OpenAI, lo titulaba el mismo día del lanzamiento: "her" (sic, no usa nunca mayúsculas).

¿Hemos llegado a Her? En demos y en Twitter, sí. Los vídeos nos llevan conceptualmente a la película de Spike Jonze, pero hay una magdalena de Proust que lo hace más evidente y sutil al mismo tiempo: la voz se parece mucho a la de Scarlett Johansson, la actriz que ponía la voz a Samantha en Her. Consideraciones sexistas aparte (los asistentes siempre tienen voz de mujer), la asociación con la película ha llegado a todos, incluida Scarlett Johansson. De hecho, ya le había llegado cuando amigos y familiares le enviaron grabaciones de conversaciones con Sky cuando OpenAI publicó la app de ChatGPT el 18 de mayo de 2023.

"No deja de ser paradójico que la voz de un asistente de IA sea la voz de millones de inteligencias naturales"

Bajo la presión mediática del asunto, OpenAI decidió el pasado lunes retirar la voz Sky de su catálogo argumentando que todo había sido una mala interpretación, que no había habido ninguna intención de imitar la voz de Johansson, que había salido de un casting de 400 con actores reales de los cuales se seleccionaron 5. Aunque esto pueda ser cierto, no niega el hecho de que buscaran una imitadora de Johansson para conectarnos proustianamente con el escenario de Her. Lo sabemos con certeza porque Altman mismo se lo dijo a Johansson.

Un par de horas después de la decisión de OpenAI de retirar la voz en cuestión, Scarlett Johansson envió un comunicado a NPR explicando su versión. Resulta que en septiembre Sam Altman le había hecho una oferta para poner su voz en la nueva versión de ChatGPT 4. Le dijo que creía que "dando voz al sistema, podría establecer un puente entre las empresas tecnológicas y los creativos y ayudar a los consumidores a sentirse cómodos con el cambio sísmico relacionado con los humanos y la IA. Dijo que pensaba que mi voz sería reconfortante para la gente". Lo firmaría el mismo Proust.

Johansson explicó que después de considerarlo, declinó la oferta. Sin embargo, dos días antes de la publicación de ChatGPT 4, Altman se puso en contacto con el agente de la actriz pidiéndole que reconsiderara su postura. Todavía no había dado ninguna respuesta cuando dos días después salió ChatGPT 4 con la voz Sky, una imitación de Samantha de Her. El final de la nota es especialmente interesante. Dice que "en un momento en que todos estamos luchando con deepfakes y la protección de nuestra propia imagen, nuestra propia obra, nuestras propias identidades, creo que estas son cuestiones que merecen una claridad absoluta. Espero con ansias una resolución en forma de transparencia y la aprobación de la legislación adecuada para ayudar a garantizar que los derechos individuales sean protegidos.

"¿Spike Jones habría contratado alguna vez a Scarlett Johansson si hubiera podido generar su voz gratuitamente? Quizás sí, por ser quien es, pero ¿y si hubiera sido un director novel?"

El caso es más importante de lo que parece. Los modelos de transformadores son extremadamente eficaces a la hora de generar contenidos, pero para hacerlo necesitan grandes volúmenes de datos que a menudo están protegidos por derechos de autor, lo que plantea graves problemas éticos. Si llevamos esto al extremo, a corto plazo, estos sistemas pueden implicar la desposesión del trabajo de millones de personas y concentrar los beneficios en manos de muy pocos. ¿Habría contratado Spike Jones a Scarlett Johansson si hubiera podido generar su voz gratuitamente? Quizás sí, por ser quien es, pero ¿y si hubiera sido un director novel? ¿O una actriz desconocida? El doblaje es una puerta de entrada a las artes escénicas, ¿dónde aprenderán los aprendices de actores? Llévenlo a todos los oficios donde el dominio y el aprendizaje son fundamentales, es decir, todos.

No deja de ser paradójico que la voz de un asistente de IA sea la voz de millones de inteligencias naturales.