Plató, Guixanet y el Sant Jordi de las máquinas, por Josep M. Ganyet

Las máquinas ya hace tiempos que leen* todo lo que generamos. Imágenes, vídeos, metadatos pero por encima de todo textos. Alexa, Siri, Google Home y otros asistentes de voz nos leen en voz alta el que antes han leído en Wikipedia; Gmail lee el correo antes de que nosotros para filtrarlo del correo basura; el GPS lee las rutas que hacemos por proponernos alternativas; y Netflix y la tele leen nuestros patrones de navegación y visionado para hacernos recomendaciones.

Lo que es novedad, novedad de hace un año y medio, es la voracidad con la que las máquinas leen todo lo que escribimos nosotros… ¡y lo que escriben ellas! Los grandes modelos de lenguaje —LLM— que tanto nos fascinan necesitan leer grandes cantidades de datos para poder entender qué entendemos los humanos por lenguaje o por imágenes y así ser competentes en su generación. No sorprende saber que a medida que han ido leyendo más cantidades de texto los modelos se han vuelto más inteligentes*. Por poner un ejemplo: según los tests estándar MMLU, ChatGPT 2 tenía una fiabilidad del 32%, el 3 del 54% y el 4 del 85%. Parece una exponencial que se estronca, pero, con la comparativa con ChatGPT4 Turbo que solo es del 87% (expertos como Gary Marcus dicen que ChatGPT 4 Turbo tenía que ser el ChatGPT 5, pero como que les ha salido canario le han dicho Turbo para no quemar el 5).

¿Podría ser que la IA generativa hubiera topado con un muro? Muchos expertos, Marcus entre ellos, ya hace años que escribieron que la IA generativa no es un tema de escala, que no por poner más máquina, más parámetros y más datos los modelos mejorarán infinitamente. La exigua mejora de ChatGPT Turbo hacia el 4 así lo demostraría. De hecho, un artículo académico muy interesante de la Universidad de Cornell demuestra que mientras las competencias de estos modelos —la mal llamada inteligencia— aumentan de manera lineal, la cantidad de datos que hacen falta para alcanzar esta mejora tiene que aumentar de manera exponencial. El muro.

Y es en esta alocada carrera para tener más datos, de más calidad y para tener el modelo más competente que nos encontramos, bien, que se encuentran los grandes. Microsoft —vía OpenAI— Meta, Antrhopic y Mistral en Francia, no paran de sacar modelos que hacen prácticamente lo mismo, con resultados similares porque han sido entrenados —han leído— todos los mismos datos, todos los datos que hay disponibles: se han pasado internet. ¿Y ahora qué? ¿Nos puede ayudar la IA?

Més info: Aumentar la estupidez con IA

Si una cosa saben hacer bien estos LLM es generar texto que nosotros interpretamos como escrito por personas. De aquí que sea el juguete preferido de los estudiantes a la hora de entregar trabajos (aviso: se nota a la legua) y de cualquier spammer que quiere montar un blog con contenido refrito. Como que nos hemos acabado todo lo que hemos escrito las personas ya empezamos a entrenar a los LLM con contenido que generan ellos mismos. Si el muro ya parecía infranqueable ahora la basura más alta y más fuerte a cada entrenamiento.

Que el contenido que generan estos LLM sea verosímil no quiere decir que sea verdad. Lo podéis comprobar vosotros mismos dando este apunte a ChatGPT: "Haz una biografía del Guixanet de Tàrrega y explica la influencia de su mascota en su visión de la IA". ChatGPT nos explica de manera muy convincente sobre cómo "su perro Bit no solo le proporcionó inspiración, sino que también abrió los ojos de Guixanet a una nueva manera de entender la relación entre la tecnología y la naturaleza", que es muy bonito. Si no fuera porque está totalmente inventado.

"Las máquinas leen más que nosotros"

Guixanet (1920-1986) era el apodo de Francesc Rius Guixà de Tàrrega, y a pesar de que habría podido hacer investigación en IA, destaca porque era un vendedor ambulante de cacaos y chufas que encontrabas a la salida del fútbol y del cine. Era característico por su poca estatura por culpa de una enfermedad del crecimiento y por su barretina. Un personaje muy querido por todo el mundo.

Otro personaje también muy característico por su físico fue el filósofo Platón*. Platón es noticia porque finalmente hemos sabido donde está enterrado. Se sabía que era en su academia de Atenas pero no el lugar preciso. Finalmente se ha sabido que fue enterrado en 347 aC en un jardín privado de su academia junto al Museion, el templo dedicado a las musas. También hemos sabido que cuando cayó esclavo de Esparta en el año 404 estuvo en la isla de Egina y no en la isla de Sicilia como se creía. Y todo esto lo sabemos gracias a la IA que ha sido capaz de leer los papiros carbonitzados por el Vesubio en el 79 dC de la Casa de los Papiros de Ercolano. Cuando digo papiros os tenéis que imaginar un tipo de cilindros de carbón que no se pueden leer y mucho menos abrir sin reducirlos a polvo. El equipo del Dr. en informática Brent Seales y especialista en visión por computador e IA fueron capaces de escanear los papiros sin abrirlos con una técnica que llaman "desenvoltura virtual". Los colgaron en la red para que la comunidad de IA probara de leer los papiros y descifrar el contenido. Después de unos inicios muy modestos finalmente la IA ha podido leer 1000 palabras más que han cambiado la historia. Quedan 1.800 papiros más por leer que quién sabe qué nos enseñarán de nuestro pasado.

Las máquinas leen más que nosotros. La mayoría de los libros que compramos o nos regalaron el pasado martes por Sant Jordi nos quedarán para leer a nosotros pero no a las máquinas; servirán para los próximos entrenamientos de los LLM. Y si no, de aquí a 2.000 años otro leerá las cenizas.

*soy consciente de la humanización de la IA que se deriva de la utilización de términos como "inteligencia", "leer", "aprender" y "entender" entre otros. He descartado la opción de ponerlos entre comillas en el texto para facilitar la lectura.
**Poca gente sabe que su nombre era Aristocles, en honor a su abuelo, y que Platón era un mote que le habría puesto su instructor de lucha. Platón deriva del griego antiguo πλατύς (platís) que quiere decir ancho de hombro (o de frente). Tanto Platón como Guixanet han pasado a la historia por un mote relacionado con su aspecto. Bonito.

Suscríbete a VIA Empresa y recibirás en tu correo nuestras mejores historias, reportajes y entrevistas, además de otras ventajas exclusivas para suscriptores.

Antes de enviarnos tus datos lee la siguiente información INFORMACIÓN BÁSICA SOBRE PROTECCIÓN DE DATOS Responsable del tratamiento: TOTMEDIA COMUNICACIÓ, S.L. Finalidad del tratamiento: Atender las solicitudes de información que los usuarios de este formulario nos envíen. Legitimación: Consentimiento del interesado en enviarnos el formulario con sus datos. Destinatarios: El personal, la dirección de la empujada y los prestamistas de servicios necesarios para cumplir con nuestras obligaciones. No cederemos sus datos a terceros. Derechos que le asisten: Tiene derecho a acceder, rectificar y/o suprimir sus datos, así como otros derechos, como se explica detalladamente en la política de privacidad, dirigiéndose a privacitat@totmedia.cat. Información adicional: Para más información consulten la política de privacidad.