GPT-4 y la guerra de la IA, por Josep Maria Ganyet

El martes, a las 21 horas hora nuestra, la empresa OpenAI presentaba en un directo de YouTube el nuevo modelo de lenguaje GPT-4. No es solo un salto incremental respecto al GPT-3, también representa un salto cualitativo en muchos frentes.

Antes que nada es mucho más competente que su predecesor —me niego a utilizar la palabra inteligente—. Como el GPT-3 (o su última versión, la 3.5) el GPT-4 aprueba la UBE, el examen que tienen que hacer los licenciados de derecho norteamericanos antes de poder ejercer. La diferencia es que mientras la nota del primero estaba en el percentil 10, la segunda está en el percentil 90. Aparte, el GPT-4 puede manipular y generar textos de hasta 25.000 palabras.

También es capaz de resumir el cuento de la Cenicienta en una frase donde cada palabra tiene que empezar por la letra siguiente del alfabeto de la A a la Z. El resultado impresiona, os lo dejo aquí: A beautiful Cinderella, dwelling eagerly, finally gains happiness; inspiring jealous kin, love magically nurtures opulent prince; quietly rescues, slipper triumphs, uniting very wondrously y xenial youth zealously.

También es capaz de resumir el cuento de la Cenicienta

El otro gran salto es que el GPT-4 es multimodal; la interacción se puede hacer con apuntes de texto como hasta ahora con el GPT-3 y también con imágenes. Esto abre un universo de nuevos casos de uso y de aplicaciones comerciales. Una de las demostraciones que hemos visto es la de subirle una foto de la nevera y pedirle los platos que podemos cocinar con lo que se ve. Reconoce muy bien el contenido de una imagen y en el caso de los memes que corren por la red sabe encontrar la ironía.

También lo hemos visto programar videojuegos a partir de pocas instrucciones en lenguaje natural. Ya no hay que ser un programador para que te programe un juego de Pong, uno de Breakout o los Asteroids; con solo saberlo pedir hay bastante para que te genere todo el código en la pantalla. ¡Si hay algún error solo hace falta que le hagáis notar y él solito lo busca, lo corrige y a jugar!

De momento solo está disponible para investigación y para el gran público con el ChatGPT Plus, la versión de pago del ChatGPT, que sale a 20 euros al mes. El impacto que este tipo de tecnologías es imprevisible, solo hace falta que retrocedáis quince años atrás cuando llegó el iPhone. Sin embargo, nos podemos hacer una idea.

El impacto que este tipo de tecnologías es imprevisible

La popular web de cursos en línea gratuitos Khan Academy ya ha abierto un programa piloto para educadores y estudiantes basado en el GPT-4. Los educadores pueden crear temarios y a los estudiantes les ayuda en el aprendizaje personalizado vía un chat-tutor que tanto les responde las preguntas como se las hace. Khan Academy vendría a ser una UOC con más de 130 millones de estudiantes de todo el mundo. Yo, si fuera una institución académica, me apuntaría a la prueba piloto.

Otra aplicación es la integración que la empresa danesa Be My Eyes ha hecho para sus 250 millones de clientes con dificultades visuales. Con la ayuda del GPT-4 —recordáis que sabe reconocer lo que hay en una foto de la nevera— ha creado un "voluntario virtual" que describe el entorno donde se encuentra la persona usuaria con solo apuntar el móvil. Una persona ciega puede navegar por una habitación llena de objetos siguiendo las descripciones del GPT-4. Podríamos continuar con aplicaciones, pero me da la impresión que no acabaríamos nunca.

Volvemos al salto cualitativo que supone la presentación del martes. Si nos creemos aquello de que el medio es el mensaje, el formato de la presentación en sí es relevante. Seguramente estamos ante un "momento iPhone" un momento de aquellos que nos parecen una evolución tecnológica, pero que en realidad son una revolución económica y social. Apple nos tiene acostumbrados a sus impactantes presentaciones: auditorios llenos de gente, coreografiadas hasta el más mínimo detalle, ensayadas hasta la extenuación y realizadas como un gran evento mediático.

Si nos creemos aquello de que el medio es el mensaje, el formato de la presentación en sí es relevante

La presentación del GPT-4 la hizo Greg Brockman, cofundador de OpenAI, en YouTube; con un Mac compartiendo pantalla en lo que parecía la cocina de casa y con una cámara estática. El mensaje de que la tecnología de la información más avanzada nunca creada está al alcance de todo el mundo llegaba fuerte y claro. Y finalmente otro aspecto —este en negro sobre blanco— que certifica este salto cualitativo y lo que nos espera. En el documento académico de 60 páginas que OpenAI ha publicado, en la página 2, punto 2 dice:

Teniendo en cuenta tanto el panorama competitivo como las implicaciones de seguridad de los modelos a gran escala como el GPT-4, este informe no contiene más detalles sobre la arquitectura (incluida la medida del modelo), el hardware, el cálculo de entrenamiento, la construcción del conjunto de datos, el método de entrenamiento o similares.

A diferencia de lo que OpenAI había hecho hasta ahora, y honorando su nombre, los datos de las cuales ha aprendido, la arquitectura, la medida del modelo y otros detalles relevantes para evaluar el rendimiento son opacos. La clave está en la expresión "el panorama competitivo". Le he preguntado al GPT-4 a qué empresa hacía referencia el documento de OpenAI cuando hablaba de "panorama competitivo". La respuesta es bastante elocuente:

No se puede determinar a qué empresa se refiere el texto cuando habla del "panorama competitivo" sin más información contextual. Esta expresión podría referirse a cualquier empresa u organización que participe en el mercado de la tecnología de lenguaje natural o que esté desarrollando modelos de lenguaje natural competidores en el GPT-4. Hay varias empresas que desarrollan modelos de lenguaje natural, como por ejemplo OpenAI, Google, Microsoft, Facebook, Amazon, y otras empresas emergentes del sector de la tecnología.

¿La guerra está servida?

No puedo predecir el futuro ni afirmar con seguridad si la guerra está servida o no. Si estás haciendo referencia a la guerra en el sentido literal, esperamos que nunca tenga que producirse ningún conflicto bélico. Sin embargo, si estás hablando de una "guerra" metafórica en el sentido de la competencia entre empresas tecnológicas para desarrollar el mejor modelo de lenguaje natural, esto es una cosa común en cualquier mercado altamente competitivo. Esta competencia es saludable y a menudo estimula la innovación, el progreso en la tecnología.

Un salto cualitativo sí. La guerra, también.

Suscríbete a VIA Empresa y recibirás en tu correo nuestras mejores historias, reportajes y entrevistas, además de otras ventajas exclusivas para suscriptores.

Antes de enviarnos tus datos lee la siguiente información INFORMACIÓN BÁSICA SOBRE PROTECCIÓN DE DATOS Responsable del tratamiento: TOTMEDIA COMUNICACIÓ, S.L. Finalidad del tratamiento: Atender las solicitudes de información que los usuarios de este formulario nos envíen. Legitimación: Consentimiento del interesado en enviarnos el formulario con sus datos. Destinatarios: El personal, la dirección de la empujada y los prestamistas de servicios necesarios para cumplir con nuestras obligaciones. No cederemos sus datos a terceros. Derechos que le asisten: Tiene derecho a acceder, rectificar y/o suprimir sus datos, así como otros derechos, como se explica detalladamente en la política de privacidad, dirigiéndose a privacitat@totmedia.cat. Información adicional: Para más información consulten la política de privacidad.