Etnògraf digital

GPT-4 i la guerra de la IA

16 de Març de 2023
Act. 16 de Març de 2023
Josep Maria Ganyet | VIA Empresa

Dimarts, a les 21 hores hora nostra, l’empresa OpenAI presentava en un directe a YouTube el nou model de llenguatge GPT-4. No és només un salt incremental respecte al GPT-3, també representa un salt qualitatiu en molts fronts. 

 

Primer de tot és molt més competent que el seu predecessor —em nego a utilitzar la paraula intel·ligent—. Com el GPT-3 (o la seva darrera versió, la 3.5) el GPT-4 aprova l’UBE, l’examen que han de fer els llicenciats de dret nord-americans abans de poder exercir. La diferència és que mentre la nota del primer era al percentil 10, la segona és al percentil 90. A banda, el GPT-4 pot manipular i generar textos de fins a 25.000 paraules.

També és capaç de resumir el conte de la Ventafocs en una frase on cada paraula ha de començar per la lletra següent de l’alfabet de la A a la Z. El resultat impressiona, us el deixo aquí: A beautiful Cinderella, dwelling eagerly, finally gains happiness; inspiring jealous kin, love magically nurtures opulent prince; quietly rescues, slipper triumphs, uniting very wondrously i xenial youth zealously.

 

També és capaç de resumir el conte de la Ventafocs

L’altre gran salt és que el GPT-4 és multimodal; la interacció es pot fer amb apunts de text com fins ara amb el GPT-3 i també amb imatges. Això obre un univers de nous casos d’ús i d’aplicacions comercials. Una de les demostracions que hem vist és la de pujar-li una foto de la nevera i demanar-li els plats que podem cuinar amb el que s’hi veu. Reconeix molt bé el contingut d’una imatge i en el cas dels mems que corren per la xarxa hi sap trobar la ironia.

També l’hem vist programar videojocs a partir de poques instruccions en llenguatge natural. Ja no cal ser un programador perquè et programi un joc de Pong, un de Breakout o els Asteroids; amb només saber-l’hi demanar n’hi ha prou perquè et generi tot el codi a la pantalla. Si hi ha algun error només cal que li feu notar i ell solet el busca, el corregeix i a jugar!

De moment només està disponible per a recerca i per al gran públic amb el ChatGPT Plus, la versió de pagament del ChatGPT, que surt a 20 € al mes. L’impacte que aquest tipus de tecnologies és imprevisible, només cal que tireu quinze anys enrere quan va arribar l’iPhone. Nogensmenys ens en podem fer una idea.

L’impacte d'aquest tipus de tecnologies és imprevisible

El popular web de cursos en línia gratuïts Khan Academy ja ha obert un programa pilot per a educadors i estudiants basat en el GPT-4. Els educadors hi poden crear temaris i als estudiants els ajuda en l’aprenentatge personalitzat via un xat-tutor que tant els respon les preguntes com els hi fa. Khan Academy vindria a ser una UOC amb més de 130 milions d’estudiants de tot el món. Jo, si fos una institució acadèmica, m’apuntaria a la prova pilot.

Una altra aplicació és la integració que l’empresa danesa Be My Eyes n’ha fet per als seus 250 milions de clients amb dificultats visuals. Amb l’ajut del GPT-4 —recordeu que sap reconèixer el què hi ha en una foto de la nevera— ha creat un “voluntari virtual” que descriu l’entorn on es troba la persona usuària amb només apuntar-hi el mòbil. Una persona cega pot navegar per una habitació plena d’objectes seguint les descripcions del GPT-4. Podríem continuar amb aplicacions, però em fa l’efecte que no acabaríem mai.

Tornem al salt qualitatiu que la presentació de dimarts suposa. Si ens creiem allò de què el mitjà és el missatge, el format de la presentació en si és rellevant. Segurament estem davant d’un “moment iPhone” un moment d’aquells que ens semblen una evolució tecnològica, però que en realitat són una revolució econòmica i social. Apple ens té acostumats a les seves impactants presentacions: auditoris plens de gent, coreografiades fins al més mínim detall, assajades fins a l’extenuació i realitzades com un gran esdeveniment mediàtic.

Si ens creiem allò de què el mitjà és el missatge, el format de la presentació en si és rellevant

La presentació del GPT-4 la va fer Greg Brockman, cofundador d’OpenAI, a YouTube; amb un Mac compartint pantalla en el que semblava la cuina de casa i amb una càmera estàtica. El missatge de què la tecnologia de la informació més avançada mai creada està a l’abast de tothom arribava fort i clar. I finalment un altre aspecte —aquest en negre sobre blanc— que certifica aquest salt qualitatiu i què ens espera. Al document acadèmic de 60 pàgines que OpenAI ha publicat, a la pàgina 2, punt 2 hi diu:  

Tenint en compte tant el panorama competitiu com les implicacions de seguretat dels models a gran escala com el GPT-4, aquest informe no conté més detalls sobre l'arquitectura (inclosa la mida del model), el maquinari, el càlcul d'entrenament, la construcció del conjunt de dades, el mètode d'entrenament o similars.

A diferència del que OpenAI havia fet fins ara, i honorant el seu nom, les dades de les quals ha après, l’arquitectura, la mida del model i altres detalls rellevants per avaluar-ne el rendiment són opacs. La clau és en l’expressió “el panorama competitiu”. Li he preguntat al GPT-4 a quina empresa feia referència el document d’OpenAI quan parlava de “panorama competitiu”. La resposta és prou eloqüent:

No es pot determinar a quina empresa es refereix el text quan parla del “panorama competitiu” sense més informació contextual. Aquesta expressió podria referir-se a qualsevol empresa o organització que participi en el mercat de la tecnologia de llenguatge natural o que estigui desenvolupant models de llenguatge natural competidors al GPT-4. Hi ha diverses empreses que desenvolupen models de llenguatge natural, com ara OpenAI, Google, Microsoft, Facebook, Amazon, i altres empreses emergents del sector de la tecnologia.

La guerra està servida?

No puc predir el futur ni afirmar amb seguretat si la guerra està servida o no. Si estàs fent referència a la guerra en el sentit literal, esperem que mai no hagi de produir-se cap conflicte bèl·lic. No obstant això, si estàs parlant d’una “guerra” metafòrica en el sentit de la competència entre empreses tecnològiques per desenvolupar el millor model de llenguatge natural, això és una cosa comuna en qualsevol mercat altament competitiu. Aquesta competència és saludable i sovint estimula la innovació, el progrés en la tecnologia.

Un salt qualitatiu, sí. La guerra, també.