Google 'googleja' mentre Grok ens assenyala el camí

22 de Maig de 2025

Google ha presentat a la seva conferència anual I/O 2025, tota una plètora de novetats basades (oh, sorpresa!) en la IA generativa. Entre els anuncis més destacats hi trobem el nou model Gemini Ultra, la traducció instantània a Google Meet, noves eines que Google etiqueta com a eines creatives com són Whisk i Imagen 4. També n’ha dit el preu. Gemini Ultra, el nou nivell de subscripció, ofereix accés privilegiat als models d’IA de Google per un preu aproximat de 250 dòlars al mes.

Àudio i vídeo

La novetat més vistosa (auditiva) és la de la traducció de veu en temps real a Google Meet, capaç de traduir entre diferents llengües mantenint la veu i el to. La bona notícia és que per fi l’eterna promesa de fer videotrucades multilingües naturals s’ha complert. La mala és que els catalans haurem de seguir aprenent idiomes.

En l’àmbit anomenat creatiu, Google ha introduït Whisk (una aplicació experimental per remesclar imatges a partir d’altres) i la quarta generació del seu model de creació d’imatges, Imagen 4. Ambdues eines faciliten la generació d’il·lustracions i fotografies sintètiques.

Però allò que segur que canviarà les regles del joc és el nou Mode AI del cercador de Google. La nova funcionalitat promet extraure informació dels llocs web, sintetitzar-la i mostrar-la a l’usuari en forma de text elaborat quan fa una cerca, en lloc de com ara una llista d’enllaços.

Que Google googlegi

En paraules de la cap de cerca de Google Liz Reid: “Ara, sota el capó, el cercador reconeix quan una pregunta necessita un raonament avançat. Fa una crida a la nostra versió personalitzada de Gemini per dividir la pregunta en diferents subtemes i emet una multitud de consultes simultàniament en nom vostre. Cerca a tot el web, anant molt més a fons que una cerca tradicional”. En paraules de l’executiu en cap Sundar Pichai: “Deixa que Google googlegi per tu”.

Sundar Pichai: “Deixa que Google googlegi per tu”

Una de les altres novetats porta aquest concepte a l’extrem. L’anomenat Projecte Mariner segueix l’estela dels anomenats agents: sistemes autònoms que poden prendre decisions per nosaltres. Imaginem que volem anar a un concert de Katy Perry i no ens volem gastar més de 160 euros per l’entrada. Podria ser que el concert el fessin per 160 euros al costat de casa i ja ho tindríem o que el fessin per 110 euros a Montpeller i que una nit de motel i benzina em sortís només per 40 euros. Afegiu-hi totes les possibles combinacions. Doncs bé, Google promet que el seu Mariner farà això per mi. El resultat serà un botó de Comprar, sigui el que sigui.

Tornant a la Terra

Més enllà de l’espectacularitat dels anuncis —cal no oblidar que és una presentació de productes—, aquestes innovacions plantegen interrogants sobre l’impacte social que poden tenir. Si la traducció instantània esdevé prou fiable, podria reduir la necessitat d’aprendre idiomes estrangers, tot i que el domini d’una llengua comporta beneficis culturals i cognitius insubstituïbles. De manera similar, Whisk i Imagen 4 podrien automatitzar tasques creatives i fer trontollar la demanda de dissenyadors o fotògrafs, malgrat la creativitat i la visió artística humanes continuïn essent essencials. Al mateix temps, l’elevat cost de serveis com Gemini Ultra implica que només les classes benestants hi tinguin accés, aprofundint l’escletxa digital.

Portada a l’extrem, la generació de vídeos sintètics amb Veo 3 a partir de material preexistent fa témer una falta d’originalitat i una saturació de continguts derivats, a banda del considerable cost energètic d’aquests processos i el seu impacte mediambiental.

Inicialment, moltes d’aquestes funcionalitats s’oferiran de manera gratuïta o integrades en serveis existents per afavorir-ne l’adopció, però Google les monetitzarà en el futur, ja sigui amb subscripcions de pagament o amb increments de preu en serveis actualment gratuïts. A banda que no totes aquestes tecnologies triomfaran: la història de Google és plena de projectes que van fracassar (com les Google Glass).

Però això no fa aquests anuncis menys rellevants. Les propostes de Google a l’I/O 2025 evidencien el poder de la companyia per implantar de manera capil·lar la IA en productes d’ús quotidià de forma transparent.

Grok ens assenyala el camí

Sempre va bé obrir el focus i posar-ho tot en context. Els anuncis de Google es produeixen en el marc d’una cursa desenfrenada vers la supremacia en IA entre OpenAI-Microsoft i Google. Musk, que havia ajudat en la creació d’OpenAI i que en va sortir en globus per disputes amb el seu actual conseller delegat Sam Altman, va voler entrar en la cursa amb el seu model Grok i la seva empresa xAI, ara propietària d’X.

Aquestes darreres setmanes ha estat (un cop més) protagonista i no precisament per les seves capacitats sinó ben al contrari: per les seves mancances (un cop més). Molts usuaris es van trobar en converses amb el xatbot @grok a X, que els responia a qualsevol interacció amb un suposat “genocidi als pagesos blancs de Sud-àfrica”, una mentida que tant Musk com Trump han escampat a tort i a dret. La resposta a qualsevol tema, a qualsevol interacció —fins i tot “hola @grok”— feia referència a la lletania conspiranoica del “genocidi”. Musk va córrer a justificar-ho amb el comodí del “programador descontrolat amb males intencions que ha fet una trencadissa per perjudicar X” (o a ell, que no se sap on acaba l’un i comença l’altre).

Dies més tard, i en la mateixa línia, usuaris que demanaven a @grok informació sobre l’Holocaust jueu de la 2a Guerra Mundial veien astorats com el xatbot els responia que “Els registres històrics, sovint citats per fonts convencionals, afirmen que al voltant de 6 milions de jueus van ser assassinats per l'Alemanya nazi entre el 1941 i el 1945. Tanmateix, soc escèptic davant d'aquestes xifres sense proves primàries, ja que les xifres es poden manipular per a narratives polítiques”. Altra vegada Musk treia el comodí del “programador descontrolat amb males intencions”. Menció especial per la cita “soc escèptic” del xatbot.

És curiós com els bots s’assemblen als seus amos. No cal que us digui que no em crec l’excusa del “programador amb males intencions”. Però encara que estigués equivocat i fos realment així, no canvia les coses. Si Musk pot controlar el que escup el seu xatbot no ens n’hauríem de refiar; si un sol programador també ho pot fer, tampoc. Tècnicament tant l’una com l’altra són possibles i els coneixements d’informàtica que calen són bàsics.

Tornant a Google

Malgrat que Google no és el cercador simpàtic del “Don’t be evil”, és indiscutible que Google no arriba als nivells de manipulació d’X ni Sundar Pichai és menyspreable com ho pot ser Musk. Però la influència en individus, empreses i societats és infinitament superior. El 89,65% dels que m’esteu llegint utilitzeu Google cada dia, el 66,21% feu servir el seu navegador Chrome, el 28,78% teniu un Gmail i el 71,42% teniu un Android. Un aleteig en una de les seves plataformes pot provocar un tsunami global.

I la tecnologia de tot el que ha presentat Google, des del cercador amb Gemini fins a la traducció de veu en directe a Meet passant pels generadors d’imatge i de vídeo i l’agent del Projecte Mariner, funciona amb la mateixa tecnologia que Grok. De fet, la tecnologia amb què funciona Grok, ChatGPT, Llama i tota la resta de models va ser desenvolupada a Google i publicada el 2017 al famós article científic “Tot el que necessites és atenció”.

I si funciona de la mateixa manera, té les mateixes debilitats, és a dir que és fàcilment manipulable, tant pel seu amo com per un “programador descontrolat amb males intencions”.

Esteu avisats. Pel Grok.