La pèrdua de llocs de treball, la generalització de la desinformació, la vigilància massiva de la societat, la pornografia infantil i la repressió a immigrants han tingut, en el darrer any natural, un denominador comú: la intel·ligència artificial generativa. No és d’estranyar, doncs, que qualsevol solució que es promocioni fent servir aquestes tecnologies generi al seu voltant un halo de suspicàcia en certs sectors de la societat. “Els últims anys, parlar d’intel·ligència artificial s’ha convertit en un sinònim de parlar de poder, control i geopolítica. Abans parlàvem de solucionar els problemes de la gent, de com podia servir les persones, i no de com se servia d’elles”, ha resumit l’enginyer informàtic i CEO de Sorensen AI, Josep M. Ganyet.
Davant de la disjuntiva presentada per Ganyet, a la Universitat Pompeu Fabra (UPF) han presentat aquest dimarts una nova eina que aposta amb fermesa pel primer grup, el de les tecnologies que busquen servir les persones. Es tracta de SignarIA, un programari que vol dotar a les persones sordes d’un mecanisme per poder participar activament en la ràdio i altres entorns audiovisuals. El projecte, codesenvolupat pels grups de recerca POLCOM-GRP i LSC Lab amb Sorensen AI, ha desenvolupat un prototip de veu sintètica personalitzable que els usuaris podran fer servir en entorns audiovisuals sense renunciar a l’ús de la llengua catalana de signes (LSC).
SignarIA sorgeix com una solució per tombar les barreres que afronten els estudiants sords de Periodisme a les assignatures de ràdio
La prova més clara de la intencionalitat de servei de l’eina es troba en els seus orígens. “Tot això neix del repte amb què ens vam trobar, fa un any, als estudis de Periodisme de la universitat”, ha recordat el professor del Departament de Comunicació de la UPF i un dels dos investigadors principals de SignarIA, Marcel Mauri. La Berta, una estudiant del grau, és una persona sorda signant, i quan va haver de començar l’assignatura de ràdio, no sabien com encarar-ho. “Li va semblar que no podria fer-la, i vam dir: ‘Hem de trobar una solució’. No pot ser que una alumna no pugui fer una de les assignatures importants”, ha relatat Mauri. “Recordo la primera espurna, una trucada amb en Ganyet en què li vaig presentar la idea, una mica boja, de fer una veu sintètica per a la Berta, que ha fet tot el grau de manera magnífica amb un intèrpret”, ha relatat per la seva banda Roger Cassany, l’altre investigador principal de SignarIA i també professor del departament.
Identificada la necessitat, ambdós professors van sumar a l’equip experts en tecnologia (Sorensen AI) i en interpretació i llengua de signes catalana (el grup de recerca LSC Lab de la mateixa universitat) i van presentar-se a un projecte europeu per aconseguir una font de finançament. Amb la resposta positiva, el projecte va encetar-se el mes de novembre de 2025 i s’ha allargat fins a aquest mateix mes de març, que ha finalitzat amb la presentació pública del prototip aquest dimarts.
Un desenvolupament tecnològic amb tres innovacions clau
Amb el finançament, el calendari i l’objectiu clar, calia veure com encarar la recerca, que va acabar centrant-se a buscar solucions per a dos reptes principals: passar de l’LSC al text, i passar del text a la veu. En el primer dels dos àmbits, el gran obstacle amb què va trobar-se l’equip de SignarIA és que la base de dades lingüístiques d’LSC disponible actualment era insuficient per a la tasca de traducció automàtica que pretenien fer. I la resposta va arribar amb una doble solució.
Per una banda, l’equip va ampliar el corpus existent amb la generació sintètica de signes, limitat principalment a les conjugacions verbals: aprofitant la morfologia de l’LSC, a partir de la interpretació humana d’un verb en infinitiu podien confeccionar la resta de conjugacions d’aquell verb amb un personatge virtual en un entorn de videojoc. “El mètode ha estat acceptat per a la seva publicació a l’LREC 2026 -conferència internacional sobre recursos lingüístics i interpretació-. És la primera pedra fonamental del projecte”, ha assegurat l’enginyera responsable del desenvolupament tecnològic de SignarIA, Inés Broto. Però amb aquesta ampliació no n’hi havia prou, així que l’equip també ha incorporat un mòdul de llenguatge, basat en un gran model de llenguatge (LLM), que a partir dels elements claus captats visualment per la càmera “ajuda a construir frases concretes i coherents”, segons ha explicat Cassany.
La veu sintètica de SignarIA combina el timbre de la persona sorda signant amb la prosòdia d'un familiar pròxim, que actua de "donant de veu"
Amb aquestes dues innovacions, el sistema que han desenvolupat és capaç d’entendre la interpretació en llengua de signes de l’usuari, captada a través de la càmera, i traduir-la a llengua escrita. Però per convertir aquest text en veu no s’han limitat a fer servir models comercials o de codi obert ja disponibles amb veus neutres, ja que, segons ha comentat Cassany, “per la càrrega ètica, calia respectar la veu de l’usuari”. És aquí on neix el concepte que els autors han denominat identitat sonora, una veu sintètica que mescla el timbre de la veu de la persona sorda amb la prosòdia (accent, ritme, entonació…) d’un “donant lingüístic” pròxim, que acostumen a ser familiars. “La manera com parlem ve molt definida pel nostre entorn, sobretot quan som més joves”, indica el també enginyer responsable del desenvolupament tecnològic de SignarIA, Xavi Vinaixa. “Tot això són coses inèdites, ens hem hagut de trencar el cap”, ha asseverat.
Tot això pren la forma d’una plataforma web que, a través de diferents mòduls, capta, processa i transmet els missatges. A la part superior, la plataforma mostra una transcripció en temps real de la llengua parlada dels interlocutors de la persona sorda, perquè aquesta no hagi de dependre exclusivament dels intèrprets, però alhora també per donar context al sistema informatiu al sistema, que es pot ampliar en forma de text. D’altra banda, a la part inferior, una càmera capta la imatge de l’usuari, a la qual se sobreposa un “esquelet” digital que interpreta els signes de l’LSC; i al costat, les transcripcions en text que en fa, sempre amb tres variants: una concisa, una complementada amb el context que té i una de més creativa. L’opció que esculli la persona sorda és la que es reproduirà amb la veu sintètica creada per l’ocasió.
L’avaluació de persones sordes i professionals de ràdio
Però més enllà del desenvolupament tecnològic de l’eina, calia veure si allò que s’havia plantejat sobre el paper tenia una utilitat real. És per això que l’equip investigador ha dut a terme dues dinàmiques de grup: una primera amb persones sordes signants, i una segona amb professionals del periodisme radiofònic i docents de la universitat. La primera d’aquestes trobades els va servir per veure que, més enllà de l’ús original, el món de la ràdio, SignarIA també podia tenir altres aplicacions en àmbits com ara la formació en línia o els judicis. Els participants van valorar positivament la solució, tot i que van expressar alguns dubtes sobre la intromissió personal que podia suposar l’ús de la IA; i també van oferir punts de millora, com la necessitat d’una bidireccionalitat (que els missatges orals també es traduïssin a llengua de signes) o d’una millora en usabilitat (per exemple, que es desenvolupés en forma d’aplicació per a mòbils i no calgués dur a sobre un portàtil).
La bidireccionalitat, una menor dependència dels ordinadors i una millora en l'agilitat són alguns dels punts a millorar en versions futures del prototip
Per la seva banda, els professionals van destacar l’eina com un “exercici d’empatia i trencament de barreres”, segons ha explicat la coordinadora del projecte, Cecilia Barba, i també aspectes positius com la pèrdua de dependència dels intèrprets -tot i que l’eina es presenta com un complement i no com un substitut d’aquests- o la senzillesa de la interfície. Com a aspectes a millorar, la dependència d’un ordinador, la manca d’entonació de les veus sintètiques i la poca agilitat d’interacció van ser els principals apunts.
El nou paradigma per als periodistes del futur
Amb tots aquests punts per millorar, l’equip afronta ara una nova etapa del projecte, en què es vol acabar de millorar l’estat actual i ampliar-lo amb qüestions com la bidireccionalitat o la possibilitat d’adaptar-lo a altres llengües de signes. Un dels aspectes principals serà la personalització de les veus: en el prototip actual, només s’ha desenvolupat una única veu sintètica, la de l’estudiant de Periodisme que va originar el projecte, però la intenció és que els mateixos usuaris puguin generar les seves pròpies de manera senzilla amb l’ajuda d’un donant lingüístic.
Davant de les possibilitats que atorga el projecte de SignarIA, el periodista sord i fundador de l’agència Sord Press, Guillem Carles Gonel, ha admès sentir “una mica d’enveja” dels alumnes que estudiaran Periodisme a partir d’ara. “El 1971, a la UAB, quan jo vaig estudiar Periodisme, no hi havia res, no tenia ni intèrpret, estava totalment sol. El meu tutor, l’escriptor Manuel Vázquez Montalbán, em va dir: ‘Tu, que ets una persona sorda, vols treballar com a periodista? Com t’ho faràs?’”, ha recordat en una taula rodona posterior a la presentació de l’eina. En la seva trajectòria, Carles Gonel ha participat diverses vegades en mitjans radiofònics, però en diverses ocasions s’havia sentit “com si estiguessin manipulant la meva veu o fent-me servir com a marioneta”. “Ara, amb SignarIA, penso que podem participar amb molta més qualitat; ja no ens caldria ni un intèrpret, podria parlar directament. Aquesta eina és molt important, per la ràdio o per qualsevol mitjà digital”, ha reivindicat el periodista.
S’ha mostrat igualment positiva la professora associada de comunicació i ràdio a la UPF, Imma Amadeo Gurí, qui en els 25 anys que ha exercit com a docent a la universitat, el curs passat va ser la primera vegada que va afrontar el repte de formar una alumna sorda en ràdio. “Amb ella tot va ser fàcil, perquè és una alumna per a qui les barreres no existeixen”, ha reivindicat Amadeo. Malgrat que no va poder dur a terme l’exercici final de locutar un informatiu un directe, l’equip docent va demanar-li que els ajudés a confeccionar una guia per ajudar a fer que les persones sordes puguin treballar en la ràdio. Dels diversos consells, Amadeo destaca la importància que “les persones sordes són moltes i molt diverses, i cadascuna té unes diversitats molt personals” que cal entendre. La professora també ha subratllat la importància de fer-les partícipes en el procés d’ensenyament i al seu tracte com a fonts: “Cal que quan se les cridi als mitjans, no se les cridi en qualitat de persones sordes, sinó com a biòlegs, científics o l’expertesa que tinguin”.
Amadeo: “Cal que quan se les cridi als mitjans, no se les cridi en qualitat de persones sordes, sinó com a biòlegs, científics o l’expertesa que tinguin”
En un àmbit més metodològic, Ganyet ha associat els problemes de comunicació a “un tema purament tecnològic”: “El so és un canvi de pressió de l’aire, i si no tens un mitjà capaç de produir-lo, no hi ha transmissió d’informació”. Si fins ara la veu ha estat “la interfície per connectar dos cervells”, projectes com SignarIA demostren el sorgiment “d’unes tecnologies que ens permeten ampliar aquesta capacitat comunicativa”. “Per primera vegada, tenim un prototip, i a la velocitat que va tot, en molt poc temps un producte viable”, ha celebrat el CEO de Sorensen AI. Per l’expert, la iniciativa és un exemple d’una “aplicació ètica de la tecnologia”, ja que, tornant a l’inici, es tracta d’un projecte que “torna a servir les persones”. “Quan vam crear Sorensen amb la gent de Minoria Absoluta, era amb aquesta vocació: utilitzar la IA de manera ètica, aplicada a la nostra cultura i als nostres dialectes. Vam entrar per això, i aquest projecte ho reuneix absolutament tot”, ha reblat.