Com triar una agència d'agents d'IA a Espanya (2026)
Guia de criteris per avaluar agències d'agents d'IA a Espanya i Catalunya. Què preguntar, què exigir i quines banderes vermelles descarten un proveïdor abans de signar.
Punts clau
El mercat d’agents d’IA a Espanya ha crescut ràpid. En dos anys ha passat de ser un tema de conferències tecnològiques a ser un producte que centenars de proveïdors venen de maneres molt diverses. La majoria dels compradors que arriben a una primera reunió comercial no saben exactament el que compren, i alguns proveïdors se n’aprofiten d’aquesta confusió.
Aquesta guia no fa un rànquing de proveïdors ni recomana empreses concretes. El seu objectiu és donar-te els criteris per jutjar qualsevol proposta, de manera que puguis entrar a una sessió de descoberta amb les preguntes correctes i sàpigues reconèixer les respostes que mereix una proposta seriosa.
Què fa realment una agència d’agents d’IA
Abans de parlar de criteris, cal tenir clar a qui se li demana comptes.
Una agència d’agents d’IA pren un procés repetitiu i acotat del teu negoci, l’estudia amb detall, i construeix un agent que assumeixi la capa mecànica d’aquell procés. La capa mecànica és la part de la feina que té regles majoritàriament clares, un volum significatiu i no requereix el criteri humà que fa valuosa la persona que fins ara la feia: classificar missatges entrants, crear esborranys de comanda a partir d’un text de WhatsApp, generar un informe setmanal de vendes, qualificar leads per criteris predefinits.
L’agent no pren les decisions que importa prendre. No gestiona la relació amb el client ni resol els casos ambigus que requereixen context. El que fa és assumir el volum mecànic perquè l’equip humà pugui dedicar el seu temps a la feina que afegeix valor real: el criteri, la relació, les decisions complexes.
Una agència seriosa no et ven “automatitzar el teu negoci”. Et ven un agent per a un procés concret, amb una mètrica concreta, que pots aturar en cinc minuts si falla. Tot el que surti d’aquest marc és publicitat.
Què no fa una agència d’agents d’IA
Tan important com el que fa és el que no fa, i és en el que no fa on es filtra la majoria del mercat.
No garanteix percentatges de precisió. Un agent d’IA mesura el comportament real sobre dades reals. Una agència seriosa et dirà quin percentatge d’esborranys van ser acceptats sense edició el tercer mes, o quant va baixar el temps mig de primera resposta. No et dirà “el nostre agent té un 97% de precisió” sense especificar sobre quin conjunt de dades, amb quin procés i en quin moment. Les garanties d’exactitud abstractes no valen res.
No ven scope obert. Un projecte d’agent que comença amb “volem automatitzar el màxim possible” no és un projecte: és un pressupost sense fons. Una implementació seriosa comença pel procés més petit, més acotat i més mesurable del negoci. Si funciona i es mesura, s’amplia.
No entrena models compartits amb les teves dades. Les teves dades de negoci (clients, comandes, preus, converses) no han d’alimentar cap model que altres empreses facin servir. Cada implementació hauria d’aïllar les dades del client. Si el proveïdor no ho confirma explícitament, cal preguntar-ho.
Els set criteris per avaluar qualsevol proposta
La taula de sota recull els criteris que han de ser presents a qualsevol proposta seriosa d’implementació d’agent d’IA. No és una llista de desitjos. És el que diferencia un projecte productiu d’un experiment a càrrec del client.
| Criteri | Què has de veure a la proposta | Bandera vermella |
|---|---|---|
| Scope acotat | Un sol workflow definit pas a pas, amb entrades, sortides i casos límit | ”Automatitzarem tot el procés d’atenció” sense especificar |
| Mètrica d’èxit | Una xifra concreta i un mètode de mesura. Baseline pre-agent si existeix | ”Millorarem l’eficiència” sense nombre ni mètode |
| Kill-switch | Mecanisme documentat, accionable pel client en <5 min sense dependre del proveïdor | El kill-switch “es pot demanar” al proveïdor |
| Fallback humà | Via documentada que manté el procés en marxa quan l’agent és apagat | Cap menció del que passa si l’agent falla |
| Model-agnòstic | Arquitectura que no depèn d’un sol LLM; Claude, GPT, Gemini o open-weights | ”Fem servir la nostra IA pròpia” sense detalls |
| Propietat de dades i codi | Explícit al contracte: client rep prompts, config, registres i credencials en sortir | Cap menció de portabilitat o propietat |
| Harness d’avaluació | Proves periòdiques sobre tràfic real, cadència mínima mensual, resultat numèric | ”Supervisem el sistema” sense especificar com ni amb quina cadència |
Si un proveïdor no pot respondre els set criteris a la primera reunió amb preparació mínima, el projecte no és productiu. Potser és una demostració interessant. No és una implementació.
Preguntes concretes per a la sessió de descoberta
No cal memoritzar la taula anterior. Cinc preguntes concretes et donaran la informació per jutjar qualsevol proveïdor:
1. Quin procés exactament assumirà l’agent, pas a pas? La resposta ha de ser un flux: “el client envia un missatge de WhatsApp amb la comanda, l’agent llegeix el text, identifica el client al CRM, comprova estoc a l’ERP, redacta l’esborrany de comanda i el deixa pendent de validació humana”. Si la resposta és vaga, el scope no existeix.
2. Quina mètrica millorarà i com mesurarem la baseline? La resposta ha d’incloure un nombre concret i un mètode de mesura. “Percentatge d’esborranys acceptats sense edició” o “temps mig de primera resposta en correus de suport”. Si no hi ha baseline, cal definir el mètode per capturar-la durant les primeres setmanes.
3. Com es desactiva l’agent i en quants minuts? Ha d’haver-hi una resposta precisa: variable d’entorn, botó al panell d’administració, crida API. I un SLA d’efectivitat. Si el proveïdor respon “t’enviem un correu i ho fem nosaltres”, el kill-switch depèn del proveïdor. No és un kill-switch real.
4. Qui cobreix el procés quan l’agent és apagat? El fallback ha d’estar documentat: qui agafa el volum, amb quines eines, en quin termini. “L’equip ho gestiona com abans” sense més detall indica que el fallback no s’ha dissenyat.
5. Amb quin model o models s’implementarà i per quin motiu? La resposta ha d’explicar l’elecció en termes del procés: “Claude per la seva capacitat de seguiment d’instruccions complexes”, “Gemini per la integració nativa amb Google Workspace del client”. Si la resposta és “fem servir la nostra IA” sense especificar, no tens visibilitat sobre el que hi ha a sota.
Boutique o gran integrador: la pregunta que determina el suport
El mercat es divideix en dos perfils molt diferents.
Una agència boutique treballa amb un nombre limitat de clients de forma simultània. Qui dissenya l’agent és la mateixa persona, o el mateix equip petit, que el manté. Quan l’agent falla un dijous a les 22:00, hi ha algú que en coneix cada detall i pot diagnosticar-ho en minuts. El risc és la dependència de persones concretes: si l’agència perd talent clau, el suport es degrada.
Un gran integrador té estructura: equips de gestió, acords comercials amb els principals proveïdors de LLM, departaments de qualitat. El risc és l’escala: les implementacions es gestionen amb plantilles, les decisions passen per múltiples capes d’aprovació i el coneixement específic del teu negoci es dilueix en un compte més gran. La persona que va fer la descoberta inicial rarament és la que manté el sistema sis mesos després.
Cap perfil és superior per defecte. El que cal preguntar és: qui estarà disponible el dia que l’agent falli i quant de temps trigarà a estar al telèfon?
Banderes vermelles que descarten un proveïdor
Sis senyals que, si apareixen, mereixen aturar el procés de selecció:
Garanties de precisió sense mètrica. “El nostre agent és altament precís” o “aconseguim resultats molt fiables” sense especificar sobre quin procés, amb quines dades i en quin marc de temps. Un agent d’IA opera sobre distribucions de dades reals i el seu comportament es mesura, no es garanteix amb adjectius.
Cap menció de kill-switch ni de fallback humà. Si en tota la reunió inicial no apareix cap d’aquests dos elements, el proveïdor no té experiència en implementacions productives. Cap implementació seriosa omet el mecanisme d’aturada.
Scope que creix durant la negociació. Un proveïdor que a cada reunió afegeix nous processos al projecte sense que tu ho hagis demanat no t’està fent un favor. Et està venent complexitat. El scope ha de ser el mínim que generi valor mesurable. L’ampliació ve quan el pilot mesura resultats.
Entrenament de models compartits. Si la proposta menciona “millorarem el model amb les teves dades” sense garanties explícites d’aïllament, les teves dades podrien alimentar agents d’altres clients. Exigeix documentació de com s’aïllen les dades i que consti al contracte.
Cost d’inferència il·limitat a càrrec del client. Els models de llenguatge cobren per token. Un agent que processa centenars de missatges al dia pot generar costos d’inferència significatius. Un proveïdor seriós inclou un cap mensual de cost d’inferència al contracte, amb mecanisme de notificació si s’apropa al límit.
Dependència estructural de sortida. Si al final del contracte el client no pot accedir als seus prompts, a la seva configuració d’orquestració ni als seus registres d’execució, el proveïdor ha construït una barrera de sortida. Exigeix que el traspàs de tota la propietat intel·lectual del projecte quedi documentat al contracte.
El marc antropocèntric: per què importa l’angle
Una de les diferències entre una proposta tècnica decent i una implementació real és com l’agència descriu el paper de l’equip humà.
Una implementació d’agent d’IA ben dissenyada no elimina persones del procés. Elimina la capa mecànica del procés perquè les persones puguin dedicar el seu temps al que fa que el seu treball tingui valor: el criteri davant d’un cas ambigu, la relació amb el client que vol una resposta personalitzada, la decisió que requereix context que l’agent no pot tenir.
Quan una proposta parla de “reduir costos de personal” o de “fer la feina de X persones amb un sol agent”, l’agència t’està venent una promesa que no reflecteix com funcionen les implementacions bones. Un agent que toca operacions reals necessita un equip humà que el supervisi, que validi els casos ambigus, que detecti errors de comportament i que sàpiga quan apagar-lo. El valor no és la reducció d’equip, és el que l’equip pot fer quan deixa de gestionar el volum mecànic.
Si el proveïdor no parla de l’equip humà com a part de l’arquitectura del sistema, el projecte no té el disseny complet.
Què cal tenir clar abans de la primera reunió
Arribar a una sessió de descoberta amb informació clara del teu costat accelera el procés i millora la qualitat de la proposta que rebràs.
Tres coses que val la pena tenir identificades:
El procés concret. No “atenció al client en general”, sinó “la gestió de comandes que arriben per WhatsApp i que avui processa manualment una persona del nostre equip”. Com més específic, millor la proposta.
El volum. Quants casos té el procés al mes. No cal que sigui exacte, però un ordre de magnitud ajuda a dimensionar si el projecte té sentit: 50 comandes al mes és un context diferent de 500.
La mètrica d’èxit des de la teva perspectiva. Què ha de millorar perquè el projecte valgui la pena? Temps de resposta, percentatge de casos processats sense intervenció humana, errors detectats abans que arribin al client? Si pots definir un nombre concret i un mètode de mesura, el projecte arrenca amb molta més solidesa.
On treballa serpixel
serpixel (Clever European Business, S.L.) és una agència boutique d’implementació d’agents d’IA a mida per a pimes, amb seu a Catalunya. Els projectes actius cobreixen Espanya, Portugal i Andorra. Treballa en tres línies: agent d’atenció al client, agent de vendes i agent d’operacions. Tota implementació inclou scope acotat a un sol workflow, kill-switch i fallback humà des del primer dia, arquitectura model-agnòstica (Claude, GPT, Gemini o open-weights), propietat de dades i codi pel client, i harness d’avaluació contínua sobre tràfic real.
Si tens un procés repetitiu en ment i vols una sessió de 30 minuts per avaluar si té sentit construir un agent per a ell, la forma de començar és una sessió de descoberta a Calendly. Sense compromís de contractació. Amb el procés sobre la taula i les preguntes d’aquest article com a marc de referència.