ConsellsNotícies

Com triar una agència d'agents d'IA a Espanya (2026)

Q: Quins criteris hauria d'usar per avaluar una agència d'agents d'IA?

Set criteris fonamentals: (1) scope acotat a un sol workflow amb una mètrica d'èxit mesurable, (2) kill-switch documentat accionable pel client en menys de cinc minuts, (3) fallback humà definit per al cas d'aturada, (4) model-agnòstic (Claude, GPT, Gemini o open-weights), (5) propietat de dades i codi pel client, (6) harness d'avaluació periòdica sobre tràfic real, (7) traspàs documentat de prompts i configuració al final del contracte. Un proveïdor que no pot respondre tots set a la primera reunió no té el projecte preparat per anar a producció.

Q: Quines preguntes hauria de fer en una sessió de descoberta amb una agència d'agents d'IA?

Cinc preguntes no negociables: quin procés concret assumirà l'agent pas a pas, quina mètrica es millorarà i com es mesurarà la baseline pre-agent, com es desactiva l'agent i en quants minuts, qui i com cobreix el procés quan l'agent és apagat, i amb quin model o models s'implementarà i per quin motiu. A banda d'aquestes, és útil preguntar quants projectes similars han implementat i si poden mostrar mètriques reals d'algun d'ells.

Q: Quines banderes vermelles descarten un proveïdor d'agents d'IA?

Sis senyals d'alerta que mereixen aturar-se: promeses de 'precisió alta' o percentatges de correcció sense una mètrica específica i una baseline documentada; absència de kill-switch o fallback humà al document de condicions; scope obert que va creixent sense control durant la negociació; entrenament de models compartits amb dades de varis clients sense consentiment; cost d'inferència no transparent o il·limitat a càrrec del client; i dependència tècnica estructural que impedeix canviar de model o portar el codi a un altre proveïdor.

Q: Quin és el model de treball d'una agència boutique d'IA versus un gran integrador?

Una agència boutique treballa amb un nombre reduït de clients de forma simultània, cosa que permet una implicació directa de les persones que dissenyen i mantenen l'agent. El risc és la capacitat: si l'agència és molt petita, la continuïtat del servei depèn de poques persones. Un gran integrador té més estructura i recursos però sovint subcontracta la implementació tècnica, allarga els processos de decisió i treballa amb plantilles poc adaptades al negoci del client. La pregunta clau és qui estarà disponible el dia que l'agent falli a les 22:00 d'un dijous.

Q: Qui ha de ser propietari de les dades quan s'implementa un agent d'IA?

El client és propietari de les dades en tot moment. Això inclou les dades de producció que l'agent llegeix i escriu, els registres d'execució generats per l'agent, i les dades anonimitzades o sintètiques que es fan servir per avaluar-lo. Una agència seriosa ho documenta al document de condicions i no reutilitza les dades d'un client per millorar models compartits ni per entrenar agents per a altres clients.

Q: Què és un harness d'avaluació d'agents i per què és necessari?

Un harness d'avaluació és un conjunt de proves automàtiques que es passen periòdicament sobre l'agent en producció per comprovar que continua funcionant amb la mateixa qualitat. Mesura precisió de les decisions de l'agent, latència de resposta, cost per acció i deriva de comportament al llarg del temps. És necessari perquè els models d'IA canvien (noves versions, noves distribucions de dades) i el comportament real d'un agent pot degradar-se sense que ningú ho noti fins que un client ho reporta.

Q: Què vol dir que un agent d'IA sigui model-agnòstic?

Vol dir que la implementació no depèn d'un sol proveïdor de model de llenguatge. Un agent model-agnòstic pot funcionar amb Claude (Anthropic), GPT (OpenAI), Gemini (Google) o models open-weights, i pot canviar de model si el comportament d'un nou model és millor, si el cost d'inferència es redueix o si el proveïdor actual canvia les condicions. En la pràctica, significa que l'arquitectura separa la lògica de l'agent del model concret, de manera que el canvi és una decisió tècnica, no un redisseny.

Q: Quin és el paper de serpixel com a agència d'agents d'IA?

serpixel (Clever European Business, S.L.) és una agència d'implementació d'agents d'IA a mida per a pimes, amb base a Catalunya i projectes a Espanya, Portugal i Andorra. Treballa en tres línies: agent d'atenció al client, agent de vendes i agent d'operacions. Tota implementació inclou scope acotat a un sol workflow, kill-switch i fallback humà des del primer dia, model-agnòstic (Claude, GPT, Gemini o open-weights), propietat de dades i codi pel client, i harness d'avaluació contínua. La conversa comença sempre en una sessió de descoberta de 30 minuts.

Guia de criteris per avaluar agències d'agents d'IA a Espanya i Catalunya. Què preguntar, què exigir i quines banderes vermelles descarten un proveïdor abans de signar.

serpixel · 9 de juny del 2026

Equip petit reunint-se al voltant d'una taula amb ordinadors portàtils i documents impresos, analitzant criteris d'una proposta tecnològica

Punts clau

Un agent seriós opera sobre un sol workflow acotat: Qualsevol proveïdor que presenti un agent sense una definició escrita del procés, entrades, sortides i casos límit, no té un projecte. Té una intenció. La primera pregunta de filtre és: quina mètrica concreta canviarà la setmana quatre?

El kill-switch i el fallback humà no són opcionals: Un agent que toca operacions reals del negoci ha de poder apagar-se en menys de cinc minuts pel client, sense dependre del proveïdor. I el procés ha de continuar funcionant quan l'agent és apagat. Tots dos elements han d'aparèixer al document de condicions abans de signar.

Model-agnòstic significa que el client no queda lligat a cap proveïdor de LLM: Una agència seriosa no casa la implementació amb un sol model (Claude, GPT, Gemini o open-weights). El model és una decisió tècnica basada en el procés concret, el cost d'inferència i el comportament mesurat. El client ha de poder canviar-lo si el mercat canvia.

Les dades i el codi pertanyen al client, no a l'agència: A la fi del contracte, el client ha de rebre tots els prompts, la configuració d'orquestració, els registres d'execució i les credencials d'integració. Si el proveïdor no confirma això a la primera reunió, la dependència és part del model de negoci.

El mercat d’agents d’IA a Espanya ha crescut ràpid. En dos anys ha passat de ser un tema de conferències tecnològiques a ser un producte que centenars de proveïdors venen de maneres molt diverses. La majoria dels compradors que arriben a una primera reunió comercial no saben exactament el que compren, i alguns proveïdors se n’aprofiten d’aquesta confusió.

Aquesta guia no fa un rànquing de proveïdors ni recomana empreses concretes. El seu objectiu és donar-te els criteris per jutjar qualsevol proposta, de manera que puguis entrar a una sessió de descoberta amb les preguntes correctes i sàpigues reconèixer les respostes que mereix una proposta seriosa.

Què fa realment una agència d’agents d’IA

Abans de parlar de criteris, cal tenir clar a qui se li demana comptes.

Una agència d’agents d’IA pren un procés repetitiu i acotat del teu negoci, l’estudia amb detall, i construeix un agent que assumeixi la capa mecànica d’aquell procés. La capa mecànica és la part de la feina que té regles majoritàriament clares, un volum significatiu i no requereix el criteri humà que fa valuosa la persona que fins ara la feia: classificar missatges entrants, crear esborranys de comanda a partir d’un text de WhatsApp, generar un informe setmanal de vendes, qualificar leads per criteris predefinits.

L’agent no pren les decisions que importa prendre. No gestiona la relació amb el client ni resol els casos ambigus que requereixen context. El que fa és assumir el volum mecànic perquè l’equip humà pugui dedicar el seu temps a la feina que afegeix valor real: el criteri, la relació, les decisions complexes.

Una agència seriosa no et ven “automatitzar el teu negoci”. Et ven un agent per a un procés concret, amb una mètrica concreta, que pots aturar en cinc minuts si falla. Tot el que surti d’aquest marc és publicitat.

Què no fa una agència d’agents d’IA

Tan important com el que fa és el que no fa, i és en el que no fa on es filtra la majoria del mercat.

No garanteix percentatges de precisió. Un agent d’IA mesura el comportament real sobre dades reals. Una agència seriosa et dirà quin percentatge d’esborranys van ser acceptats sense edició el tercer mes, o quant va baixar el temps mig de primera resposta. No et dirà “el nostre agent té un 97% de precisió” sense especificar sobre quin conjunt de dades, amb quin procés i en quin moment. Les garanties d’exactitud abstractes no valen res.

No ven scope obert. Un projecte d’agent que comença amb “volem automatitzar el màxim possible” no és un projecte: és un pressupost sense fons. Una implementació seriosa comença pel procés més petit, més acotat i més mesurable del negoci. Si funciona i es mesura, s’amplia.

No entrena models compartits amb les teves dades. Les teves dades de negoci (clients, comandes, preus, converses) no han d’alimentar cap model que altres empreses facin servir. Cada implementació hauria d’aïllar les dades del client. Si el proveïdor no ho confirma explícitament, cal preguntar-ho.

Els set criteris per avaluar qualsevol proposta

La taula de sota recull els criteris que han de ser presents a qualsevol proposta seriosa d’implementació d’agent d’IA. No és una llista de desitjos. És el que diferencia un projecte productiu d’un experiment a càrrec del client.

Criteri	Què has de veure a la proposta	Bandera vermella
Scope acotat	Un sol workflow definit pas a pas, amb entrades, sortides i casos límit	”Automatitzarem tot el procés d’atenció” sense especificar
Mètrica d’èxit	Una xifra concreta i un mètode de mesura. Baseline pre-agent si existeix	”Millorarem l’eficiència” sense nombre ni mètode
Kill-switch	Mecanisme documentat, accionable pel client en <5 min sense dependre del proveïdor	El kill-switch “es pot demanar” al proveïdor
Fallback humà	Via documentada que manté el procés en marxa quan l’agent és apagat	Cap menció del que passa si l’agent falla
Model-agnòstic	Arquitectura que no depèn d’un sol LLM; Claude, GPT, Gemini o open-weights	”Fem servir la nostra IA pròpia” sense detalls
Propietat de dades i codi	Explícit al contracte: client rep prompts, config, registres i credencials en sortir	Cap menció de portabilitat o propietat
Harness d’avaluació	Proves periòdiques sobre tràfic real, cadència mínima mensual, resultat numèric	”Supervisem el sistema” sense especificar com ni amb quina cadència

Si un proveïdor no pot respondre els set criteris a la primera reunió amb preparació mínima, el projecte no és productiu. Potser és una demostració interessant. No és una implementació.

Preguntes concretes per a la sessió de descoberta

No cal memoritzar la taula anterior. Cinc preguntes concretes et donaran la informació per jutjar qualsevol proveïdor:

1. Quin procés exactament assumirà l’agent, pas a pas? La resposta ha de ser un flux: “el client envia un missatge de WhatsApp amb la comanda, l’agent llegeix el text, identifica el client al CRM, comprova estoc a l’ERP, redacta l’esborrany de comanda i el deixa pendent de validació humana”. Si la resposta és vaga, el scope no existeix.

2. Quina mètrica millorarà i com mesurarem la baseline? La resposta ha d’incloure un nombre concret i un mètode de mesura. “Percentatge d’esborranys acceptats sense edició” o “temps mig de primera resposta en correus de suport”. Si no hi ha baseline, cal definir el mètode per capturar-la durant les primeres setmanes.

3. Com es desactiva l’agent i en quants minuts? Ha d’haver-hi una resposta precisa: variable d’entorn, botó al panell d’administració, crida API. I un SLA d’efectivitat. Si el proveïdor respon “t’enviem un correu i ho fem nosaltres”, el kill-switch depèn del proveïdor. No és un kill-switch real.

4. Qui cobreix el procés quan l’agent és apagat? El fallback ha d’estar documentat: qui agafa el volum, amb quines eines, en quin termini. “L’equip ho gestiona com abans” sense més detall indica que el fallback no s’ha dissenyat.

5. Amb quin model o models s’implementarà i per quin motiu? La resposta ha d’explicar l’elecció en termes del procés: “Claude per la seva capacitat de seguiment d’instruccions complexes”, “Gemini per la integració nativa amb Google Workspace del client”. Si la resposta és “fem servir la nostra IA” sense especificar, no tens visibilitat sobre el que hi ha a sota.

Boutique o gran integrador: la pregunta que determina el suport

El mercat es divideix en dos perfils molt diferents.

Una agència boutique treballa amb un nombre limitat de clients de forma simultània. Qui dissenya l’agent és la mateixa persona, o el mateix equip petit, que el manté. Quan l’agent falla un dijous a les 22:00, hi ha algú que en coneix cada detall i pot diagnosticar-ho en minuts. El risc és la dependència de persones concretes: si l’agència perd talent clau, el suport es degrada.

Un gran integrador té estructura: equips de gestió, acords comercials amb els principals proveïdors de LLM, departaments de qualitat. El risc és l’escala: les implementacions es gestionen amb plantilles, les decisions passen per múltiples capes d’aprovació i el coneixement específic del teu negoci es dilueix en un compte més gran. La persona que va fer la descoberta inicial rarament és la que manté el sistema sis mesos després.

Cap perfil és superior per defecte. El que cal preguntar és: qui estarà disponible el dia que l’agent falli i quant de temps trigarà a estar al telèfon?

Banderes vermelles que descarten un proveïdor

Sis senyals que, si apareixen, mereixen aturar el procés de selecció:

Garanties de precisió sense mètrica. “El nostre agent és altament precís” o “aconseguim resultats molt fiables” sense especificar sobre quin procés, amb quines dades i en quin marc de temps. Un agent d’IA opera sobre distribucions de dades reals i el seu comportament es mesura, no es garanteix amb adjectius.

Cap menció de kill-switch ni de fallback humà. Si en tota la reunió inicial no apareix cap d’aquests dos elements, el proveïdor no té experiència en implementacions productives. Cap implementació seriosa omet el mecanisme d’aturada.

Scope que creix durant la negociació. Un proveïdor que a cada reunió afegeix nous processos al projecte sense que tu ho hagis demanat no t’està fent un favor. Et està venent complexitat. El scope ha de ser el mínim que generi valor mesurable. L’ampliació ve quan el pilot mesura resultats.

Entrenament de models compartits. Si la proposta menciona “millorarem el model amb les teves dades” sense garanties explícites d’aïllament, les teves dades podrien alimentar agents d’altres clients. Exigeix documentació de com s’aïllen les dades i que consti al contracte.

Cost d’inferència il·limitat a càrrec del client. Els models de llenguatge cobren per token. Un agent que processa centenars de missatges al dia pot generar costos d’inferència significatius. Un proveïdor seriós inclou un cap mensual de cost d’inferència al contracte, amb mecanisme de notificació si s’apropa al límit.

Dependència estructural de sortida. Si al final del contracte el client no pot accedir als seus prompts, a la seva configuració d’orquestració ni als seus registres d’execució, el proveïdor ha construït una barrera de sortida. Exigeix que el traspàs de tota la propietat intel·lectual del projecte quedi documentat al contracte.

El marc antropocèntric: per què importa l’angle

Una de les diferències entre una proposta tècnica decent i una implementació real és com l’agència descriu el paper de l’equip humà.

Una implementació d’agent d’IA ben dissenyada no elimina persones del procés. Elimina la capa mecànica del procés perquè les persones puguin dedicar el seu temps al que fa que el seu treball tingui valor: el criteri davant d’un cas ambigu, la relació amb el client que vol una resposta personalitzada, la decisió que requereix context que l’agent no pot tenir.

Quan una proposta parla de “reduir costos de personal” o de “fer la feina de X persones amb un sol agent”, l’agència t’està venent una promesa que no reflecteix com funcionen les implementacions bones. Un agent que toca operacions reals necessita un equip humà que el supervisi, que validi els casos ambigus, que detecti errors de comportament i que sàpiga quan apagar-lo. El valor no és la reducció d’equip, és el que l’equip pot fer quan deixa de gestionar el volum mecànic.

Si el proveïdor no parla de l’equip humà com a part de l’arquitectura del sistema, el projecte no té el disseny complet.

Què cal tenir clar abans de la primera reunió

Arribar a una sessió de descoberta amb informació clara del teu costat accelera el procés i millora la qualitat de la proposta que rebràs.

Tres coses que val la pena tenir identificades:

El procés concret. No “atenció al client en general”, sinó “la gestió de comandes que arriben per WhatsApp i que avui processa manualment una persona del nostre equip”. Com més específic, millor la proposta.

El volum. Quants casos té el procés al mes. No cal que sigui exacte, però un ordre de magnitud ajuda a dimensionar si el projecte té sentit: 50 comandes al mes és un context diferent de 500.

La mètrica d’èxit des de la teva perspectiva. Què ha de millorar perquè el projecte valgui la pena? Temps de resposta, percentatge de casos processats sense intervenció humana, errors detectats abans que arribin al client? Si pots definir un nombre concret i un mètode de mesura, el projecte arrenca amb molta més solidesa.

On treballa serpixel

serpixel (Clever European Business, S.L.) és una agència boutique d’implementació d’agents d’IA a mida per a pimes, amb seu a Catalunya. Els projectes actius cobreixen Espanya, Portugal i Andorra. Treballa en tres línies: agent d’atenció al client, agent de vendes i agent d’operacions. Tota implementació inclou scope acotat a un sol workflow, kill-switch i fallback humà des del primer dia, arquitectura model-agnòstica (Claude, GPT, Gemini o open-weights), propietat de dades i codi pel client, i harness d’avaluació contínua sobre tràfic real.

Si tens un procés repetitiu en ment i vols una sessió de 30 minuts per avaluar si té sentit construir un agent per a ell, la forma de començar és una sessió de descoberta a Calendly. Sense compromís de contractació. Amb el procés sobre la taula i les preguntes d’aquest article com a marc de referència.

Etiquetes

agencia agents IA Espanyacom triar agencia IAcriteris implementació agent IAagents IA pimes Catalunyaproveïdor agent IAcomprar agent IA empresakill-switch agent IA

Preguntes freqüents