Cómo elegir una agencia de agentes de IA en España (2026)
Guía de criterios para evaluar agencias de agentes de IA en España y Cataluña. Qué preguntar, qué exigir y qué señales de alerta descartan a un proveedor antes de firmar.
Puntos clave
El mercado de agentes de IA en España ha crecido rápido. En dos años ha pasado de ser un tema de conferencias tecnológicas a ser un producto que cientos de proveedores venden de formas muy distintas. La mayoría de los compradores que llegan a una primera reunión comercial no saben exactamente qué compran, y algunos proveedores aprovechan esa confusión.
Esta guía no hace una clasificación de proveedores ni recomienda empresas concretas. Su objetivo es darte los criterios para juzgar cualquier propuesta, de forma que puedas entrar en una sesión de descubrimiento con las preguntas correctas y sepas reconocer las respuestas que merece una propuesta seria.
Qué hace realmente una agencia de agentes de IA
Antes de hablar de criterios, hay que tener claro a quién se le piden cuentas.
Una agencia de agentes de IA toma un proceso repetitivo y acotado de tu negocio, lo estudia en detalle, y construye un agente que asuma la capa mecánica de ese proceso. La capa mecánica es la parte del trabajo que tiene reglas mayoritariamente claras, un volumen significativo y no requiere el criterio humano que hace valioso a quien lo ejecuta: clasificar mensajes entrantes, crear borradores de pedido a partir de un texto de WhatsApp, generar un informe semanal de ventas, calificar leads por criterios predefinidos.
El agente no toma las decisiones que importa tomar. No gestiona la relación con el cliente ni resuelve los casos ambiguos que requieren contexto. Lo que hace es asumir el volumen mecánico para que el equipo humano pueda dedicar su tiempo al trabajo que añade valor real: el criterio, la relación, las decisiones complejas.
Una agencia seria no te vende “automatizar tu negocio”. Te vende un agente para un proceso concreto, con una métrica concreta, que puedes parar en cinco minutos si falla. Todo lo que salga de ese marco es publicidad.
Qué no hace una agencia de agentes de IA
Tan importante como lo que hace es lo que no hace, y es en lo que no hace donde se filtra la mayor parte del mercado.
No garantiza porcentajes de precisión. Un agente de IA mide el comportamiento real sobre datos reales. Una agencia seria te dirá qué porcentaje de borradores fueron aceptados sin edición en el tercer mes, o cuánto bajó el tiempo medio de primera respuesta. No te dirá “nuestro agente tiene un 97% de precisión” sin especificar sobre qué conjunto de datos, con qué proceso y en qué momento. Las garantías de exactitud abstractas no valen nada.
No vende scope abierto. Un proyecto de agente que empieza con “queremos automatizar lo máximo posible” no es un proyecto: es un presupuesto sin fondo. Una implementación seria empieza por el proceso más pequeño, más acotado y más medible del negocio. Si funciona y se mide, se amplía.
No entrena modelos compartidos con tus datos. Tus datos de negocio (clientes, pedidos, precios, conversaciones) no deben alimentar ningún modelo que otras empresas usen. Cada implementación debería aislar los datos del cliente. Si el proveedor no lo confirma explícitamente, hay que preguntarlo.
Los siete criterios para evaluar cualquier propuesta
La tabla siguiente recoge los criterios que tienen que estar presentes en cualquier propuesta seria de implementación de agente de IA. No es una lista de deseos. Es lo que diferencia un proyecto productivo de un experimento a cargo del cliente.
| Criterio | Qué tienes que ver en la propuesta | Señal de alerta |
|---|---|---|
| Scope acotado | Un solo workflow definido paso a paso, con entradas, salidas y casos límite | ”Automatizaremos todo el proceso de atención” sin especificar |
| Métrica de éxito | Una cifra concreta y un método de medición. Línea base pre-agente si existe | ”Mejoraremos la eficiencia” sin número ni método |
| Kill-switch | Mecanismo documentado, que el cliente puede activar en <5 min sin depender del proveedor | El kill-switch “se puede pedir” al proveedor |
| Fallback humano | Vía documentada que mantiene el proceso en marcha cuando el agente está apagado | Sin mención de qué ocurre si el agente falla |
| Modelo-agnóstico | Arquitectura que no depende de un solo LLM; Claude, GPT, Gemini u open-weights | ”Usamos nuestra IA propia” sin detalles |
| Propiedad de datos y código | Explícito en el contrato: el cliente recibe prompts, config, registros y credenciales al salir | Sin mención de portabilidad o propiedad |
| Harness de evaluación | Pruebas periódicas sobre tráfico real, cadencia mínima mensual, resultado numérico | ”Monitorizamos el sistema” sin especificar cómo ni con qué cadencia |
Si un proveedor no puede responder los siete criterios en la primera reunión con preparación mínima, el proyecto no es productivo. Puede ser una demostración interesante. No es una implementación.
Preguntas concretas para la sesión de descubrimiento
No hace falta memorizar la tabla anterior. Cinco preguntas concretas te darán la información para juzgar a cualquier proveedor:
1. ¿Qué proceso exactamente asumirá el agente, paso a paso? La respuesta tiene que ser un flujo: “el cliente envía un mensaje de WhatsApp con el pedido, el agente lee el texto, identifica al cliente en el CRM, comprueba stock en el ERP, redacta el borrador del pedido y lo deja pendiente de validación humana”. Si la respuesta es vaga, el scope no existe.
2. ¿Qué métrica mejorará y cómo mediremos la línea base? La respuesta tiene que incluir un número concreto y un método de medición. “Porcentaje de borradores aceptados sin edición” o “tiempo medio de primera respuesta en correos de soporte”. Si no hay línea base, hay que definir el método para capturarla durante las primeras semanas.
3. ¿Cómo se desactiva el agente y en cuántos minutos? Tiene que haber una respuesta precisa: variable de entorno, botón en el panel de administración, llamada API. Y un SLA de efectividad. Si el proveedor responde “te mandamos un correo y lo hacemos nosotros”, el kill-switch depende del proveedor. No es un kill-switch real.
4. ¿Quién cubre el proceso cuando el agente está apagado? El fallback tiene que estar documentado: quién absorbe el volumen, con qué herramientas, en qué plazo. “El equipo lo gestiona como antes” sin más detalle indica que el fallback no se ha diseñado.
5. ¿Con qué modelo o modelos se implementará y por qué motivo? La respuesta tiene que explicar la elección en términos del proceso: “Claude por su capacidad de seguir instrucciones complejas”, “Gemini por la integración nativa con Google Workspace del cliente”. Si la respuesta es “usamos nuestra IA” sin especificar, no tienes visibilidad sobre lo que hay debajo.
Boutique o gran integrador: la pregunta que determina el soporte
El mercado se divide en dos perfiles muy diferentes.
Una agencia boutique trabaja con un número limitado de clientes de forma simultánea. Quien diseña el agente es la misma persona, o el mismo equipo pequeño, que lo mantiene. Cuando el agente falla un jueves a las 22:00, hay alguien que conoce cada detalle y puede diagnosticarlo en minutos. El riesgo es la dependencia de personas concretas: si la agencia pierde talento clave, el soporte se degrada.
Un gran integrador tiene estructura: equipos de gestión, acuerdos comerciales con los principales proveedores de LLM, departamentos de calidad. El riesgo es la escala: las implementaciones se gestionan con plantillas, las decisiones pasan por múltiples capas de aprobación y el conocimiento específico de tu negocio se diluye en una cuenta más grande. La persona que hizo el descubrimiento inicial raramente es quien mantiene el sistema seis meses después.
Ningún perfil es superior por defecto. Lo que hay que preguntar es: ¿quién estará disponible el día en que el agente falle y cuánto tardará en estar al teléfono?
Señales de alerta que descartan a un proveedor
Seis señales que, si aparecen, merecen detener el proceso de selección:
Garantías de precisión sin métrica. “Nuestro agente es altamente preciso” o “conseguimos resultados muy fiables” sin especificar sobre qué proceso, con qué datos y en qué marco de tiempo. Un agente de IA opera sobre distribuciones de datos reales y su comportamiento se mide, no se garantiza con adjetivos.
Sin mención de kill-switch ni de fallback humano. Si en toda la reunión inicial no aparece ninguno de estos dos elementos, el proveedor no tiene experiencia en implementaciones productivas. Ninguna implementación seria omite el mecanismo de parada.
Scope que crece durante la negociación. Un proveedor que en cada reunión añade nuevos procesos al proyecto sin que tú lo hayas pedido no te está haciendo un favor. Te está vendiendo complejidad. El scope tiene que ser el mínimo que genere valor medible. La ampliación viene cuando el piloto mide resultados.
Entrenamiento de modelos compartidos. Si la propuesta menciona “mejoraremos el modelo con tus datos” sin garantías explícitas de aislamiento, tus datos podrían alimentar agentes de otros clientes. Exige documentación de cómo se aíslan los datos y que conste en el contrato.
Coste de inferencia ilimitado a cargo del cliente. Los modelos de lenguaje cobran por token. Un agente que procesa cientos de mensajes al día puede generar costes de inferencia significativos. Un proveedor serio incluye un tope mensual de coste de inferencia en el contrato, con mecanismo de notificación si se acerca al límite.
Dependencia estructural de salida. Si al final del contrato el cliente no puede acceder a sus prompts, a su configuración de orquestación ni a sus registros de ejecución, el proveedor ha construido una barrera de salida. Exige que el traspaso de toda la propiedad intelectual del proyecto quede documentado en el contrato.
El marco antropocéntrico: por qué importa el enfoque
Una de las diferencias entre una propuesta técnica decente y una implementación real es cómo la agencia describe el papel del equipo humano.
Una implementación de agente de IA bien diseñada no elimina personas del proceso. Elimina la capa mecánica del proceso para que las personas puedan dedicar su tiempo a lo que hace que su trabajo tenga valor: el criterio ante un caso ambiguo, la relación con el cliente que quiere una respuesta personalizada, la decisión que requiere contexto que el agente no puede tener.
Cuando una propuesta habla de “reducir costes de personal” o de “hacer el trabajo de X personas con un solo agente”, la agencia te está vendiendo una promesa que no refleja cómo funcionan las buenas implementaciones. Un agente que toca operaciones reales necesita un equipo humano que lo supervise, que valide los casos ambiguos, que detecte errores de comportamiento y que sepa cuándo apagarlo. El valor no es la reducción del equipo, es lo que el equipo puede hacer cuando deja de gestionar el volumen mecánico.
Si el proveedor no habla del equipo humano como parte de la arquitectura del sistema, el proyecto no tiene el diseño completo.
Qué conviene tener claro antes de la primera reunión
Llegar a una sesión de descubrimiento con información clara de tu lado acelera el proceso y mejora la calidad de la propuesta que recibirás.
Tres cosas que conviene tener identificadas:
El proceso concreto. No “atención al cliente en general”, sino “la gestión de pedidos que llegan por WhatsApp y que hoy procesa manualmente una persona de nuestro equipo”. Cuanto más específico, mejor la propuesta.
El volumen. Cuántos casos tiene el proceso al mes. No hace falta que sea exacto, pero un orden de magnitud ayuda a dimensionar si el proyecto tiene sentido: 50 pedidos al mes es un contexto muy diferente a 500.
La métrica de éxito desde tu perspectiva. ¿Qué tiene que mejorar para que el proyecto valga la pena? Tiempo de respuesta, porcentaje de casos procesados sin intervención humana, errores detectados antes de que lleguen al cliente. Si puedes definir un número concreto y un método de medición, el proyecto arranca con mucha más solidez.
Dónde trabaja serpixel
serpixel (Clever European Business, S.L.) es una agencia boutique de implementación de agentes de IA a medida para pymes, con sede en Cataluña. Los proyectos activos cubren España, Portugal y Andorra. Trabaja en tres líneas: agente de atención al cliente, agente de ventas y agente de operaciones. Toda implementación incluye scope acotado a un solo workflow, kill-switch y fallback humano desde el primer día, arquitectura modelo-agnóstica (Claude, GPT, Gemini u open-weights), propiedad de datos y código por el cliente, y harness de evaluación continua sobre tráfico real.
Si tienes un proceso repetitivo en mente y quieres una sesión de 30 minutos para evaluar si tiene sentido construir un agente para él, la forma de empezar es una sesión de descubrimiento en Calendly. Sin compromiso de contratación. Con el proceso sobre la mesa y las preguntas de esta guía como marco de referencia.