Ir al contenido
← Volver al blog
ConsejosNoticias

Cómo elegir una agencia de agentes de IA en España (2026)

Guía de criterios para evaluar agencias de agentes de IA en España y Cataluña. Qué preguntar, qué exigir y qué señales de alerta descartan a un proveedor antes de firmar.

serpixel ·
Equipo pequeño reunido alrededor de una mesa con ordenadores portátiles y documentos impresos, analizando criterios de una propuesta tecnológica

Puntos clave

Un agente serio opera sobre un solo workflow acotado: Cualquier proveedor que presente un agente sin una definición escrita del proceso, entradas, salidas y casos límite, no tiene un proyecto. Tiene una intención. La primera pregunta de filtro es: ¿qué métrica concreta cambiará en la semana cuatro?
El kill-switch y el fallback humano no son opcionales: Un agente que toca operaciones reales del negocio tiene que poder apagarse en menos de cinco minutos por el cliente, sin depender del proveedor. Y el proceso tiene que seguir funcionando cuando el agente está apagado. Ambos elementos tienen que aparecer en el documento de condiciones antes de firmar.
Modelo-agnóstico significa que el cliente no queda atado a ningún proveedor de LLM: Una agencia seria no casa la implementación con un solo modelo (Claude, GPT, Gemini u open-weights). El modelo es una decisión técnica basada en el proceso concreto, el coste de inferencia y el comportamiento medido. El cliente tiene que poder cambiarlo si el mercado cambia.
Los datos y el código pertenecen al cliente, no a la agencia: Al finalizar el contrato, el cliente tiene que recibir todos los prompts, la configuración de orquestación, los registros de ejecución y las credenciales de integración. Si el proveedor no confirma esto en la primera reunión, la dependencia es parte del modelo de negocio.

El mercado de agentes de IA en España ha crecido rápido. En dos años ha pasado de ser un tema de conferencias tecnológicas a ser un producto que cientos de proveedores venden de formas muy distintas. La mayoría de los compradores que llegan a una primera reunión comercial no saben exactamente qué compran, y algunos proveedores aprovechan esa confusión.

Esta guía no hace una clasificación de proveedores ni recomienda empresas concretas. Su objetivo es darte los criterios para juzgar cualquier propuesta, de forma que puedas entrar en una sesión de descubrimiento con las preguntas correctas y sepas reconocer las respuestas que merece una propuesta seria.

Qué hace realmente una agencia de agentes de IA

Antes de hablar de criterios, hay que tener claro a quién se le piden cuentas.

Una agencia de agentes de IA toma un proceso repetitivo y acotado de tu negocio, lo estudia en detalle, y construye un agente que asuma la capa mecánica de ese proceso. La capa mecánica es la parte del trabajo que tiene reglas mayoritariamente claras, un volumen significativo y no requiere el criterio humano que hace valioso a quien lo ejecuta: clasificar mensajes entrantes, crear borradores de pedido a partir de un texto de WhatsApp, generar un informe semanal de ventas, calificar leads por criterios predefinidos.

El agente no toma las decisiones que importa tomar. No gestiona la relación con el cliente ni resuelve los casos ambiguos que requieren contexto. Lo que hace es asumir el volumen mecánico para que el equipo humano pueda dedicar su tiempo al trabajo que añade valor real: el criterio, la relación, las decisiones complejas.

Una agencia seria no te vende “automatizar tu negocio”. Te vende un agente para un proceso concreto, con una métrica concreta, que puedes parar en cinco minutos si falla. Todo lo que salga de ese marco es publicidad.

Qué no hace una agencia de agentes de IA

Tan importante como lo que hace es lo que no hace, y es en lo que no hace donde se filtra la mayor parte del mercado.

No garantiza porcentajes de precisión. Un agente de IA mide el comportamiento real sobre datos reales. Una agencia seria te dirá qué porcentaje de borradores fueron aceptados sin edición en el tercer mes, o cuánto bajó el tiempo medio de primera respuesta. No te dirá “nuestro agente tiene un 97% de precisión” sin especificar sobre qué conjunto de datos, con qué proceso y en qué momento. Las garantías de exactitud abstractas no valen nada.

No vende scope abierto. Un proyecto de agente que empieza con “queremos automatizar lo máximo posible” no es un proyecto: es un presupuesto sin fondo. Una implementación seria empieza por el proceso más pequeño, más acotado y más medible del negocio. Si funciona y se mide, se amplía.

No entrena modelos compartidos con tus datos. Tus datos de negocio (clientes, pedidos, precios, conversaciones) no deben alimentar ningún modelo que otras empresas usen. Cada implementación debería aislar los datos del cliente. Si el proveedor no lo confirma explícitamente, hay que preguntarlo.

Los siete criterios para evaluar cualquier propuesta

La tabla siguiente recoge los criterios que tienen que estar presentes en cualquier propuesta seria de implementación de agente de IA. No es una lista de deseos. Es lo que diferencia un proyecto productivo de un experimento a cargo del cliente.

CriterioQué tienes que ver en la propuestaSeñal de alerta
Scope acotadoUn solo workflow definido paso a paso, con entradas, salidas y casos límite”Automatizaremos todo el proceso de atención” sin especificar
Métrica de éxitoUna cifra concreta y un método de medición. Línea base pre-agente si existe”Mejoraremos la eficiencia” sin número ni método
Kill-switchMecanismo documentado, que el cliente puede activar en <5 min sin depender del proveedorEl kill-switch “se puede pedir” al proveedor
Fallback humanoVía documentada que mantiene el proceso en marcha cuando el agente está apagadoSin mención de qué ocurre si el agente falla
Modelo-agnósticoArquitectura que no depende de un solo LLM; Claude, GPT, Gemini u open-weights”Usamos nuestra IA propia” sin detalles
Propiedad de datos y códigoExplícito en el contrato: el cliente recibe prompts, config, registros y credenciales al salirSin mención de portabilidad o propiedad
Harness de evaluaciónPruebas periódicas sobre tráfico real, cadencia mínima mensual, resultado numérico”Monitorizamos el sistema” sin especificar cómo ni con qué cadencia

Si un proveedor no puede responder los siete criterios en la primera reunión con preparación mínima, el proyecto no es productivo. Puede ser una demostración interesante. No es una implementación.

Preguntas concretas para la sesión de descubrimiento

No hace falta memorizar la tabla anterior. Cinco preguntas concretas te darán la información para juzgar a cualquier proveedor:

1. ¿Qué proceso exactamente asumirá el agente, paso a paso? La respuesta tiene que ser un flujo: “el cliente envía un mensaje de WhatsApp con el pedido, el agente lee el texto, identifica al cliente en el CRM, comprueba stock en el ERP, redacta el borrador del pedido y lo deja pendiente de validación humana”. Si la respuesta es vaga, el scope no existe.

2. ¿Qué métrica mejorará y cómo mediremos la línea base? La respuesta tiene que incluir un número concreto y un método de medición. “Porcentaje de borradores aceptados sin edición” o “tiempo medio de primera respuesta en correos de soporte”. Si no hay línea base, hay que definir el método para capturarla durante las primeras semanas.

3. ¿Cómo se desactiva el agente y en cuántos minutos? Tiene que haber una respuesta precisa: variable de entorno, botón en el panel de administración, llamada API. Y un SLA de efectividad. Si el proveedor responde “te mandamos un correo y lo hacemos nosotros”, el kill-switch depende del proveedor. No es un kill-switch real.

4. ¿Quién cubre el proceso cuando el agente está apagado? El fallback tiene que estar documentado: quién absorbe el volumen, con qué herramientas, en qué plazo. “El equipo lo gestiona como antes” sin más detalle indica que el fallback no se ha diseñado.

5. ¿Con qué modelo o modelos se implementará y por qué motivo? La respuesta tiene que explicar la elección en términos del proceso: “Claude por su capacidad de seguir instrucciones complejas”, “Gemini por la integración nativa con Google Workspace del cliente”. Si la respuesta es “usamos nuestra IA” sin especificar, no tienes visibilidad sobre lo que hay debajo.

Boutique o gran integrador: la pregunta que determina el soporte

El mercado se divide en dos perfiles muy diferentes.

Una agencia boutique trabaja con un número limitado de clientes de forma simultánea. Quien diseña el agente es la misma persona, o el mismo equipo pequeño, que lo mantiene. Cuando el agente falla un jueves a las 22:00, hay alguien que conoce cada detalle y puede diagnosticarlo en minutos. El riesgo es la dependencia de personas concretas: si la agencia pierde talento clave, el soporte se degrada.

Un gran integrador tiene estructura: equipos de gestión, acuerdos comerciales con los principales proveedores de LLM, departamentos de calidad. El riesgo es la escala: las implementaciones se gestionan con plantillas, las decisiones pasan por múltiples capas de aprobación y el conocimiento específico de tu negocio se diluye en una cuenta más grande. La persona que hizo el descubrimiento inicial raramente es quien mantiene el sistema seis meses después.

Ningún perfil es superior por defecto. Lo que hay que preguntar es: ¿quién estará disponible el día en que el agente falle y cuánto tardará en estar al teléfono?

Señales de alerta que descartan a un proveedor

Seis señales que, si aparecen, merecen detener el proceso de selección:

Garantías de precisión sin métrica. “Nuestro agente es altamente preciso” o “conseguimos resultados muy fiables” sin especificar sobre qué proceso, con qué datos y en qué marco de tiempo. Un agente de IA opera sobre distribuciones de datos reales y su comportamiento se mide, no se garantiza con adjetivos.

Sin mención de kill-switch ni de fallback humano. Si en toda la reunión inicial no aparece ninguno de estos dos elementos, el proveedor no tiene experiencia en implementaciones productivas. Ninguna implementación seria omite el mecanismo de parada.

Scope que crece durante la negociación. Un proveedor que en cada reunión añade nuevos procesos al proyecto sin que tú lo hayas pedido no te está haciendo un favor. Te está vendiendo complejidad. El scope tiene que ser el mínimo que genere valor medible. La ampliación viene cuando el piloto mide resultados.

Entrenamiento de modelos compartidos. Si la propuesta menciona “mejoraremos el modelo con tus datos” sin garantías explícitas de aislamiento, tus datos podrían alimentar agentes de otros clientes. Exige documentación de cómo se aíslan los datos y que conste en el contrato.

Coste de inferencia ilimitado a cargo del cliente. Los modelos de lenguaje cobran por token. Un agente que procesa cientos de mensajes al día puede generar costes de inferencia significativos. Un proveedor serio incluye un tope mensual de coste de inferencia en el contrato, con mecanismo de notificación si se acerca al límite.

Dependencia estructural de salida. Si al final del contrato el cliente no puede acceder a sus prompts, a su configuración de orquestación ni a sus registros de ejecución, el proveedor ha construido una barrera de salida. Exige que el traspaso de toda la propiedad intelectual del proyecto quede documentado en el contrato.

El marco antropocéntrico: por qué importa el enfoque

Una de las diferencias entre una propuesta técnica decente y una implementación real es cómo la agencia describe el papel del equipo humano.

Una implementación de agente de IA bien diseñada no elimina personas del proceso. Elimina la capa mecánica del proceso para que las personas puedan dedicar su tiempo a lo que hace que su trabajo tenga valor: el criterio ante un caso ambiguo, la relación con el cliente que quiere una respuesta personalizada, la decisión que requiere contexto que el agente no puede tener.

Cuando una propuesta habla de “reducir costes de personal” o de “hacer el trabajo de X personas con un solo agente”, la agencia te está vendiendo una promesa que no refleja cómo funcionan las buenas implementaciones. Un agente que toca operaciones reales necesita un equipo humano que lo supervise, que valide los casos ambiguos, que detecte errores de comportamiento y que sepa cuándo apagarlo. El valor no es la reducción del equipo, es lo que el equipo puede hacer cuando deja de gestionar el volumen mecánico.

Si el proveedor no habla del equipo humano como parte de la arquitectura del sistema, el proyecto no tiene el diseño completo.

Qué conviene tener claro antes de la primera reunión

Llegar a una sesión de descubrimiento con información clara de tu lado acelera el proceso y mejora la calidad de la propuesta que recibirás.

Tres cosas que conviene tener identificadas:

El proceso concreto. No “atención al cliente en general”, sino “la gestión de pedidos que llegan por WhatsApp y que hoy procesa manualmente una persona de nuestro equipo”. Cuanto más específico, mejor la propuesta.

El volumen. Cuántos casos tiene el proceso al mes. No hace falta que sea exacto, pero un orden de magnitud ayuda a dimensionar si el proyecto tiene sentido: 50 pedidos al mes es un contexto muy diferente a 500.

La métrica de éxito desde tu perspectiva. ¿Qué tiene que mejorar para que el proyecto valga la pena? Tiempo de respuesta, porcentaje de casos procesados sin intervención humana, errores detectados antes de que lleguen al cliente. Si puedes definir un número concreto y un método de medición, el proyecto arranca con mucha más solidez.

Dónde trabaja serpixel

serpixel (Clever European Business, S.L.) es una agencia boutique de implementación de agentes de IA a medida para pymes, con sede en Cataluña. Los proyectos activos cubren España, Portugal y Andorra. Trabaja en tres líneas: agente de atención al cliente, agente de ventas y agente de operaciones. Toda implementación incluye scope acotado a un solo workflow, kill-switch y fallback humano desde el primer día, arquitectura modelo-agnóstica (Claude, GPT, Gemini u open-weights), propiedad de datos y código por el cliente, y harness de evaluación continua sobre tráfico real.

Si tienes un proceso repetitivo en mente y quieres una sesión de 30 minutos para evaluar si tiene sentido construir un agente para él, la forma de empezar es una sesión de descubrimiento en Calendly. Sin compromiso de contratación. Con el proceso sobre la mesa y las preguntas de esta guía como marco de referencia.

Etiquetas

agencia agentes IA Españacómo elegir agencia IAcriterios implementación agente IAagentes IA pymesproveedor agente IA Españaempresa agentes IA Cataluñakill-switch agente IA

Preguntas frecuentes

Siete criterios fundamentales: (1) scope acotado a un solo workflow con una métrica de éxito medible, (2) kill-switch documentado que el cliente puede activar en menos de cinco minutos, (3) fallback humano definido para el caso de parada, (4) modelo-agnóstico (Claude, GPT, Gemini u open-weights), (5) propiedad de datos y código por el cliente, (6) harness de evaluación periódica sobre tráfico real, (7) traspaso documentado de prompts y configuración al final del contrato. Un proveedor que no puede responder los siete en la primera reunión no tiene el proyecto listo para producción.
Cinco preguntas no negociables: qué proceso concreto asumirá el agente paso a paso, qué métrica mejorará y cómo se medirá la línea base pre-agente, cómo se desactiva el agente y en cuántos minutos, quién y cómo cubre el proceso cuando el agente está apagado, y con qué modelo o modelos se implementará y por qué motivo. Además, es útil preguntar cuántos proyectos similares han implementado y si pueden mostrar métricas reales de alguno de ellos.
Seis señales de alerta que merecen detener el proceso de selección: promesas de 'alta precisión' o porcentajes de corrección sin una métrica específica y una línea base documentada; ausencia de kill-switch o fallback humano en el documento de condiciones; scope abierto que crece sin control durante la negociación; entrenamiento de modelos compartidos con datos de varios clientes sin consentimiento; coste de inferencia no transparente o ilimitado a cargo del cliente; y dependencia técnica estructural que impide cambiar de modelo o llevar el código a otro proveedor.
Una agencia boutique trabaja con un número reducido de clientes de forma simultánea, lo que permite una implicación directa de las personas que diseñan y mantienen el agente. El riesgo es la capacidad: si la agencia es muy pequeña, la continuidad del servicio depende de pocas personas. Un gran integrador tiene más estructura y recursos, pero a menudo externaliza la implementación técnica, alarga los procesos de decisión y trabaja con plantillas poco adaptadas al negocio del cliente. La pregunta clave es quién estará disponible el día en que el agente falle a las 22:00 de un jueves.
El cliente es propietario de los datos en todo momento. Esto incluye los datos de producción que el agente lee y escribe, los registros de ejecución generados por el agente, y los datos anónimos o sintéticos que se usan para evaluarlo. Una agencia seria lo documenta en el contrato y no reutiliza los datos de un cliente para mejorar modelos compartidos ni para entrenar agentes para otros clientes.
Un harness de evaluación es un conjunto de pruebas automáticas que se ejecutan periódicamente sobre el agente en producción para comprobar que sigue funcionando con la misma calidad. Mide precisión de las decisiones del agente, latencia de respuesta, coste por acción y deriva de comportamiento a lo largo del tiempo. Es necesario porque los modelos de IA cambian (nuevas versiones, nuevas distribuciones de datos) y el comportamiento real de un agente puede degradarse sin que nadie lo note hasta que un cliente lo reporta.
Significa que la implementación no depende de un único proveedor de modelo de lenguaje. Un agente modelo-agnóstico puede funcionar con Claude (Anthropic), GPT (OpenAI), Gemini (Google) u open-weights, y puede cambiar de modelo si el comportamiento de uno nuevo es mejor, si el coste de inferencia se reduce o si el proveedor actual cambia las condiciones. En la práctica, significa que la arquitectura separa la lógica del agente del modelo concreto, de modo que el cambio es una decisión técnica, no un nuevo diseño desde cero.
serpixel (Clever European Business, S.L.) es una agencia de implementación de agentes de IA a medida para pymes, con sede en Cataluña y proyectos en España, Portugal y Andorra. Trabaja en tres líneas: agente de atención al cliente, agente de ventas y agente de operaciones. Toda implementación incluye scope acotado a un solo workflow, kill-switch y fallback humano desde el primer día, arquitectura modelo-agnóstica (Claude, GPT, Gemini u open-weights), propiedad de datos y código por el cliente, y harness de evaluación continua sobre tráfico real. La conversación empieza siempre en una sesión de descubrimiento de 30 minutos.