Ir al contenido
← Volver al blog
ConsejosNoticias

Contrato mínimo para un agente IA en producción (4 condiciones no negociables)

Las 4 condiciones que establecemos antes de implementar un agente IA para una pyme: scoping acotado, interop vía MCP, kill-switch y eval en producción.

serpixel ·
Primer plano de un botón rojo de parada de emergencia en un panel industrial, con texto de advertencia parcialmente visible.

Puntos clave

Un agente, un workflow, una métrica: El primer punto de fallo de cualquier implementación de agente IA es la generalidad. Si no puedes definir el proceso paso a paso y ligarlo a una métrica concreta medible en la semana cuatro, el proyecto no es un agente en producción; es un experimento a cargo del cliente.
Interoperabilidad vía MCP como contrato técnico auditable: Un agente que no toca las herramientas del negocio (CRM, ERP, correo, WhatsApp Business) no reemplaza ningún proceso mecánico real. El Model Context Protocol (MCP) es hoy el contrato técnico auditable que permite verificar con qué sistemas habla el agente y cómo.
Kill-switch efectivo en menos de cinco minutos: El mecanismo para apagar el agente es la primera pieza que se diseña, no la última. Debe ser accionable por el cliente sin depender del proveedor, y el tiempo de efectividad debe ser inferior a cinco minutos desde que se pulsa.
Harness de evaluación sobre tráfico real, no tests offline: Los tests de integración pasan una vez, la evaluación continua nunca se detiene. Un harness de producción mide precisión, latencia, coste por acción y deriva de comportamiento sobre tráfico real, con una persona designada para leer los datos cada semana.

La mayoría de implementaciones de agentes IA no fallan por la tecnología. Fallan porque no había contrato de inicio.

Con “contrato” no nos referimos a un documento legal. Nos referimos a: un conjunto de condiciones concretas que deben ser ciertas antes de activar el agente sobre datos y procesos reales de un negocio. Sin estas condiciones, lo que se pone en marcha no es un agente en producción. Es un experimento a cargo del cliente.

En serpixel (Clever European Business, S.L.) tenemos cuatro condiciones no negociables que verificamos antes de firmar cualquier implementación. No las ponemos para protegernos: las ponemos porque es la única manera de garantizar que lo que entregamos funciona cuando importa y se puede parar cuando falla.

Condición 1: un agente, un workflow, una métrica

El primer punto de fallo de casi todas las implementaciones es el scope. No la tecnología, no el modelo, no las integraciones: el scope.

Cuando un proyecto empieza con “queremos un agente para la atención al cliente” sin especificar mucho más, lo que tenemos es una intención, no un proyecto. Un proceso vago no se puede implementar de forma productiva. Y, lo que es peor, no se puede fallar de manera detectada: un agente con scope difuso falla silenciosamente, y nadie sabe cuándo.

La pregunta de filtro es concreta: ¿qué métrica cambiará en la semana cuatro?

Si la respuesta es “mejorar la atención al cliente” o “ser más eficientes”, no es una respuesta: es una aspiración. La respuesta que aceptamos es de otro tipo: “el porcentaje de borradores de pedido aceptados sin edición humana pasará del 0% actual al 70% en cuatro semanas.” O: “el tiempo medio de primera respuesta a correos de soporte pasará de 6 horas a menos de 30 minutos.”

Con una métrica de este tipo, el proyecto tiene forma. Podemos definir casos de éxito, casos límite y condiciones de fallo. Podemos diseñar un harness de evaluación. Podemos saber si el agente funciona o no.

Sin ella, estamos haciendo un proyecto de investigación, y nadie le ha explicado al cliente que él paga por la investigación.

Condición 2: interoperabilidad verificable vía MCP

Un agente que no toca las herramientas del negocio no es un agente. Es un chatbot caro.

La distinción es funcional. Un chatbot conversa. Un agente ejecuta acciones reales: leer un correo, identificar al cliente en el CRM, consultar el stock en el ERP, crear un borrador de pedido, derivar a una persona cuando el caso es ambiguo. Si el agente no hace ninguna de estas acciones, no reduce horas de trabajo mecánico. Reduce tiempo de respuesta a preguntas, que es un problema diferente.

Hoy, el estándar que permite verificar esta interoperabilidad de forma auditable es el Model Context Protocol (MCP). Un agente con integraciones documentadas vía MCP permite saber exactamente: con cuántos sistemas habla, cómo habla, y con qué permisos. Si un proveedor no puede describir las integraciones de su agente en términos de herramientas, métodos y permisos, la gobernanza del sistema es difícil de establecer.

La pregunta de filtro: ¿con cuántos sistemas internos habla el agente vía MCP, y qué métodos expone cada uno?

No hace falta que el cliente entienda el protocolo en detalle. Debe entender la lista: “el agente lee del CRM, escribe borradores de pedido en el ERP, no escribe en el CRM, no envía correos de forma autónoma.” Con esta lista, el cliente sabe exactamente dónde puede fallar el agente y qué alcance tiene un error.

Condición 3: kill-switch efectivo en menos de cinco minutos

El mecanismo para apagar el agente es la primera pieza que se diseña, no la última.

El argumento es operativo. Un agente que toca datos reales puede causar daño rápidamente. Si un agente procesa pedidos de WhatsApp y empieza a generar entradas incorrectas en el ERP, el daño es proporcional al número de pedidos que pasan hasta que alguien lo detecta y para el sistema. Si llegar al proveedor tarda dos horas, el daño puede ser de dos horas de pedidos incorrectos.

El kill-switch correcto cumple tres condiciones:

  1. Accionable por el cliente. No hace falta llamar al proveedor. Puede ser una variable de entorno, un botón en el panel de administración, una llamada API documentada, o una configuración en la herramienta interna del cliente. Lo que no es un kill-switch es decir “manda un correo al equipo de serpixel y respondemos en dos horas”.

  2. SLA de efectividad inferior a cinco minutos. Desde el momento en que el cliente lo pulsa hasta que el agente deja de procesar nuevos casos. No desde que el cliente envía la solicitud: desde que pulsa el botón.

  3. Fallback humano documentado. El kill-switch no está completo sin saber quién coge el proceso cuando el agente está apagado. Si el agente procesa 200 pedidos al mes y se apaga, alguien los tiene que procesar. Esa persona, con qué herramientas y en qué tiempo, tiene que estar documentado en el SOW y probado, no pensado deprisa mientras el proceso se acumula.

La pregunta de filtro: ¿en cuántos minutos puedo parar el agente si empieza a causar daño, y sin llamar a nadie?

Condición 4: harness de evaluación en producción

La diferencia entre un agente que se implementa y un agente que funciona a largo plazo es la evaluación continua.

Un harness de evaluación offline es un conjunto de casos de prueba estáticos: 50 mensajes representativos con las respuestas esperadas, que pasan automáticamente contra el modelo y marcan pass/fail. Sirve para verificar el comportamiento inicial, para detectar regresiones cuando cambias una versión del modelo. Pero no es evaluación de producción.

Un harness de producción evalúa el agente sobre tráfico real. Casos reales, con las distribuciones de entradas que el negocio genera cada día: mensajes en el idioma del cliente real, con los errores ortográficos de los clientes reales, con las referencias a productos con nombres no estándar que ponen los clientes reales. Mide cuatro cosas:

  • Precisión. ¿Qué porcentaje de casos procesa el agente correctamente?
  • Latencia. ¿Cuánto tiempo tarda en procesar cada caso?
  • Coste por acción. ¿Cuál es el coste de inferencia por caso procesado?
  • Deriva de comportamiento. ¿La calidad de hoy es la misma que hace un mes?

La deriva importa. Los modelos de lenguaje cambian (nuevas versiones, fine-tunings del proveedor), los datos del negocio cambian (nuevos productos, nuevos procesos, nuevos tipos de cliente), y el comportamiento del agente puede degradarse sin que nadie lo note hasta que lo nota el cliente.

La pregunta de filtro: ¿quién leerá los datos de evaluación cada semana, y qué decisión estará asociada a la lectura?

Si no hay una persona designada y una decisión asociada (si la precisión baja del umbral X, se hace Y), el harness es un instrumento sin nadie al volante.

El contrato es la garantía mínima

Cuatro condiciones. Scoping acotado, interoperabilidad verificable, kill-switch efectivo, evaluación continua. Ninguna de las cuatro es sofisticada: todas se pueden explicar en cinco minutos a un director de operaciones sin formación técnica.

Lo que las hace difíciles no es la comprensión: es que requieren trabajo previo. Documentar el proceso paso a paso es incómodo. Definir una métrica de resultado con baseline es difícil cuando no hay datos previos. Diseñar el kill-switch y el fallback humano requiere imaginar un fallo que nadie quiere que ocurra. Montar el harness de producción desde el primer día es más caro que no tenerlo.

Pero el coste de omitir cualquiera de las cuatro no recae sobre el proveedor. Recae sobre el negocio del cliente.

Esta es la razón por la que no firmamos implementaciones que no cumplan las cuatro. No es una postura comercial. Es la única manera que conocemos de garantizar que lo que ponemos en producción funciona cuando importa y se puede parar cuando falla.

Si tienes una idea de proceso y quieres saber si pasa este filtro, hablamos 30 minutos. Llevamos el proceso sobre la mesa y salimos sabiendo si hay un agente que tiene sentido implementar, y si lo hay, cuáles serían las cuatro condiciones aplicadas a tu caso.

Etiquetas

agente IA producciónrequisitos implementar agente IAkill-switch agente inteligencia artificialeval harness IAMCP agente CRMautomatización pymesimplementación agente IA pyme

Preguntas frecuentes

Cuatro condiciones mínimas: scoping acotado a un solo workflow con una métrica de resultado definida, interoperabilidad verificable con las herramientas del negocio (CRM, ERP, correo o mensajería), kill-switch documentado con SLA de menos de cinco minutos, y un harness de evaluación continua sobre tráfico real. Si falta cualquiera de las cuatro, lo que se pone en producción es un experimento no controlado.
La generalidad del scope. Cuando el proyecto arranca con 'queremos un agente para la atención al cliente' sin especificar qué proceso concreto, qué entradas tiene, qué salidas produce y qué casos límite cubre, la implementación no tiene forma de fallar de manera detectada. Falla silenciosamente, y nadie sabe cuándo.
El Model Context Protocol (MCP) es un estándar abierto que define cómo un agente se integra con herramientas externas: CRM, ERP, calendario, correo, WhatsApp Business. Importa porque hace la interoperabilidad auditable: puedes saber exactamente con cuántos sistemas habla el agente, cómo, y con qué permisos. Un agente que no puede describir sus integraciones vía un protocolo estándar hace difícil la gobernanza y la portabilidad.
Porque un agente que toca operaciones reales puede causar daño rápidamente. Si un agente procesa pedidos y empieza a generar entradas incorrectas, o si un agente de atención al cliente empieza a dar información errónea, el daño se acumula por cada mensaje que pasa hasta que se para. El kill-switch debe existir desde el primer día porque el coste de un error no debe depender del tiempo que tarde en llegar el proveedor.
Un harness offline pasa un conjunto de casos de prueba estáticos sobre el modelo. Sirve para verificar el comportamiento inicial. Un harness de producción evalúa el agente sobre tráfico real: casos reales, con las distribuciones reales de entradas que el negocio genera cada día. La diferencia importa porque el modelo deriva: nuevas versiones, nuevos datos de negocio, nuevos tipos de mensaje de los clientes. Sin evaluación continua, no sabes cuándo el agente deja de funcionar tan bien como el día que lo activaste.
Cinco preguntas que el proveedor debe responder en la primera reunión sin necesitar preparación adicional: qué proceso exactamente asumirá el agente, qué resultado medible mejora y cómo se ha medido la línea base, cómo se desactiva el agente y en cuántos minutos, quién cubre el proceso cuando el agente está apagado, y cómo se evalúa periódicamente que el agente sigue funcionando bien. Si el proveedor no tiene respuestas para las cinco, el proyecto no está listo para producción.