Imagina un sistema donde la inteligencia no solo responde, sino que decide cuándo ejecutar un modelo de lenguaje. Cómo funciona MCP sampling es una pregunta clave para entender el Model Context Protocol desde una perspectiva distinta: no como un simple conector entre agentes y herramientas, sino como una arquitectura que redistribuye la responsabilidad de la ejecución del modelo. En este enfoque, la delegación deja de ser un detalle técnico y se convierte en un patrón clave para optimizar costos, contexto y control en sistemas de agentes.
Aunque rara vez ocupa los titulares, sampling introduce un cambio de paradigma en la forma en que los agentes interactúan dentro de la arquitectura MCP. No es solo un detalle técnico, sino un patrón de diseño que redefine cómo se distribuyen las responsabilidades en el sistema.
En este artículo vamos a explorar cómo funciona MCP sampling, qué es exactamente este flujo de delegación y por qué este enfoque —casi socrático en su esencia— está empezando a cambiar la forma en la que diseñamos sistemas basados en agentes.
¿Por qué necesitamos MCP?
Antes de entrar en sampling, es importante entender el problema que MCP intenta resolver.
Por un lado, tenemos una aplicación agentic que necesita comunicarse con servicios externos: bases de datos, APIs, sistemas internos o herramientas de terceros.
El problema es que esta comunicación no es trivial. No basta con hacer una simple solicitud de información; necesitamos una forma estructurada, segura y controlada de interactuar con estos servicios desde un sistema basado en LLMs.
Aquí es donde entra el Model Context Protocol (MCP). Se trata de un estándar abierto, definido por la comunidad, que permite conectar el mundo de los agentes con el de los servicios externos. Al implementarse bajo una arquitectura cliente-servidor, MCP no solo actúa como un traductor, sino que también permite introducir reglas, controles y capacidades adicionales que hacen esta interacción más robusta y confiable.
Actores principales
Con MCP, la arquitectura se organiza en tres componentes clave:
- Cliente MCP: Es la aplicación agentic con la que interactúa el usuario y que orquesta las llamadas al sistema. Además, tiene acceso al modelo de lenguaje y decide cuándo invocar capacidades externas.
- Servidor MCP: Expone capacidades concretas de los servicios externos y actúa como mediador. Aquí reside la lógica de integración.
- Servicios externos: Son los sistemas donde realmente reside el valor: bases de datos, servicios web, sistemas legacy o herramientas SaaS.
Ejemplo
Imaginemos un caso sencillo: un agente que necesita consultar un servicio externo.

En este escenario:
- El cliente MCP (la aplicación agentic) recibe la intención del usuario.
- El cliente decide solicitar recursos o capacidades adicionales a través del servidor MCP.
- El servidor MCP interpreta esa intención y la transforma en una solicitud estructurada. Además, puede gestionar accesos, aplicar validaciones y recopilar métricas o contexto antes de ejecutar la solicitud.
- El servicio externo responde con la información solicitada.
- El servidor MCP recibe esa información, puede aplicar lógica adicional o enriquecerla, y finalmente la transforma en un formato compatible con el protocolo MCP (basado en JSON-RPC v2) para enviarla de vuelta al cliente.
- El cliente MCP recibe la respuesta y continúa el flujo: ya sea mostrándola al usuario o utilizándola para tomar decisiones dentro de la lógica del sistema.
Hasta aquí, todo encaja bastante bien. Pero ¿qué sucede cuando el servidor MCP necesita interactuar con un proveedor de modelos de lenguaje?
La respuesta más intuitiva sería que el servidor realice directamente la llamada a estos servicios y genere la respuesta por su cuenta. Sin embargo, este enfoque introduce una duplicación innecesaria de responsabilidades.

Si el cliente MCP ya tiene acceso al modelo de lenguaje, ¿por qué no aprovechar esa capacidad y delegar en él la ejecución?
MCP Sampling
Para entender mejor sampling, pensemos en el método socrático.
El objetivo de este método no es dar respuestas directas, sino guiar a otra persona mediante preguntas para que llegue a sus propias conclusiones. En esencia, es un diálogo donde una parte actúa como facilitador, no como quien ejecuta el conocimiento.
En el Model Context Protocol, sampling sigue una lógica muy similar.
El servidor MCP no genera directamente la respuesta. En su lugar, delega en el cliente MCP la consulta al modelo de lenguaje. Es decir, el servidor actúa como quien formula la intención o la “pregunta”, mientras que el cliente —que sí tiene acceso al modelo— es quien la ejecuta.
Este pequeño cambio introduce una diferencia fundamental: el servidor deja de ser quien usa el modelo y pasa a ser quien decide cuándo y cómo debe usarse.
¿Cómo se vería en el segundo escenario?

- El cliente MCP (la aplicación agentic) recibe la intención del usuario.
- El cliente decide invocar una capacidad expuesta por el servidor MCP.
- El servidor MCP interpreta la intención y determina que necesita utilizar un modelo de lenguaje, por lo que genera una solicitud de sampling hacia el cliente.
- El cliente MCP recibe la solicitud de sampling y ejecuta la llamada al proveedor del modelo de lenguaje.
- El modelo genera una respuesta, que es devuelta al cliente.
- El cliente MCP reenvía esa respuesta al servidor MCP.
- El servidor MCP continúa con su lógica de negocio: puede procesar el resultado, combinarlo con otros datos o interactuar con servicios externos (por ejemplo, para almacenar información).
- El servicio externo, si es invocado, responde a la solicitud del servidor MCP.
- El servidor MCP transforma el resultado final en un formato compatible con el protocolo MCP (basado en JSON-RPC v2) y lo envía de vuelta al cliente.
- El cliente MCP recibe la respuesta y continúa el flujo: ya sea mostrándola al usuario o utilizándola para tomar decisiones dentro del sistema.
Aunque en una primera instancia puede parecer que este enfoque incrementa la cantidad de llamadas al involucrar al cliente MCP en el proceso, en realidad introduce un cambio sutil, pero fundamental: la ejecución del modelo se delega al cliente.
Esta inversión de control permite:
- Reducción de costos asociados al uso de proveedores de modelos de lenguaje, al centralizar y optimizar cuándo y cómo se realizan las llamadas.
- Delegación de la selección y uso del modelo, permitiendo que el cliente decida qué proveedor o configuración utilizar para cada caso.
- Mayor control sobre la información sensible, evitando que ciertos datos tengan que ser enviados a proveedores de modelos no autorizados o externos cuando no es necesario.
Conclusión
En conclusión, la pregunta «¿Y si los servidores MCP pensaran como Sócrates?” deja de ser solo una metáfora sugerente para convertirse en una posibilidad real a través de MCP Sampling. En este modelo, el servidor MCP no busca ejecutar directamente la inteligencia, sino que aprovecha las capacidades del cliente para hacerlo.
Así, el sampling transforma la arquitectura en un diálogo distribuido: el servidor formula la «pregunta», el cliente ejecuta el razonamiento, y el sistema coordina de forma dinámica cuándo tiene sentido invocar el modelo. Lejos de ser un detalle técnico menor, esta inversión de roles redefine dónde reside la «razón» en los sistemas agentic.
En última instancia, MCP no solo conecta herramientas con modelos: propone una forma distinta de entender la inteligencia en sistemas distribuidos. Una en la que, como en el método socrático, el valor no está en dar respuestas directas, sino en saber formular la pregunta adecuada en el momento correcto.







