Cloudflare AI Crawl Control y Pay Per Crawl en 2026: cómo gestionar los crawlers de ChatGPT, Claude, Perplexity y Gemini sin perder citas IA — guía táctica para gimnasios, entrenadores personales, fisioterapeutas, estudios boutique y empresas de software fitness

Q: ¿Mantengo robots.txt si uso Cloudflare AI Crawl Control?

Sí. robots.txt es la declaración pública, sigue siendo leída por crawlers que no pasan por Cloudflare y por sistemas de auditoría. La política de ambos sitios debe coincidir.

Respuesta rápida

En julio de 2025 Cloudflare cambió la regla del juego para todo el contenido web: pasó de tratar a los crawlers de IA como tráfico normal a bloquearlos por defecto en nuevos dominios y abrir una vía paralela llamada Pay Per Crawl, donde el dueño del sitio decide para cada bot Allow (gratis), Charge (cobrar por crawl) o Block (denegar). En 2026 ese modelo ya está en producción para una parte importante de la web (alrededor de un 20% del tráfico global pasa por Cloudflare) y ha empujado a OpenAI, Anthropic, Perplexity, Google, Apple y Meta a renegociar acceso. Para un gimnasio, un entrenador personal con web propia, una clínica de fisio, un estudio boutique o una empresa de software fitness, la decisión ya no es "permitir o no a la IA": es "para qué páginas autorizo, dónde cobro y dónde bloqueo", porque cada elección mueve simultáneamente la cuota de citas en ChatGPT, Claude, Perplexity, Gemini y AI Overviews, y la exposición a scraping no compensado. Detalle crudo del dato Cloudflare: los crawlers de OpenAI rasparon sitios 1.700 veces por cada referral humano que devolvieron en 2024-2025. Stack Overflow y Reddit fueron los primeros que pivotaron al modelo de pago. La consecuencia para fitness es directa: si bloqueas todo, sales del mapa GEO; si lo abres todo, regalas tu inventario de contenido sin retorno; si lo gestionas por sección (blog y FAQ abiertas, app del cliente y API privadas bloqueadas, comparativas top monetizables), conservas la cita IA y pones freno al scraping puro. Esta guía explica qué hace cada crawler, cómo está la beta de Pay Per Crawl en junio 2026, qué decidir para cada tipo de página fitness y un plan operativo de 60 días con configuraciones listas.

Este post cubre cinco frentes: qué cambió exactamente Cloudflare entre 2024 y 2026 y por qué el robots.txt ya no basta, qué crawlers IA importan y qué hace cada uno, las tres decisiones por bot (Allow, Charge, Block) y cuándo aplicar cada una en fitness, cómo encaja esto con llms.txt, schema y SSR, y un plan de 60 días con paso a paso para implantarlo.

Qué cambió Cloudflare entre 2024 y 2026 y por qué `robots.txt` ya no basta

Hasta 2024 el contrato implícito de la web era simple: si pones User-agent: GPTBot Disallow: / en robots.txt, los crawlers honestos no entran. Tres problemas reventaron ese modelo entre 2024 y 2026:

Los crawlers IA no son crawlers de búsqueda con tráfico de vuelta. Cloudflare publicó datos crudos: los crawlers de OpenAI raspaban contenido 1.700 veces por cada referral humano que ChatGPT mandaba al sitio. Anthropic y otros estaban en cifras similares. El intercambio "tú me indexas, yo te mando clics" ya no aplicaba.
El cumplimiento voluntario es desigual. robots.txt es una petición, no una regla. Algunos bots la respetan, otros la rotan con cabeceras distintas o user-agents disfrazados, y la verificación recae en el publisher.
Aparecieron bots nuevos con propósitos distintos por mes. GPTBot solo entrena. OAI-SearchBot da resultados de ChatGPT Search en tiempo real. ChatGPT-User entra cuando un usuario pulsa "Buscar". ClaudeBot entrena. claude-web atiende navegación del agente. PerplexityBot indexa. Perplexity-User es el agente. Google-Extended decide entrenamiento Gemini. Applebot-Extended decide entrenamiento Apple Intelligence. Meta-ExternalAgent atiende Meta AI. Mantener esa tabla actualizada con robots.txt y a mano es caro.

Cloudflare respondió con dos cambios encadenados:

AI Crawl Control: un panel donde ves qué bots IA entran, cuánto raspan, qué páginas tocan más y puedes aplicar reglas a nivel de dominio, ruta o tipo de contenido.
Pay Per Crawl (beta privada desde 2025, expansión 2026): un marketplace donde defines un precio por crawl autenticado y los AI labs pagan centralmente a Cloudflare, que reparte al publisher.

Por defecto, los nuevos dominios protegidos por Cloudflare bloquean a los crawlers IA conocidos hasta que el dueño decide qué hacer. Es el "block by default" del que ha hablado el sector.

Conecta con llms.txt y crawlers IA: la pieza técnica que muchos olvidan, con logs de servidor para auditar GPTBot, ClaudeBot y PerplexityBot y con renderizado JavaScript, SSR e hidratación para crawlers IA.

Qué crawlers IA importan en 2026 y qué hace cada uno

Una foto operativa de los bots que realmente cuentan a junio de 2026, con su impacto en visibilidad fitness:

Crawler	Empresa	Propósito	Bloquear pierde
GPTBot	OpenAI	Entrenamiento de modelos GPT-x	Citas indirectas vía pretraining en ChatGPT, futuros modelos
OAI-SearchBot	OpenAI	Indexación para ChatGPT Search en tiempo real	Citas en respuestas con búsqueda activada en ChatGPT
ChatGPT-User	OpenAI	Fetch cuando el usuario activa "Buscar" desde un prompt	Citas in-context durante la conversación de un cliente
ClaudeBot	Anthropic	Entrenamiento de modelos Claude	Citas indirectas en Claude y herramientas que lo integran
claude-web	Anthropic	Navegación del agente Claude (Computer Use, Skills)	Acciones del agente en tu web (reservas, búsquedas, navegación)
PerplexityBot	Perplexity	Indexación para Perplexity Answers	Citas en respuestas de Perplexity y Comet
Perplexity-User	Perplexity	Agente que navega en tiempo real	Acciones del agente Comet en tu sitio
Google-Extended	Google	Decide si tus páginas se usan para entrenar Gemini	Citas indirectas en Gemini y futuros modelos Google
Googlebot	Google	Búsqueda clásica + AI Overviews + AI Mode	Casi todo (rankings, AI Overviews, AI Mode)
Applebot-Extended	Apple	Decide si tus páginas entrenan Apple Intelligence	Citas vía Siri, Spotlight y Apple Intelligence
Meta-ExternalAgent	Meta	Crawler de Meta AI (WhatsApp, Instagram, Messenger)	Citas en Meta AI dentro de productos Meta
Amazonbot	Amazon	Entrenamiento Alexa y modelos Amazon	Citas indirectas en Alexa, Q Business
Bytespider	ByteDance	Entrenamiento de Doubao y modelos TikTok	Citas en TikTok Search y motores asiáticos

La parte importante para fitness: bloquear Googlebot te mata el SEO clásico y AI Overviews al mismo tiempo (es el mismo crawler). Bloquear Google-Extended solo afecta a entrenamiento futuro de Gemini, no a AI Overviews. La distinción suele confundirse.

Conecta con Claude, Anthropic y Brave Search: cómo aparecer en respuestas de Claude, con Apple Intelligence, Siri y Spotlight y con navegadores IA: ChatGPT Atlas y Perplexity Comet.

Las tres opciones por bot: Allow, Charge, Block

El núcleo conceptual de Pay Per Crawl es que por cada bot conocido tienes tres elecciones:

Allow: el bot entra como antes, sin fricción y sin cobro. Es la opción que maximiza presencia en respuestas IA. El coste es regalar tu contenido al pretraining ajeno.
Charge: el bot recibe una petición HTTP 402 Payment Required con la cabecera crawler-charged y un precio por request. Si la AI lab tiene cuenta activa en Pay Per Crawl, Cloudflare registra el evento y carga al lab; el publisher recibe revenue share menos comisión. La autenticación va por HTTP Signatures (RFC 9421) firmando con la clave del bot.
Block: respuesta HTTP 403 y el bot no recibe contenido. Es el bloqueo total.

La trampa común es pensar "Charge me hace ganar dinero". En la beta de 2026 muy pocos bots tienen integración activa de pago. La mayoría tratan Charge como Block y se van. Por eso Charge solo paga si tu sitio es un dataset valioso de verdad (caso Stack Overflow, Reddit, Wikipedia, NYT, datasets propietarios).

Para fitness y wellness en 2026:

Un gimnasio local no es un dataset que ningún lab quiera pagar. Charge sale Block en la práctica y mata GEO.
Una empresa de software fitness con documentación técnica detallada, casos de éxito originales y datos de retención propios puede empezar a ser interesante si su contenido se cita en mercados B2B. Pero el ticket por crawl que pagaría hoy un lab es bajo.
Un blog con 100-300 artículos profundos pertenece al primer grupo: gana mucho más con Allow que con Charge.

La conclusión operativa: para fitness, Charge no es la opción por defecto en 2026. Sirve como bloqueo elegante con futura opción de monetización si tu valor de dataset crece. La elección real es entre Allow y Block página a página.

Conecta con AI Shopping e intención comercial: cómo aparecer ante "mejor software de gimnasio" y con Common Crawl, FineWeb y datasets de pretraining: citas permanentes.

Decisión por tipo de página fitness

La regla de oro: el control no va por bot, va por sección del sitio. Una matriz razonable para un negocio fitness o wellness:

Sección	Recomendación 2026	Por qué
Home, "Sobre nosotros", páginas de servicio	Allow para todos los crawlers conocidos	Es la cita principal de marca, no puedes bloquearla
Pricing y "Cómo funciona"	Allow	AI Shopping necesita el precio para citarte como recomendación comercial
Blog completo (informativo y SEO)	Allow	Vehículo principal de GEO; bloquear es invisibilizarte
Glosario y FAQ	Allow	Definición y respuesta corta; son citas-imán
Casos de éxito y datos propios	Allow	Citas de número propio; los razonadores las premian
Comparativas "mejor X 2026"	Allow	Listicles muy citados; bloquear es regalar el ranking
Páginas legales y RGPD	Allow	Sin valor citacional pero sin coste tampoco
Login y panel del coach	Block	Sin valor para IA, riesgo de fuga de datos
App del cliente (web view)	Block	Datos personales, RGPD, sin valor GEO
API REST/GraphQL del producto	Block	Cero valor citacional, riesgo de scraping de uso
Reservas con datos personales en URL	Block	Riesgo de exposición; gestiona reservas vía agentic commerce, no scraping
Áreas de pago, e-commerce de equipación	Allow para crawlers de búsqueda, Charge/Block para entrenamiento	Quieres aparecer en AI Shopping; no quieres que entrenen modelos
Datasets internos (CSV, datos crudos)	Block	Activo propietario, no para entrenamiento ajeno

La pieza importante: los gimnasios que han ido a la solución fácil "bloqueo todo a IA" entre 2025 y 2026 han visto caer su Share of Voice en ChatGPT, Claude y Perplexity entre un 30% y un 65% en 90-120 días según auditorías cruzadas del sector. La intuición "menos IA, más control" sale carísima.

Conecta con páginas de servicio y landing GEO para gimnasios y entrenadores, con pricing y "cuánto cuesta": cómo entrar en respuestas de precio y con comparativas y listicles para citas IA.

Cómo encaja con `llms.txt`, schema y SSR

AI Crawl Control no sustituye a las otras palancas técnicas: las complementa. La pila razonable en 2026:

robots.txt: sigue siendo declaración pública del contrato. Mantén User-agent: GPTBot Allow: /blog/ etc. Aunque Cloudflare aplique la regla a nivel red, los crawlers que no pasan por Cloudflare leen robots.txt.
llms.txt (raíz del dominio): índice estructurado de tu contenido principal para que el motor IA priorice. No tiene fuerza de control de acceso, es una pista de relevancia.
AI Crawl Control de Cloudflare: la capa de control real. Aplica reglas por bot, por ruta y por respuesta HTTP. Aquí decides Allow/Charge/Block.
Cache-Control y headers: ayudan a que el crawler caches los recursos estáticos sin volverlos a pedir.
Schema JSON-LD: imprescindible para que la cita sea citable como entidad estructurada. No depende del acceso, depende del marcado.
SSR/hidratación correcta: si tu Next.js o React no devuelve contenido sin JavaScript, muchos crawlers se quedan sin texto. Cloudflare no lo arregla, lo arregla tu pipeline.

La metáfora correcta: robots.txt es la carta de buena fe, llms.txt es el plano del museo, Cloudflare AI Crawl Control es la puerta con cerradura.

Conecta con JSON-LD schema stacking: múltiples tipos para citas IA y con schema y datos estructurados para gimnasios y entrenadores.

Casos de estudio: Stack Overflow, Reddit y los publishers grandes

Tres referentes del modelo de pago publicados en 2026 que conviene tener en mente:

Stack Overflow: cambió hacia Charge para crawlers IA en febrero 2026 tras acuerdo con Cloudflare. La razón: su corpus de respuestas técnicas es uno de los datasets más usados para entrenar copilots. El experimento sigue en evaluación y todavía no se ha publicado lift económico cerrado.
Reddit: cerró tratos directos con OpenAI y Google entre 2024 y 2025 fuera de Cloudflare y, en paralelo, endureció el acceso para crawlers sin contrato. El mensaje implícito: o pagas o no entras. Funcionó para Reddit; replicarlo en un blog de gimnasio no funciona porque el dataset no es comparable.
News publishers (NYT, WSJ, FT, Le Monde): la mayoría va a Block o a contrato directo. AI Crawl Control les sirve para forzar la negociación.

Para fitness y wellness, ninguno de estos casos aplica directamente como modelo de negocio. Lo que sí aplica es la herramienta: el panel y las reglas de acceso. Úsalas para gobernar, no para esperar revenue share.

Plan operativo de 60 días para una marca fitness

Semana 1: auditoría

Activar AI Crawl Control en el panel de Cloudflare.
Revisar 14 días de logs: qué bots IA entran, cuánto, a qué rutas.
Cruzar con tu mapa de contenido: qué páginas son "marca", "captación", "soporte", "privado".
Auditar robots.txt y llms.txt actuales y notar inconsistencias con lo que vas a configurar.

Semana 2: política

Redactar una política simple: qué secciones van Allow, qué secciones van Block, qué crawlers entran en cada uno.
Documentarla en un README interno del repo de la web.
Validar con responsable de marketing y con responsable técnico.

Semanas 3-4: implantación

Aplicar reglas en AI Crawl Control: defaults por crawler conocido y excepciones por ruta.
Configurar robots.txt coherente con las reglas Cloudflare.
Asegurar que llms.txt lista solo las páginas que efectivamente dejas pasar.
Mantener Googlebot y Bingbot en Allow total para no romper SEO clásico ni AI Overviews ni Bing/ChatGPT Search.

Semanas 5-6: monitoreo

Revisar diariamente el dashboard Cloudflare durante 2 semanas: ¿algún crawler legítimo está chocando 403 por error?
Auditar Share of Voice en ChatGPT, Perplexity, Gemini y Claude con 30 prompts antes y después.
Si SoV cae más de 20% en cualquier motor, reabrir secciones bloqueadas por error.

Semanas 7-8: medición y consolidación

Comparar tráfico orgánico clásico y tráfico referido desde IA semana a semana.
Sacar un informe de "ahorro de bandwidth" y "señales GEO conservadas".
Documentar el playbook definitivo para el equipo.
Programar revisión trimestral cuando aparezcan nuevos bots (cadencia 2026: 1-2 bots nuevos por trimestre).

Cómo se conecta esto con tu plataforma operativa fitness

La gestión de crawlers IA solo paga si la plataforma operativa convierte la visibilidad IA en clientes:

App del cliente y panel del coach bloqueados a crawlers IA por defecto (privacidad y RGPD).
Página de reservas con disponibilidad pública abierta a crawlers de búsqueda (Googlebot, Bingbot) pero protegida de raspadores agresivos.
CRM con campo "fuente" que registre cuándo un lead viene desde un referrer IA (chat.openai.com, perplexity.ai, gemini.google.com).
Comparativas y casos de éxito abiertos y bien marcados para ser citados como "mejor X 2026".
Pricing y servicios abiertos con Offer y priceRange en schema para entrar a AI Shopping.

Si tu gimnasio, estudio, clínica o servicio de entrenamiento quiere implantar AI Crawl Control sin perder cuota en ChatGPT, Perplexity y Gemini, agenda una demo de Fitai Labs y revisamos tu mapa de contenido, qué bots aceptar, qué rutas proteger y cómo medir el impacto real en citas IA. Si prefieres por WhatsApp, escríbenos aquí.

Preguntas frecuentes

¿Si bloqueo GPTBot pierdo citas en ChatGPT?

Pierdes una vía de cita (la de pretraining). No pierdes la cita en ChatGPT Search en tiempo real si dejas pasar OAI-SearchBot y ChatGPT-User. Para fitness conviene dejar abiertos los tres para mantener cobertura.

¿Qué pasa si bloqueo Google-Extended?

Tu contenido deja de usarse para entrenar futuros modelos Gemini, pero sigues apareciendo en Google Search, AI Overviews y AI Mode (los maneja Googlebot, que es otro crawler). Para fitness B2C local, mantener Allow en ambos es lo razonable.

¿Pay Per Crawl funciona ya para todos los crawlers en 2026?

Está en beta privada/early access. La mayoría de AI labs todavía no tienen integración nativa de pago, así que en la práctica Charge se comporta como Block para ellos. La excepción es alguna lab grande con acuerdo directo.

¿Cuánto puedo cobrar por crawl si soy un gimnasio?

Sinceramente, casi nada y casi nadie va a pagar. El precio de mercado está en céntimos por crawl para datasets premium. Un blog de gimnasio no entra en esa categoría. La utilidad real de Charge para fitness es como bloqueo elegante con opción de monetización futura, no como ingreso esperado en 2026.

¿Y si uso WordPress o Webflow en vez de Next.js?

El control vive en Cloudflare, no en tu CMS. Cualquier sitio (WordPress, Webflow, Shopify, Next.js, Astro) que pase tráfico por Cloudflare puede aplicar AI Crawl Control sin tocar el CMS.

¿Tengo que pagar a Cloudflare para usar AI Crawl Control?

Las funciones básicas están en planes gratuitos y Pro. Pay Per Crawl como marketplace está vinculado a planes superiores y a acceso beta. Para una pyme fitness, el plan Pro o Business cubre lo esencial.

¿Mantengo `robots.txt` si uso Cloudflare AI Crawl Control?

Sí. robots.txt es la declaración pública, sigue siendo leída por crawlers que no pasan por Cloudflare y por sistemas de auditoría. La política de ambos sitios debe coincidir.

¿Y si bloqueo Bytespider, pierdo TikTok Search?

Sí, pierdes señal en TikTok Search y en motores asiáticos que dependen de su dataset. Para fitness orientado a Gen Z y joven Millennial, mantener Bytespider en Allow tiene retorno claro.

¿Cómo gestiono Applebot-Extended si no me interesa Apple Intelligence?

Aunque tu negocio no sea iOS-first, Apple Intelligence integra Siri y Spotlight en todos los iPhone, iPad y Mac. Para fitness B2C local, mantener Applebot-Extended en Allow paga porque mucha búsqueda voz fitness va por Siri.

¿Bloquear scrapers no autenticados ayuda con SEO clásico?

Indirectamente sí, al reducir carga y mejorar Core Web Vitals percibidos. La regla básica es bloquear bots no identificados y rotar mientras dejas pasar a los crawlers legítimos verificados por IP.

¿Cómo distingo un crawler legítimo de uno disfrazado?

Verificación inversa: el crawler legítimo declara user-agent y tiene rango IP publicado por la empresa. GPTBot y ClaudeBot publican sus IPs. Si el user-agent es OpenAI pero la IP no está en su rango oficial, es spoofing.

¿Esto afecta a Common Crawl?

Sí, indirectamente. Common Crawl es uno de los datasets que más usan los AI labs para pretraining. Si Cloudflare bloquea masivamente, Common Crawl deja de tener tu sitio. Eso reduce citas vía pretraining en futuros modelos Claude, Llama y Mistral.

¿Tengo que avisar a mis usuarios de la política de crawlers?

No es obligatorio por RGPD a día de hoy, pero documentarlo en tu política de privacidad ayuda a evitar conflictos. Mencionar "no permitimos entrenamiento de IA con datos privados de usuarios" es buena práctica.

¿Cuánto cuesta implantar todo esto?

Para un gimnasio independiente o estudio boutique: 1-2 jornadas técnicas + revisión de marketing, 1.500-3.000€. Para una cadena multisede o software B2B: 5.000-12.000€ incluyendo auditoría de logs, política y formación interna. La herramienta Cloudflare es la parte menor; el grueso es decisión editorial.

¿Y si cambian las reglas otra vez en 2027?

Va a pasar. La cadencia 2024-2026 ha sido de cambios cada 4-6 meses. Lo importante es tener política, monitoreo activo y proceso de revisión trimestral. El que entiende el sistema se adapta rápido; el que lo deja en piloto automático se descalibra en 9-12 meses.

Cloudflare AI Crawl Control y Pay Per Crawl en 2026: cómo gestionar los crawlers de ChatGPT, Claude, Perplexity y Gemini sin perder citas IA — guía táctica para gimnasios, entrenadores personales, fisioterapeutas, estudios boutique y empresas de software fitness

Respuesta rápida

Qué cambió Cloudflare entre 2024 y 2026 y por qué `robots.txt` ya no basta

Qué crawlers IA importan en 2026 y qué hace cada uno

Las tres opciones por bot: Allow, Charge, Block

Decisión por tipo de página fitness

Cómo encaja con `llms.txt`, schema y SSR

Casos de estudio: Stack Overflow, Reddit y los publishers grandes

Plan operativo de 60 días para una marca fitness

Cómo se conecta esto con tu plataforma operativa fitness

Preguntas frecuentes

¿Si bloqueo GPTBot pierdo citas en ChatGPT?

¿Qué pasa si bloqueo Google-Extended?

¿Pay Per Crawl funciona ya para todos los crawlers en 2026?

¿Cuánto puedo cobrar por crawl si soy un gimnasio?

¿Y si uso WordPress o Webflow en vez de Next.js?

¿Tengo que pagar a Cloudflare para usar AI Crawl Control?

¿Mantengo `robots.txt` si uso Cloudflare AI Crawl Control?

¿Y si bloqueo Bytespider, pierdo TikTok Search?

¿Cómo gestiono Applebot-Extended si no me interesa Apple Intelligence?

¿Bloquear scrapers no autenticados ayuda con SEO clásico?

¿Cómo distingo un crawler legítimo de uno disfrazado?

¿Esto afecta a Common Crawl?

¿Tengo que avisar a mis usuarios de la política de crawlers?

¿Cuánto cuesta implantar todo esto?

¿Y si cambian las reglas otra vez en 2027?

Fuentes y referencias

Preguntas Frecuentes

Respuesta rápida

Qué cambió Cloudflare entre 2024 y 2026 y por qué robots.txt ya no basta

Qué crawlers IA importan en 2026 y qué hace cada uno

Las tres opciones por bot: Allow, Charge, Block

Decisión por tipo de página fitness

Cómo encaja con llms.txt, schema y SSR

Casos de estudio: Stack Overflow, Reddit y los publishers grandes

Plan operativo de 60 días para una marca fitness

Cómo se conecta esto con tu plataforma operativa fitness

Preguntas frecuentes

¿Si bloqueo GPTBot pierdo citas en ChatGPT?

¿Qué pasa si bloqueo Google-Extended?

¿Pay Per Crawl funciona ya para todos los crawlers en 2026?

¿Cuánto puedo cobrar por crawl si soy un gimnasio?

¿Y si uso WordPress o Webflow en vez de Next.js?

¿Tengo que pagar a Cloudflare para usar AI Crawl Control?

¿Mantengo robots.txt si uso Cloudflare AI Crawl Control?

¿Y si bloqueo Bytespider, pierdo TikTok Search?

¿Cómo gestiono Applebot-Extended si no me interesa Apple Intelligence?

¿Bloquear scrapers no autenticados ayuda con SEO clásico?

¿Cómo distingo un crawler legítimo de uno disfrazado?

¿Esto afecta a Common Crawl?

¿Tengo que avisar a mis usuarios de la política de crawlers?

¿Cuánto cuesta implantar todo esto?

¿Y si cambian las reglas otra vez en 2027?

Fuentes y referencias

Preguntas Frecuentes

Qué cambió Cloudflare entre 2024 y 2026 y por qué `robots.txt` ya no basta

Cómo encaja con `llms.txt`, schema y SSR

¿Mantengo `robots.txt` si uso Cloudflare AI Crawl Control?