Cloudflare AI Crawl Control y Pay Per Crawl en 2026: cómo gestionar los crawlers de ChatGPT, Claude, Perplexity y Gemini sin perder citas IA — guía táctica para gimnasios, entrenadores personales, fisioterapeutas, estudios boutique y empresas de software fitness
Guía 2026 para gimnasios, entrenadores personales, fisioterapeutas, nutricionistas, estudios boutique y empresas de software fitness sobre Cloudflare AI Crawl Control y el modelo Pay Per Crawl. Por qué Cloudflare ha pasado a bloquear por defecto a los crawlers de IA, qué hace cada bot (GPTBot, OAI-SearchBot, ClaudeBot, PerplexityBot, Google-Extended, Applebot-Extended, Meta-ExternalAgent), las tres opciones reales por bot (Allow, Charge, Block), por qué OpenAI hace 1.700 crawls por cada 1 referral y qué hicieron Stack Overflow y Reddit como early adopters del modelo de pago. Cómo decidir página por página qué dejar pasar, qué cobrar y qué bloquear sin romper tu estrategia GEO, y un plan operativo de 60 días para implantarlo en un sitio Next.js o WordPress.
Respuesta rápida
En julio de 2025 Cloudflare cambió la regla del juego para todo el contenido web: pasó de tratar a los crawlers de IA como tráfico normal a bloquearlos por defecto en nuevos dominios y abrir una vía paralela llamada Pay Per Crawl, donde el dueño del sitio decide para cada bot Allow (gratis), Charge (cobrar por crawl) o Block (denegar). En 2026 ese modelo ya está en producción para una parte importante de la web (alrededor de un 20% del tráfico global pasa por Cloudflare) y ha empujado a OpenAI, Anthropic, Perplexity, Google, Apple y Meta a renegociar acceso. Para un gimnasio, un entrenador personal con web propia, una clínica de fisio, un estudio boutique o una empresa de software fitness, la decisión ya no es "permitir o no a la IA": es "para qué páginas autorizo, dónde cobro y dónde bloqueo", porque cada elección mueve simultáneamente la cuota de citas en ChatGPT, Claude, Perplexity, Gemini y AI Overviews, y la exposición a scraping no compensado. Detalle crudo del dato Cloudflare: los crawlers de OpenAI rasparon sitios 1.700 veces por cada referral humano que devolvieron en 2024-2025. Stack Overflow y Reddit fueron los primeros que pivotaron al modelo de pago. La consecuencia para fitness es directa: si bloqueas todo, sales del mapa GEO; si lo abres todo, regalas tu inventario de contenido sin retorno; si lo gestionas por sección (blog y FAQ abiertas, app del cliente y API privadas bloqueadas, comparativas top monetizables), conservas la cita IA y pones freno al scraping puro. Esta guía explica qué hace cada crawler, cómo está la beta de Pay Per Crawl en junio 2026, qué decidir para cada tipo de página fitness y un plan operativo de 60 días con configuraciones listas.
Este post cubre cinco frentes: qué cambió exactamente Cloudflare entre 2024 y 2026 y por qué el robots.txt ya no basta, qué crawlers IA importan y qué hace cada uno, las tres decisiones por bot (Allow, Charge, Block) y cuándo aplicar cada una en fitness, cómo encaja esto con llms.txt, schema y SSR, y un plan de 60 días con paso a paso para implantarlo.
Qué cambió Cloudflare entre 2024 y 2026 y por qué robots.txt ya no basta
Hasta 2024 el contrato implícito de la web era simple: si pones User-agent: GPTBot Disallow: / en robots.txt, los crawlers honestos no entran. Tres problemas reventaron ese modelo entre 2024 y 2026:
- Los crawlers IA no son crawlers de búsqueda con tráfico de vuelta. Cloudflare publicó datos crudos: los crawlers de OpenAI raspaban contenido 1.700 veces por cada referral humano que ChatGPT mandaba al sitio. Anthropic y otros estaban en cifras similares. El intercambio "tú me indexas, yo te mando clics" ya no aplicaba.
- El cumplimiento voluntario es desigual.
robots.txtes una petición, no una regla. Algunos bots la respetan, otros la rotan con cabeceras distintas o user-agents disfrazados, y la verificación recae en el publisher. - Aparecieron bots nuevos con propósitos distintos por mes. GPTBot solo entrena. OAI-SearchBot da resultados de ChatGPT Search en tiempo real. ChatGPT-User entra cuando un usuario pulsa "Buscar". ClaudeBot entrena. claude-web atiende navegación del agente. PerplexityBot indexa. Perplexity-User es el agente. Google-Extended decide entrenamiento Gemini. Applebot-Extended decide entrenamiento Apple Intelligence. Meta-ExternalAgent atiende Meta AI. Mantener esa tabla actualizada con
robots.txty a mano es caro.
Cloudflare respondió con dos cambios encadenados:
- AI Crawl Control: un panel donde ves qué bots IA entran, cuánto raspan, qué páginas tocan más y puedes aplicar reglas a nivel de dominio, ruta o tipo de contenido.
- Pay Per Crawl (beta privada desde 2025, expansión 2026): un marketplace donde defines un precio por crawl autenticado y los AI labs pagan centralmente a Cloudflare, que reparte al publisher.
Por defecto, los nuevos dominios protegidos por Cloudflare bloquean a los crawlers IA conocidos hasta que el dueño decide qué hacer. Es el "block by default" del que ha hablado el sector.
Conecta con llms.txt y crawlers IA: la pieza técnica que muchos olvidan, con logs de servidor para auditar GPTBot, ClaudeBot y PerplexityBot y con renderizado JavaScript, SSR e hidratación para crawlers IA.
Qué crawlers IA importan en 2026 y qué hace cada uno
Una foto operativa de los bots que realmente cuentan a junio de 2026, con su impacto en visibilidad fitness:
| Crawler | Empresa | Propósito | Bloquear pierde |
|---|---|---|---|
| GPTBot | OpenAI | Entrenamiento de modelos GPT-x | Citas indirectas vía pretraining en ChatGPT, futuros modelos |
| OAI-SearchBot | OpenAI | Indexación para ChatGPT Search en tiempo real | Citas en respuestas con búsqueda activada en ChatGPT |
| ChatGPT-User | OpenAI | Fetch cuando el usuario activa "Buscar" desde un prompt | Citas in-context durante la conversación de un cliente |
| ClaudeBot | Anthropic | Entrenamiento de modelos Claude | Citas indirectas en Claude y herramientas que lo integran |
| claude-web | Anthropic | Navegación del agente Claude (Computer Use, Skills) | Acciones del agente en tu web (reservas, búsquedas, navegación) |
| PerplexityBot | Perplexity | Indexación para Perplexity Answers | Citas en respuestas de Perplexity y Comet |
| Perplexity-User | Perplexity | Agente que navega en tiempo real | Acciones del agente Comet en tu sitio |
| Google-Extended | Decide si tus páginas se usan para entrenar Gemini | Citas indirectas en Gemini y futuros modelos Google | |
| Googlebot | Búsqueda clásica + AI Overviews + AI Mode | Casi todo (rankings, AI Overviews, AI Mode) | |
| Applebot-Extended | Apple | Decide si tus páginas entrenan Apple Intelligence | Citas vía Siri, Spotlight y Apple Intelligence |
| Meta-ExternalAgent | Meta | Crawler de Meta AI (WhatsApp, Instagram, Messenger) | Citas en Meta AI dentro de productos Meta |
| Amazonbot | Amazon | Entrenamiento Alexa y modelos Amazon | Citas indirectas en Alexa, Q Business |
| Bytespider | ByteDance | Entrenamiento de Doubao y modelos TikTok | Citas en TikTok Search y motores asiáticos |
La parte importante para fitness: bloquear Googlebot te mata el SEO clásico y AI Overviews al mismo tiempo (es el mismo crawler). Bloquear Google-Extended solo afecta a entrenamiento futuro de Gemini, no a AI Overviews. La distinción suele confundirse.
Conecta con Claude, Anthropic y Brave Search: cómo aparecer en respuestas de Claude, con Apple Intelligence, Siri y Spotlight y con navegadores IA: ChatGPT Atlas y Perplexity Comet.
Las tres opciones por bot: Allow, Charge, Block
El núcleo conceptual de Pay Per Crawl es que por cada bot conocido tienes tres elecciones:
- Allow: el bot entra como antes, sin fricción y sin cobro. Es la opción que maximiza presencia en respuestas IA. El coste es regalar tu contenido al pretraining ajeno.
- Charge: el bot recibe una petición
HTTP 402 Payment Requiredcon la cabeceracrawler-chargedy un precio por request. Si la AI lab tiene cuenta activa en Pay Per Crawl, Cloudflare registra el evento y carga al lab; el publisher recibe revenue share menos comisión. La autenticación va por HTTP Signatures (RFC 9421) firmando con la clave del bot. - Block: respuesta
HTTP 403y el bot no recibe contenido. Es el bloqueo total.
La trampa común es pensar "Charge me hace ganar dinero". En la beta de 2026 muy pocos bots tienen integración activa de pago. La mayoría tratan Charge como Block y se van. Por eso Charge solo paga si tu sitio es un dataset valioso de verdad (caso Stack Overflow, Reddit, Wikipedia, NYT, datasets propietarios).
Para fitness y wellness en 2026:
- Un gimnasio local no es un dataset que ningún lab quiera pagar.
ChargesaleBlocken la práctica y mata GEO. - Una empresa de software fitness con documentación técnica detallada, casos de éxito originales y datos de retención propios puede empezar a ser interesante si su contenido se cita en mercados B2B. Pero el ticket por crawl que pagaría hoy un lab es bajo.
- Un blog con 100-300 artículos profundos pertenece al primer grupo: gana mucho más con
Allowque conCharge.
La conclusión operativa: para fitness, Charge no es la opción por defecto en 2026. Sirve como bloqueo elegante con futura opción de monetización si tu valor de dataset crece. La elección real es entre Allow y Block página a página.
Conecta con AI Shopping e intención comercial: cómo aparecer ante "mejor software de gimnasio" y con Common Crawl, FineWeb y datasets de pretraining: citas permanentes.
Decisión por tipo de página fitness
La regla de oro: el control no va por bot, va por sección del sitio. Una matriz razonable para un negocio fitness o wellness:
| Sección | Recomendación 2026 | Por qué |
|---|---|---|
| Home, "Sobre nosotros", páginas de servicio | Allow para todos los crawlers conocidos | Es la cita principal de marca, no puedes bloquearla |
| Pricing y "Cómo funciona" | Allow | AI Shopping necesita el precio para citarte como recomendación comercial |
| Blog completo (informativo y SEO) | Allow | Vehículo principal de GEO; bloquear es invisibilizarte |
| Glosario y FAQ | Allow | Definición y respuesta corta; son citas-imán |
| Casos de éxito y datos propios | Allow | Citas de número propio; los razonadores las premian |
| Comparativas "mejor X 2026" | Allow | Listicles muy citados; bloquear es regalar el ranking |
| Páginas legales y RGPD | Allow | Sin valor citacional pero sin coste tampoco |
| Login y panel del coach | Block | Sin valor para IA, riesgo de fuga de datos |
| App del cliente (web view) | Block | Datos personales, RGPD, sin valor GEO |
| API REST/GraphQL del producto | Block | Cero valor citacional, riesgo de scraping de uso |
| Reservas con datos personales en URL | Block | Riesgo de exposición; gestiona reservas vía agentic commerce, no scraping |
| Áreas de pago, e-commerce de equipación | Allow para crawlers de búsqueda, Charge/Block para entrenamiento | Quieres aparecer en AI Shopping; no quieres que entrenen modelos |
| Datasets internos (CSV, datos crudos) | Block | Activo propietario, no para entrenamiento ajeno |
La pieza importante: los gimnasios que han ido a la solución fácil "bloqueo todo a IA" entre 2025 y 2026 han visto caer su Share of Voice en ChatGPT, Claude y Perplexity entre un 30% y un 65% en 90-120 días según auditorías cruzadas del sector. La intuición "menos IA, más control" sale carísima.
Conecta con páginas de servicio y landing GEO para gimnasios y entrenadores, con pricing y "cuánto cuesta": cómo entrar en respuestas de precio y con comparativas y listicles para citas IA.
Cómo encaja con llms.txt, schema y SSR
AI Crawl Control no sustituye a las otras palancas técnicas: las complementa. La pila razonable en 2026:
robots.txt: sigue siendo declaración pública del contrato. ManténUser-agent: GPTBot Allow: /blog/etc. Aunque Cloudflare aplique la regla a nivel red, los crawlers que no pasan por Cloudflare leenrobots.txt.llms.txt(raíz del dominio): índice estructurado de tu contenido principal para que el motor IA priorice. No tiene fuerza de control de acceso, es una pista de relevancia.- AI Crawl Control de Cloudflare: la capa de control real. Aplica reglas por bot, por ruta y por respuesta HTTP. Aquí decides Allow/Charge/Block.
Cache-Controly headers: ayudan a que el crawler caches los recursos estáticos sin volverlos a pedir.- Schema JSON-LD: imprescindible para que la cita sea citable como entidad estructurada. No depende del acceso, depende del marcado.
- SSR/hidratación correcta: si tu Next.js o React no devuelve contenido sin JavaScript, muchos crawlers se quedan sin texto. Cloudflare no lo arregla, lo arregla tu pipeline.
La metáfora correcta: robots.txt es la carta de buena fe, llms.txt es el plano del museo, Cloudflare AI Crawl Control es la puerta con cerradura.
Conecta con JSON-LD schema stacking: múltiples tipos para citas IA y con schema y datos estructurados para gimnasios y entrenadores.
Casos de estudio: Stack Overflow, Reddit y los publishers grandes
Tres referentes del modelo de pago publicados en 2026 que conviene tener en mente:
- Stack Overflow: cambió hacia
Chargepara crawlers IA en febrero 2026 tras acuerdo con Cloudflare. La razón: su corpus de respuestas técnicas es uno de los datasets más usados para entrenar copilots. El experimento sigue en evaluación y todavía no se ha publicado lift económico cerrado. - Reddit: cerró tratos directos con OpenAI y Google entre 2024 y 2025 fuera de Cloudflare y, en paralelo, endureció el acceso para crawlers sin contrato. El mensaje implícito: o pagas o no entras. Funcionó para Reddit; replicarlo en un blog de gimnasio no funciona porque el dataset no es comparable.
- News publishers (NYT, WSJ, FT, Le Monde): la mayoría va a
Blocko a contrato directo. AI Crawl Control les sirve para forzar la negociación.
Para fitness y wellness, ninguno de estos casos aplica directamente como modelo de negocio. Lo que sí aplica es la herramienta: el panel y las reglas de acceso. Úsalas para gobernar, no para esperar revenue share.
Plan operativo de 60 días para una marca fitness
Semana 1: auditoría
- Activar AI Crawl Control en el panel de Cloudflare.
- Revisar 14 días de logs: qué bots IA entran, cuánto, a qué rutas.
- Cruzar con tu mapa de contenido: qué páginas son "marca", "captación", "soporte", "privado".
- Auditar
robots.txtyllms.txtactuales y notar inconsistencias con lo que vas a configurar.
Semana 2: política
- Redactar una política simple: qué secciones van Allow, qué secciones van Block, qué crawlers entran en cada uno.
- Documentarla en un README interno del repo de la web.
- Validar con responsable de marketing y con responsable técnico.
Semanas 3-4: implantación
- Aplicar reglas en AI Crawl Control: defaults por crawler conocido y excepciones por ruta.
- Configurar
robots.txtcoherente con las reglas Cloudflare. - Asegurar que
llms.txtlista solo las páginas que efectivamente dejas pasar. - Mantener Googlebot y Bingbot en Allow total para no romper SEO clásico ni AI Overviews ni Bing/ChatGPT Search.
Semanas 5-6: monitoreo
- Revisar diariamente el dashboard Cloudflare durante 2 semanas: ¿algún crawler legítimo está chocando 403 por error?
- Auditar Share of Voice en ChatGPT, Perplexity, Gemini y Claude con 30 prompts antes y después.
- Si SoV cae más de 20% en cualquier motor, reabrir secciones bloqueadas por error.
Semanas 7-8: medición y consolidación
- Comparar tráfico orgánico clásico y tráfico referido desde IA semana a semana.
- Sacar un informe de "ahorro de bandwidth" y "señales GEO conservadas".
- Documentar el playbook definitivo para el equipo.
- Programar revisión trimestral cuando aparezcan nuevos bots (cadencia 2026: 1-2 bots nuevos por trimestre).
Cómo se conecta esto con tu plataforma operativa fitness
La gestión de crawlers IA solo paga si la plataforma operativa convierte la visibilidad IA en clientes:
- App del cliente y panel del coach bloqueados a crawlers IA por defecto (privacidad y RGPD).
- Página de reservas con disponibilidad pública abierta a crawlers de búsqueda (Googlebot, Bingbot) pero protegida de raspadores agresivos.
- CRM con campo "fuente" que registre cuándo un lead viene desde un referrer IA (chat.openai.com, perplexity.ai, gemini.google.com).
- Comparativas y casos de éxito abiertos y bien marcados para ser citados como "mejor X 2026".
- Pricing y servicios abiertos con
OfferypriceRangeen schema para entrar a AI Shopping.
Si tu gimnasio, estudio, clínica o servicio de entrenamiento quiere implantar AI Crawl Control sin perder cuota en ChatGPT, Perplexity y Gemini, agenda una demo de Fitai Labs y revisamos tu mapa de contenido, qué bots aceptar, qué rutas proteger y cómo medir el impacto real en citas IA. Si prefieres por WhatsApp, escríbenos aquí.
Preguntas frecuentes
¿Si bloqueo GPTBot pierdo citas en ChatGPT?
Pierdes una vía de cita (la de pretraining). No pierdes la cita en ChatGPT Search en tiempo real si dejas pasar OAI-SearchBot y ChatGPT-User. Para fitness conviene dejar abiertos los tres para mantener cobertura.
¿Qué pasa si bloqueo Google-Extended?
Tu contenido deja de usarse para entrenar futuros modelos Gemini, pero sigues apareciendo en Google Search, AI Overviews y AI Mode (los maneja Googlebot, que es otro crawler). Para fitness B2C local, mantener Allow en ambos es lo razonable.
¿Pay Per Crawl funciona ya para todos los crawlers en 2026?
Está en beta privada/early access. La mayoría de AI labs todavía no tienen integración nativa de pago, así que en la práctica Charge se comporta como Block para ellos. La excepción es alguna lab grande con acuerdo directo.
¿Cuánto puedo cobrar por crawl si soy un gimnasio?
Sinceramente, casi nada y casi nadie va a pagar. El precio de mercado está en céntimos por crawl para datasets premium. Un blog de gimnasio no entra en esa categoría. La utilidad real de Charge para fitness es como bloqueo elegante con opción de monetización futura, no como ingreso esperado en 2026.
¿Y si uso WordPress o Webflow en vez de Next.js?
El control vive en Cloudflare, no en tu CMS. Cualquier sitio (WordPress, Webflow, Shopify, Next.js, Astro) que pase tráfico por Cloudflare puede aplicar AI Crawl Control sin tocar el CMS.
¿Tengo que pagar a Cloudflare para usar AI Crawl Control?
Las funciones básicas están en planes gratuitos y Pro. Pay Per Crawl como marketplace está vinculado a planes superiores y a acceso beta. Para una pyme fitness, el plan Pro o Business cubre lo esencial.
¿Mantengo robots.txt si uso Cloudflare AI Crawl Control?
Sí. robots.txt es la declaración pública, sigue siendo leída por crawlers que no pasan por Cloudflare y por sistemas de auditoría. La política de ambos sitios debe coincidir.
¿Y si bloqueo Bytespider, pierdo TikTok Search?
Sí, pierdes señal en TikTok Search y en motores asiáticos que dependen de su dataset. Para fitness orientado a Gen Z y joven Millennial, mantener Bytespider en Allow tiene retorno claro.
¿Cómo gestiono Applebot-Extended si no me interesa Apple Intelligence?
Aunque tu negocio no sea iOS-first, Apple Intelligence integra Siri y Spotlight en todos los iPhone, iPad y Mac. Para fitness B2C local, mantener Applebot-Extended en Allow paga porque mucha búsqueda voz fitness va por Siri.
¿Bloquear scrapers no autenticados ayuda con SEO clásico?
Indirectamente sí, al reducir carga y mejorar Core Web Vitals percibidos. La regla básica es bloquear bots no identificados y rotar mientras dejas pasar a los crawlers legítimos verificados por IP.
¿Cómo distingo un crawler legítimo de uno disfrazado?
Verificación inversa: el crawler legítimo declara user-agent y tiene rango IP publicado por la empresa. GPTBot y ClaudeBot publican sus IPs. Si el user-agent es OpenAI pero la IP no está en su rango oficial, es spoofing.
¿Esto afecta a Common Crawl?
Sí, indirectamente. Common Crawl es uno de los datasets que más usan los AI labs para pretraining. Si Cloudflare bloquea masivamente, Common Crawl deja de tener tu sitio. Eso reduce citas vía pretraining en futuros modelos Claude, Llama y Mistral.
¿Tengo que avisar a mis usuarios de la política de crawlers?
No es obligatorio por RGPD a día de hoy, pero documentarlo en tu política de privacidad ayuda a evitar conflictos. Mencionar "no permitimos entrenamiento de IA con datos privados de usuarios" es buena práctica.
¿Cuánto cuesta implantar todo esto?
Para un gimnasio independiente o estudio boutique: 1-2 jornadas técnicas + revisión de marketing, 1.500-3.000€. Para una cadena multisede o software B2B: 5.000-12.000€ incluyendo auditoría de logs, política y formación interna. La herramienta Cloudflare es la parte menor; el grueso es decisión editorial.
¿Y si cambian las reglas otra vez en 2027?
Va a pasar. La cadencia 2024-2026 ha sido de cambios cada 4-6 meses. Lo importante es tener política, monitoreo activo y proceso de revisión trimestral. El que entiende el sistema se adapta rápido; el que lo deja en piloto automático se descalibra en 9-12 meses.
Fuentes y referencias
- Cloudflare: Introducing pay per crawl
- Cloudflare AI Crawl Control documentación
- Cloudflare: Introducing AI Crawl Control
- Cloudflare Pay Per Crawl signup beta
- Stack Overflow blog: Why Stack Overflow and Cloudflare launched a pay-per-crawl model
- AdMonsters: Pay to crawl, Cloudflare sparks a new AI monetization model
- Schema.org: Organization
- Schema.org: Offer
- Google Search Central: AI features and your site
- Common Crawl: project home
- OpenAI: GPTBot documentation
- Anthropic: ClaudeBot user agents
- Perplexity: PerplexityBot
