Crawl Budget, qué es y cómo afecta a tu site según Google

Publicado por Lino Uruñuela el 16 de enero del 2017 en Donostia

Desde hace ya mucho tiempo llevo analizando, probando y optimizando el Crawl Budget o Presupuesto de Rastreo.

Ya en los primeros análisis vi que esto era algo relevante para el SEO, que si bien no afecta directamente a los rankings de una KW determinada, sí afecta al número de urls de un site en las que Google gasta su tiempo, y por consiguiente cuáles son las urls de un site que compiten por salir en los resultados y para que búsquedas son adecuadas esas urls.

Como casi todo en este mundo SEO, todo son hipótesis y teorías hasta que hay una demostración irrefutable o Google dice algo oficial, y aun así no podemos saber si esta información que nos da Google es del todo cierta, o a hasta que punto nos da toda la información sobre el tema.

Pero hoy, mis sospechas han sido respaldadas por el propio Google, donde ha publicado un artículo explicando qué es el Crawl Budget, qué influye en él y que consecuencias tiene.

Según el propio Google podemos definir como Crawl Budget

"El robot de Google está diseñado para tener un funcionamiento ejemplar en la Web. Su prioridad es el rastreo, pero también se asegura de que no se degrade la experiencia de los usuarios en el sitio web.

Esto se llama "frecuencia de rastreo", que limita la frecuencia con la que se obtienen las páginas de un sitio web.Es decir, representa el número de conexiones paralelas y simultáneas que utiliza el robot de Google para rastrear el sitio web, así como el tiempo de espera entre cada obtención."

Esto más o menos todos lo teníamos claro, pero ahora Google nos da alguna pista más sobre que hace que este límite aumente o no.

"La frecuencia de rastreo puede aumentar o disminuir en función de dos factores:

Estado del rastreo: si el sitio web responde rápidamente durante un tiempo, el límite aumenta, lo que significa que se pueden usar más conexiones para rastrear las páginas. Si el sitio se ralentiza o genera errores de servidor, el límite disminuye y el robot de Google rastrea menos páginas.
Límite definido en Search Console: el propietario de un sitio web puede reducir la frecuencia de rastreo del robot de Google en su sitio. Ampliar el límite no aumenta automáticamente la frecuencia de rastreo."

Lo dicho, sobre esto es más o menos lo que ya teníamos claro y era seguro, no solo por la opción de aumentar la frecuencia de rastreo en Google Search Console sino también porque a veces nuestro servidor quedaba fuera de combate si aumentábamos mucho esta frecuencia.

Pero ahora Google nos ofrece otro término, Demanda de rastreo, algo que yo personalmente no estaba usando y creo que comenzaré a hacerlo, y de esta manera poder hablar todos de lo mismo.

"Demanda de rastreo

Aunque no se alcance el límite de la frecuencia de rastreo, si no hay demanda de indexación, el robot de Google tendrá poco trabajo. Estos son los dos factores que juegan un papel crucial en la demanda de rastreo:

Popularidad: las URL que son más populares en la red suelen rastrearse con más frecuencia, para que estén lo más actualizadas posible en nuestro índice.
Inactividad: nuestros sistemas intentan evitar que las URL del índice queden inactivas."

Con estos dos términos, frecuencia de rastreo y demanda de rastreo, Google define el tercero, "Presupuesto de rastreo"

"La frecuencia y la demanda son la base del presupuesto de rastreo, es decir, el número de URLs que el robot de Google puede y quiere rastrear"

Y es aquí donde comenzamos a vislumbrar lo interesante de verdad para el SEO, ese "quiere rastrear" es vital para nuestro proyecto, sobretodo si tiene un numero elevado de urls.

Google confiesa que

"Según nuestros análisis, si un sitio tiene muchas URL de poca calidad, el rastreo y la indexación podrían verse perjudicados"

Es decir, el número (o mejor dicho, porcentaje) de urls que hay en el site y que Google identifica como de mala calidad hacen que el presupuesto de rastreo descienda, y nos comenta a continuación que tipo de urls identifica Google como de baja calidad.

"Estas URL se dividen en las categorías siguientes, por orden de importancia:

Navegación por facetas e identificadores de sesión
Contenido duplicado en el sitio
Páginas con errores menores
Páginas pirateadas
Espacios infinitos y servidores proxy
Contenido spam y de poca calidad

Si malgastamos los recursos del servidor con páginas como éstas, se dejarán de rastrear páginas que verdaderamente son interesantes, lo que puede provocar que se tarde mucho en descubrir el contenido de calidad de un sitio web"

Es decir, que si tenemos un gran % de urls de nuestro site clasificadas dentro de estos grupos de urls Google no rastrea otras que quizás fuesen más relevantes y con mayor potencial.

Con esto podemos deducir que es muy importante intentar por todos los medios que Google no rastree este tipo de urls, o bien que las urls de tu site que encasilla en uno de estos grupos deje de hacerlo verlas como urls relevantes y de calidad.

Lo primero que debemos averiguar es en que URLs de tu site consume Google su tiempo, ya hemos dicho aquí dos maneras de analizar esto, usando Google Analytics para monitorizar el acceso de GoogleBot a tu site, y analizando los logs del servidor (ya sea por consola, o con alguna tool que te fabriques), opción que nos dará muchísima más información valiosa, como ya dijimos en el post El valor de los logs para el SEO.

Además Google se autoresponde a algunas preguntas que siempre hemos corraborar y por fin parece que podemos hacerlo

¿La velocidad de un sitio afecta al presupuesto de rastreo? ¿Y los errores?

"R: Si un sitio web es rápido, la experiencia del usuario es mejor y el sitio también se rastrea con más frecuencia. Para el robot de Google, si un sitio es rápido significa que los servidores están en buen estado, y puede obtener más contenido con el mismo número de conexiones. En cambio, si hay muchos errores del tipo 5xx o a menudo se agota el tiempo de espera de las conexiones, significa lo contrario y el rastreo se ralentiza. Te recomendamos que prestes atención al informe de errores de rastreo de Search Console y que reduzcas al máximo los errores de servidor."

Esto es algo que también casi todos teníamos claro, cuanto más rápido sea la carga de una url, menos tiempo consume en hacerlo y más tiempo podrá dedicar a otras urls. Aunque realmente no lo expone así, es algo lógico y que no nos sorprende.

¿El rastreo afecta a la clasificación de un sitio web?

"R: Que un sitio web se rastree con más frecuencia no significa que vaya a ocupar una mejor posición en los resultados de búsqueda. Google utiliza cientos de indicadores para clasificar los resultados, y aunque rastrear un sitio es imprescindible para que este aparezca en los resultados de búsqueda, no es un factor determinante para la clasificación

Otra respuesta de esperar, y cómo no, Google hace referenciua a sus cientos de indicadores para clasificar los resultados... Vamos, que no dice ni sí ni no... entonces lo más seguro sea que sí influye de alguna manera. Tiene su lógica que si un site rastrea urls de baja calidad en vez de otras urls que consideraría de buena calidad estamos desperdiciando el potencial de esas urls de buena calidad, por lo que si lo solucionas posiblemente mejores en visibilidad, al entrar a competir en los resultados de Google aquellas urls de mejor calidad de cara a Google.

¿En el presupuesto de rastreo se tienen en cuenta las URL alternativas y el contenido insertado?

"R: En principio, cualquier URL que rastree el robot de Google se tendrá en cuenta en el presupuesto de rastreo del sitio. Es posible que haya que rastrear las URL alternativas, como AMP o hreflang, y el contenido insertado, como CSS y JavaScript, lo que consumirá el presupuesto del sitio web. Las cadenas largas de redireccionamiento también podrían perjudicar el rastreo"

Esta respuesta es para mi bastante relevante, contabiliza cada url, sea del tipo que sea. Y me refiero a css, javascript, etc. Urls que son parte de de muchas urls, las hojas de estilo, archivos js, etc. Así que reducir el número de peticiones http al cargar una url, a parte de influir directamente en la velocidad de carga de esa url y en consecuencia a lo dicho antes, también en el número total de urls que rastrearça, también las tiene en cuenta dentro del total de urls del site, por lo que parece que unificar al máximo estos recursos pude ser buena idea en determinados casos.

¿Puedo controlar el robot de Google con la directiva "crawl-delay"?

"R: El robot de Google no procesa la directiva "crawl-delay" no estándar de robots.txt. Si quieres saber cómo mejorar el rastreo de tu sitio web, lee la entrada del blog sobre cómo optimizar el rastreo. Es de 2009, pero las indicaciones siguen vigentes. Y si tienes dudas, publícalas en los foros."

Sobre esto poco que decir.

¿La directiva “nofollow” afecta a mi “presupuesto de rastreo”?

"R: Depende. Todas la URLs rastreadas afectan al presupuesto de rastreo, de modo que aunque tu página marque una URL como “nofollow”, ésta puede ser rastreada si cualquier otra página en tu sitio o en la web no marca el enlace como “nofollow”. "

Aquí Google echa balones fuera, no responde ni que sí ni que no. De esta manera además de guardarse el valor y cómo interpreta esta etiqueta evita que los SEOs comencemos a usarla para otros menesteres, distintos para los que realmente fue creada (identificar enlaces publicitarios).

Con todo esto podemos asegurar un poco más que el saber qué hace Google en tu site es muy importante, sobretodo en sitios con más de mil urls, es decir, casi todas.

Resumen

La demanda de rastreo depende de
- La popularidad de la url
- Inactividad: parece ser que cada X tiempo Google rastrea las urls que contiene en su índice aunque no se den las condiciones normales de frecuencia de rastreo para que la rastree.

Presupuesto de rastreo
"La frecuencia y la demanda son la base del presupuesto de rastreo, es decir, el número de URLs que el robot de Google puede y quiere rastrear"

Un elevado número de errores, o de contenido dulicado puede ser negativo para el presupuesto de rastreo.
"Si malgastamos los recursos del servidor con páginas como éstas, se dejarán de rastrear páginas que verdaderamente son interesantesa".

Google nos da más pistas de qué considera contenido de baja calidad
- Navegación por facetas e identificadores de sesión
- Contenido duplicado en el sitio
- Páginas con errores menores
- Páginas pirateadas
- Espacios infinitos y servidores proxy
- Contenido spam y de poca calidad

La velocidad de carga de un site afecta al rastreo

El rastreo afecta a la clasificación de un sitio web indirectamente
No es un factor de ranking como tal, pero de manera indirecta afecta en la medida de que si no rastrea determinadas urls potenciales porque gasta su presupuesto de rastreo en urls de baja calidad o con errores habrá urls potenciales que no serán rastreadas, al menos con tanta frecuencia.

Google parece ser que para calcular el presupuesto de rastreo tiene en cuenta todas las urls, quizas pudiésemos decir, todas las peticiones http

La única manera oficial de controlar el crawl budget es mediante Google Search Console en la opción de personalizar la frecuencia de rastreo (que no el presupuesto de rastreo)

Para ver dónde gasta el tiempo GoogleBot puedes hacerlo mediante:
- Monitorización de GoogleBot mediante Google Analytics.También disponible un plugin para WordPress que David Vallejo se está currando.
- Analizando los logs
  - Mediante cinco comandos en el termina
  - Con alguna herramienta propia, como hacemos en Funnel Punk