Publicado el 2025-02-06 por Lino Uuñuela
Hasta hoy, cuando he hablado de indexación, crawl budget o políticas de indexación siempre he tenido como la mejor "fuente de la verdad" el artículo del 2018, escrito por BILL RICHOUX (Googler), "Crawling the internet: data science within a large engineering system".
El resumen podrá ser que dadas unas restricciones, ya sean por verdades físicas (como que existe unos recursos limitados disponibles para el rastreo), y otroas restrucciones impuestas (por ejemplo restricciones del robots.txt, estado del servidor, etc), Google determinaba cuál es la URL con mayor probabillidad de haber sufrirdo un cambio significativo desde la última vez que fue rastreada.
Esto lo decidía en base a:
Hoy he descubierto este paper de Google (A Scalable Crawling Algorithm Utilizing Noisy Change-Indicating Signals) dónde describe una mejora del método descrito en el artículo inicial
El cambio principal es que añaden Señales que Incitan Cambios(Change Indicator Signals) a las ecuaciones para calcular cuál es la soguiente página que debe rasttrear
La idea es usar "señales" externas que avisan de que una página ha cambiado, antes de tener que rastrearla. Según el artículo estas señales pueden venir de:
Lo malo de estas señales (CIS) es que son "señales ruidosas" que generan falsos positivos (puede indicar que hubo un cambio significativo en la página pero en realidad no lo hubo, o el cambio que hubo no llega a ser un cambio signiticativo).
Las señales que Google recibe también generan falsos negativos (puede haber un cambio significativo y real, pero la señal no lo detecta) y también que estas señales son de una calidad variable, dónde algunas señales son muy fiables, otras no.
La mejora de este nuevo algoritmo respecto al anterior es en que incorpora este modelo de ruido en la función de valor (crawl value function) calculando para cada página lo importante y/o urgente que es rastrearla en un momento dado.
Este depende de:
Cuánto tiempo ha pasado desde el último rastreo.
Cuántas señales CIS se han recibido (y su "peso" en términos de tiempo equivalente).
La probabilidad de que las señales sean verdaderas.
De esta manera, Google podría decidir rastrear una página no solo en función del tiempo transcurrido desde el último rastreo, sino también considerando la “información” (o ruido) aportada por las señales CIS.
Esto le permite a Google asignar de forma diferente los recursos disponibles, su crawl budget, dependiendo de si tiene muchas o pocas señales de una página:
Pensando en SEO podríamos llegar a la conclusión de que determinadas señales que nosotros mismos envvíamos con el objetivo de forzar a Gogole a indexar determoinadas URLs podrían ser contraproducentes, ya que estaríamos enviando falsos positivos! (señales a URLs que no han sufrido modificaciones significativas), y a cada reintento degradamos la "credibiliad" de estas señales para nuestra página..
Juguemos a un juego...
Por 3 gallifantes, ¿qué señales son frecuentemente utilizadas por los SEOs para indicar a Google que rastree e indexe URLs? ...1,2,3 responda otra vez!
- "Los cambio de la fecha de última modificación en el sitemaps"
- "Los envíos de solicitud de indexación de URLs desde Google Search Console"
- "Añadir enlazado interno cuando ya tenía suficiente.... "
-.... !Dejad vuestras respuestas!
Recomiendo su lectura, y cuándo pensemos en temas que tengan que ver con ell rastreo, crawl budget, frescura de contenido, etc, tengamos este artículo presente. No es que sea 100% de esta manera, porque no sabemos qué señales son pero sí podemos intuir "por dónde van los tiros" a la hora de analizar determinado comportamiento en el rastreo o el impato que tendrán los cambios que vamos a realizar
Tasas empíricas para varias páginas web logradas mediante políticas discretas, incluidas GREEDY y GREEDY-CIS . Cada punto corresponde a una página web para la que calculamos la tasa del método de línea base y la graficamos frente a la tasa empírica lograda mediante la política correspondiente. El color de los puntos indica la observabilidad de la secuencia de cambios que está controlada por
la
.
Lino (@errioxa)hace 14 días
Probando!
Lino2 (@linourunuela)hace 14 días
Hola
Lino2 (@linourunuela)hace 14 días
Hola @errioxa que tal
Juanan Carapapa (@carapapeando)hace 13 días
Yo también vengo a probar los comentarios, probando probando xD
Lino (@)hace 13 días
Funcionan!! Ahora solo tengo que generar engagement :D
A ver si quito lo de avisar por Twitter... no sé cuántos años llevará sin funcionar la API
Pedro (@)hace 13 días
1,2...1,2... probando.
Gracias por el artículo, verdaderamente interesante ver cómo no paramos de generar ruido :)
Lino (@errioxa)hace 13 días
3,2,1... Gracias a ti Pedro!! y sí, parece que los humanos somos expertos en haciendo ruido cuando intentamos que alguien nos escuche... :p
Alejandro (@spamloco)hace 10 días
Gracias Lino, siempre investigando un poco más allá.
Lino (@errioxa)hace 10 días
@spamloco a tí r hacerme ver que no soy al único que le importa :p
A ver si nos vemos!