Como sigue Google las peticiones XMLHttpRequest

Publicado el 3 de noviembre del 2011, by

En el blog para webmaster de Google han anunciado un par de "novedades" en el rastreo de ciertos tipos de contenido.
  1. Google rastreará los formularios, emulando a un usuario haciendo un submit en el.
    Esto ya lo venía haciendo desde hace años y supongo que lo han mejorado algo.

    Lo importante en este punto es que si tenemos un formulario, lo creemos de tal manera que ya nos devuelva algún resultado al hacer click en el botón de enviar.

    Así que vamos a probar, aquí meto un formulario con una búsqueda por defecto, a ver si luego la muestra en los resultados.
    Como digo ya sabíamos que envia los formuarios tal como los ve, pero con este experimento quiero saber si es capaz de tener dos versiones de la misma url para distintas búsquedas. Ya que al enviar el formulario por POST la url no variará pero sí su contenido.

    La página a la que apunta el formulario ya está cacheada por Google desde hace tiempo, a ver si ahora es capaz de cachearla para otro resultado (lo dudo).




  2. Google ejecutrá las peticiones XMLHttpReques.
    Y vamos también a ver hasta que punto es capaz de seguirlas y cómo cachea los resultados.
    En algunos post ya dijimos que una buena manera de hacer pr sculpting es crear determinado contenido que no queremos que Google indexe mediante Ajax y decíamos que lo ideal para que google no se enterará de ese contenido era alojar el JS que ejecutaba el código en un directorio que esté restringido por el robots.txt, así Google nunca podría descubrirlo, y ahora ellos nos lo confirman :)

    "if hot-fudge-info.html is disallowed by robots.txt, Googlebot won't fetch it. More subtly, if the JavaScript code that issues the XMLHttpRequest is located in an external .js file disallowed by robots.txt, we won't see the connection between yummy-sundae.html and hot-fudge-info.html"


    El segundo experimento, vamos a crear un XMLHttpRequest a una página que antes no existía donde pondremos una palabra inventadoa por la cual Google no arrojaba ningún resultad, a ver si luego es capaz de mostrarla y qué página nos devuelve.


  3. La palabra resultante deberiais poder verla al hacer click en este enlace

Podéis ver el código fuenta para ver cómo he creado los ejemplos, a ver qué ocurre!!


 



Últimos posts

Últimos comentarios


Resham Singh Mahal

Post: Experimento para comprobar la teoría del primer enlace

Joakim Hov Johnsen

Post: Experimento para comprobar la teoría del primer enlace

Dana

Post: Experimento para comprobar la teoría del primer enlace

JaviLazaro
Ya me has dado la necesidad de crear un comaando en bash para hacer estas cosas. Gracias Lino por estos tips
Post: Obtener KWs de varias fuentes usando la línea de comandos

Señor Muñoz
Lino, el 11% más de clicks y el 47% más de impresiones diarias ¿es algo constante o depende de cada sitio web?
Post: Diferencias entre la exportación de datos de Search Console usando BigQuery o usando la API

Carlos
Hola En mi blog tengo artículos atemporales (es decir, no caducan nunca, de manera que sirve para quien lo lea hoy o lo lea dentro de 5
Post: Tratamiento de urls que tienen un tiempo de vida muy corto

Profe Ray
Veo que hay comentarios de hace 5 años y de hace 3 años. ¿Habrá algun post actualizado sobre este tema o sigue funcionando? Lo cierto es
Post: Cómo cargar css y js y no bloquear la carga de contenido

Pepe
Muchas gracias por el articulo!! Muy buena información.
Post: Qué es ofuscar enlaces y cómo mejora el enlazado interno

María
Sí, he buscado el archivo robots.txt y todo está correcto. La última versión vista con error fue el 08/11/2021 y la última vez que el
Post: Errores críticos originados por el robots.txt

Lino
@María un placer verte por aquí :) Lo primero, a veces, con el robots.txt no se puede "forzar" a que lo rastree, si tu site no es muy p
Post: Errores críticos originados por el robots.txt