Como sigue Google las peticiones XMLHttpRequest

Publicado el 3 de noviembre del 2011, by Errioxa

En el blog para webmaster de Google han anunciado un par de "novedades" en el rastreo de ciertos tipos de contenido.

Google rastreará los formularios, emulando a un usuario haciendo un submit en el.
Esto ya lo venía haciendo desde hace años y supongo que lo han mejorado algo.

Lo importante en este punto es que si tenemos un formulario, lo creemos de tal manera que ya nos devuelva algún resultado al hacer click en el botón de enviar.

Así que vamos a probar, aquí meto un formulario con una búsqueda por defecto, a ver si luego la muestra en los resultados.
Como digo ya sabíamos que envia los formuarios tal como los ve, pero con este experimento quiero saber si es capaz de tener dos versiones de la misma url para distintas búsquedas. Ya que al enviar el formulario por POST la url no variará pero sí su contenido.

La página a la que apunta el formulario ya está cacheada por Google desde hace tiempo, a ver si ahora es capaz de cachearla para otro resultado (lo dudo).
Google ejecutrá las peticiones XMLHttpReques.
Y vamos también a ver hasta que punto es capaz de seguirlas y cómo cachea los resultados.
En algunos post ya dijimos que una buena manera de hacer pr sculpting es crear determinado contenido que no queremos que Google indexe mediante Ajax y decíamos que lo ideal para que google no se enterará de ese contenido era alojar el JS que ejecutaba el código en un directorio que esté restringido por el robots.txt, así Google nunca podría descubrirlo, y ahora ellos nos lo confirman :)

"if hot-fudge-info.html is disallowed by robots.txt, Googlebot won't fetch it. More subtly, if the JavaScript code that issues the XMLHttpRequest is located in an external .js file disallowed by robots.txt, we won't see the connection between yummy-sundae.html and hot-fudge-info.html"

El segundo experimento, vamos a crear un XMLHttpRequest a una página que antes no existía donde pondremos una palabra inventadoa por la cual Google no arrojaba ningún resultad, a ver si luego es capaz de mostrarla y qué página nos devuelve.