Otro META nuevo unavailable_after

Publicado el Viernes 27 de Julio de 2007 a las 4 de la mañana despés de salir de juerga

Pues sí, unas cuantas neuronas mas ocupadas en mi cerebro por tener que memorizar otro META. Éste para decirle a Google cuando quremos que expire nuestro contenido y lo borre de sus resultados, !!está loco¡¡ con lo que cuesta crearlos. Yo no lo haría. Supongo que habrá casos muy puntuales en que les venga bien.

Ya soltaron en una conferencia hace poco en Inglaterra que iban a crear el unavailable_after, y hoy lo han publicado.

¿y por qué tienen interés en quitar páginas de sus servidores? igual es que andan escasos de espacio con tantas webs nuevas cada día...

También han anunciado que disponen de un método para que podamos decir a Google que archivos como Pdf, Word, XLS, etc.. no sean indexados o no sean mostrados en los resultados del buscador. En HTML ya podíamos usar un META para esto.

<meta name="robots" content="noindex,nofollow">

Pero en cualquier otro tipo de documento  que no fuese HTML no podías decŕselo y Google que lo quiere todo, lo indexaba y mostraba si no le restringías el acceso por medio del robots.txt o por medio de contraseña en el directorio donde estuviera.

Ahora hay una nueva directiva en la cabecera Header que debemos enviársela si no queremos que algún documento sea indexado, por ejemplo así:

X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 23 Jul 2007 15:00:00 PST


Esto supone que tenemos que tener acceso a la configuración de nuestro servidor (archivo .htaccess) para poder controlar las solicitudes a determinadas extensiones de archivos.

Un ejemplo para enviar estas cabeceras para todos los documentos .doc .pdf sería escribir esto en el .htaccess de tu servidor: (no lo he probado porque parece que el .htaccess de mi hosting debo hacerlo desde el panel, otro día lo haré, pero debería fucionar)

<FilesMatch "\.(doc|pdf)$">
      Header set X-Robots-Tag "noindex"
</FilesMatch>

Para hacerlo solamente para un fichero en concreto así:

<FilesMatch "nombre_archivo.doc$">
       Header set X-Robots-Tag "noindex"
</FilesMatch>

Pero con este método no impedimos el que alguien teclee la ruta en la barra de direcciones y se descargue cualquier archivo. Para hacer esto en Apache estoy investigando.

En .Net hice algo parecido hace poco para que no se pudiesen descargar archivos por medio de la URL si no estaban autentificados por medio de un formulario y además tenías los permisos necesarios sobre ese archivo que yo comprobaba en mi base de datos, de esta manera aunque supieran o probaran suerte por medio de la URL no podían descargarlo. Por supuesto si no estaban logueados no podían descargarlo tampoco. Más o menos era así;

Primero tenías que configurar el servidor diciéndole que determinados archivos los tratase como archivos  aspx. Entonces el servidor cada vez que haya una peticion http  mirará por si ese tipo de archivo debe ser tratado como un aspx. Si es así, iría al Web.config donde pondremos

<httpHandlers>

<addverb="GET,POST"path="*.doc"
type="objeto.HttpHandler.downloadHandler,
objeto.MiHttpHandler/>
</httpHandlers>

y verá que DLL debe usar para tratar ese tripo de ficheros. Y si has llegado hasta aquí, no necesitarás enviar nada a Google porque si tu no quieres no le das acceso.

Aquí teneis una perfecta explicación para manejar los HttpHandlers con .Net

Pero en Apache no sé cómo hacerlo, no me sale Yell . No lo necesito porque documentos privados la verdad que no tengo, esto ya es cabezonería. Pero puede ser muy importante para muchas páginas de hospitales, ayuntamietos, etc, que guardan datos confidenciales y deberían hacerlo todas, sin embargo la mayoría no lo hace y puedes descargarte, si sabes o adivinas la ruta, todos sus documentos.

Lo ideal y lógico es no depender de Google para tener seguros tus datos confidenciales, y en este caso Google no lo pone tan fácil, porque hay que saber de programación y tener control sobre tu servidor.

Espero poder probarlo mañana y publico cómo es. También voy a hacer una prueba haciendo lo que dicen y poniendo un link para ver si lo lee.

Si alguien sabe como hacerlo en Apache que me lo diga, si no seguiré investigando. Creo que habría que modificar el .htaccess y poner algo así para  redirigir las peticiones http cuando es a un archivo doc, mp3 o pdf

RewriteEngine on
RewriteCond %{QUERYSTRING} !^$
RewriteCond %{QUERYSTRING} !^http://([-a-z0-9]+\.)?mecagoenlos\.com[NC]
RewriteRule .*\.(doc|mp3|pdf)$ https://www.mecagoenlos.com/ [R,NC,L]

Pero a mi no me sale....

 




Lea otros artículos de Otras noticias sobre Google

Últimos posts

Últimos comentarios


Resham Singh Mahal

Post: Experimento para comprobar la teoría del primer enlace

Joakim Hov Johnsen

Post: Experimento para comprobar la teoría del primer enlace

Dana

Post: Experimento para comprobar la teoría del primer enlace

JaviLazaro
Ya me has dado la necesidad de crear un comaando en bash para hacer estas cosas. Gracias Lino por estos tips
Post: Obtener KWs de varias fuentes usando la línea de comandos

Señor Muñoz
Lino, el 11% más de clicks y el 47% más de impresiones diarias ¿es algo constante o depende de cada sitio web?
Post: Diferencias entre la exportación de datos de Search Console usando BigQuery o usando la API

Carlos
Hola En mi blog tengo artículos atemporales (es decir, no caducan nunca, de manera que sirve para quien lo lea hoy o lo lea dentro de 5
Post: Tratamiento de urls que tienen un tiempo de vida muy corto

Profe Ray
Veo que hay comentarios de hace 5 años y de hace 3 años. ¿Habrá algun post actualizado sobre este tema o sigue funcionando? Lo cierto es
Post: Cómo cargar css y js y no bloquear la carga de contenido

Pepe
Muchas gracias por el articulo!! Muy buena información.
Post: Qué es ofuscar enlaces y cómo mejora el enlazado interno

María
Sí, he buscado el archivo robots.txt y todo está correcto. La última versión vista con error fue el 08/11/2021 y la última vez que el
Post: Errores críticos originados por el robots.txt

Lino
@María un placer verte por aquí :) Lo primero, a veces, con el robots.txt no se puede "forzar" a que lo rastree, si tu site no es muy p
Post: Errores críticos originados por el robots.txt