Otro META nuevo unavailable_after

Publicado el Viernes 27 de Julio de 2007 a las 4 de la mañana despés de salir de juerga

Pues sí, unas cuantas neuronas mas ocupadas en mi cerebro por tener que memorizar otro META. Éste para decirle a Google cuando quremos que expire nuestro contenido y lo borre de sus resultados, !!está loco¡¡ con lo que cuesta crearlos. Yo no lo haría. Supongo que habrá casos muy puntuales en que les venga bien.

Ya soltaron en una conferencia hace poco en Inglaterra que iban a crear el unavailable_after, y hoy lo han publicado.

¿y por qué tienen interés en quitar páginas de sus servidores? igual es que andan escasos de espacio con tantas webs nuevas cada día...

También han anunciado que disponen de un método para que podamos decir a Google que archivos como Pdf, Word, XLS, etc.. no sean indexados o no sean mostrados en los resultados del buscador. En HTML ya podíamos usar un META para esto.

<meta name="robots" content="noindex,nofollow">

Pero en cualquier otro tipo de documento que no fuese HTML no podías decŕselo y Google que lo quiere todo, lo indexaba y mostraba si no le restringías el acceso por medio del robots.txt o por medio de contraseña en el directorio donde estuviera.

Ahora hay una nueva directiva en la cabecera Header que debemos enviársela si no queremos que algún documento sea indexado, por ejemplo así:

X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 23 Jul 2007 15:00:00 PST

Esto supone que tenemos que tener acceso a la configuración de nuestro servidor (archivo .htaccess) para poder controlar las solicitudes a determinadas extensiones de archivos.

Un ejemplo para enviar estas cabeceras para todos los documentos .doc .pdf sería escribir esto en el .htaccess de tu servidor: (no lo he probado porque parece que el .htaccess de mi hosting debo hacerlo desde el panel, otro día lo haré, pero debería fucionar)

<FilesMatch "\.(doc|pdf)$">
Header set X-Robots-Tag "noindex"
</FilesMatch>

Para hacerlo solamente para un fichero en concreto así:

<FilesMatch "nombre_archivo.doc$">
Header set X-Robots-Tag "noindex"
</FilesMatch>

Pero con este método no impedimos el que alguien teclee la ruta en la barra de direcciones y se descargue cualquier archivo. Para hacer esto en Apache estoy investigando.

En .Net hice algo parecido hace poco para que no se pudiesen descargar archivos por medio de la URL si no estaban autentificados por medio de un formulario y además tenías los permisos necesarios sobre ese archivo que yo comprobaba en mi base de datos, de esta manera aunque supieran o probaran suerte por medio de la URL no podían descargarlo. Por supuesto si no estaban logueados no podían descargarlo tampoco. Más o menos era así;

Primero tenías que configurar el servidor diciéndole que determinados archivos los tratase como archivos aspx. Entonces el servidor cada vez que haya una peticion http mirará por si ese tipo de archivo debe ser tratado como un aspx. Si es así, iría al Web.config donde pondremos

<httpHandlers>

<addverb="GET,POST"path="*.doc"
type="objeto.HttpHandler.downloadHandler,
objeto.MiHttpHandler/>

</httpHandlers>

y verá que DLL debe usar para tratar ese tripo de ficheros. Y si has llegado hasta aquí, no necesitarás enviar nada a Google porque si tu no quieres no le das acceso.

Aquí teneis una perfecta explicación para manejar los HttpHandlers con .Net

Pero en Apache no sé cómo hacerlo, no me sale

. No lo necesito porque documentos privados la verdad que no tengo, esto ya es cabezonería. Pero puede ser muy importante para muchas páginas de hospitales, ayuntamietos, etc, que guardan datos confidenciales y deberían hacerlo todas, sin embargo la mayoría no lo hace y puedes descargarte, si sabes o adivinas la ruta, todos sus documentos.

Lo ideal y lógico es no depender de Google para tener seguros tus datos confidenciales, y en este caso Google no lo pone tan fácil, porque hay que saber de programación y tener control sobre tu servidor.

Espero poder probarlo mañana y publico cómo es. También voy a hacer una prueba haciendo lo que dicen y poniendo un link para ver si lo lee.

Si alguien sabe como hacerlo en Apache que me lo diga, si no seguiré investigando. Creo que habría que modificar el .htaccess y poner algo así para redirigir las peticiones http cuando es a un archivo doc, mp3 o pdf

RewriteEngine on
RewriteCond %{QUERYSTRING} !^$
RewriteCond %{QUERYSTRING} !^http://([-a-z0-9]+\.)?mecagoenlos\.com[NC]
RewriteRule .*\.(doc|mp3|pdf)$ https://www.mecagoenlos.com/ [R,NC,L]

Pero a mi no me sale....

Comentar