Otro META nuevo unavailable_after
Publicado el Viernes 27 de Julio de 2007 a las 4 de la mañana despés de salir de juerga
Pues sí, unas cuantas neuronas mas
ocupadas en mi cerebro por tener que memorizar otro META. Éste para
decirle a Google cuando quremos que expire nuestro contenido y lo borre
de sus resultados, !!está loco¡¡ con lo que cuesta crearlos. Yo no lo haría. Supongo que habrá casos muy puntuales en que les venga bien.
Ya soltaron en una conferencia hace poco en Inglaterra que iban a crear el unavailable_after, y hoy lo han publicado.
¿y por qué tienen interés en quitar páginas de sus servidores? igual es que andan escasos de espacio con tantas webs nuevas cada día...
También
han anunciado que disponen de un método para que podamos decir a Google
que archivos como Pdf, Word, XLS, etc.. no sean indexados o no sean
mostrados en los resultados del buscador. En HTML ya podíamos usar un META para esto.
<meta name="robots" content="noindex,nofollow">
Pero en cualquier otro tipo de documento que no fuese HTML no podías
decŕselo y Google que lo quiere todo, lo indexaba y mostraba si no le restringías el acceso
por medio del robots.txt o por medio de contraseña en el directorio
donde estuviera.
Ahora hay una nueva directiva en la cabecera Header que debemos enviársela si no queremos que algún documento sea indexado, por ejemplo así:
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 23 Jul 2007 15:00:00 PST
Esto supone que tenemos que tener acceso a la configuración de nuestro servidor (archivo .htaccess) para poder controlar las solicitudes a determinadas extensiones de archivos.
Un ejemplo para enviar estas cabeceras para todos los documentos .doc .pdf sería escribir esto en el .htaccess de tu servidor: (no lo he probado porque parece que el .htaccess de mi hosting debo hacerlo desde el panel, otro día lo haré, pero debería fucionar)
<FilesMatch "\.(doc|pdf)$">
Header set X-Robots-Tag "noindex"
</FilesMatch>
Para hacerlo solamente para un fichero en concreto así:
<FilesMatch "nombre_archivo.doc$">
Header set X-Robots-Tag "noindex"
</FilesMatch>
Pero con este método no impedimos el que alguien teclee la ruta en la barra de direcciones y se descargue cualquier archivo. Para hacer esto en Apache estoy investigando.
En .Net hice algo parecido hace poco para
que no se pudiesen descargar archivos por medio de la URL si no estaban autentificados por medio de un formulario y además tenías
los permisos necesarios sobre ese archivo que yo comprobaba en mi base de datos, de esta manera aunque supieran o
probaran suerte por medio de la URL no podían descargarlo. Por supuesto si no estaban logueados no podían descargarlo tampoco. Más o menos era así;
Primero tenías que configurar el servidor
diciéndole que determinados archivos los tratase como archivos aspx.
Entonces el servidor cada vez que haya una peticion http mirará por si
ese tipo de archivo debe ser tratado como un aspx. Si es así, iría al Web.config donde pondremos
<httpHandlers>
<addverb="GET,POST"path="*.doc"
type="objeto.HttpHandler.downloadHandler,
objeto.MiHttpHandler/>
</httpHandlers>
y verá que DLL debe usar para tratar ese tripo de ficheros. Y si has llegado hasta aquí, no necesitarás enviar nada a Google porque si tu no quieres no le das acceso.
Aquí teneis una perfecta explicación para manejar los HttpHandlers con .Net
Pero en Apache no sé cómo hacerlo, no me sale . No
lo necesito porque documentos privados la verdad que no tengo, esto ya
es cabezonería. Pero puede ser muy importante para muchas páginas de
hospitales, ayuntamietos, etc, que guardan datos confidenciales y
deberían hacerlo todas, sin embargo la mayoría no lo hace y puedes
descargarte, si sabes o adivinas la ruta, todos sus documentos.
Lo ideal y lógico es no depender de Google para tener seguros tus datos
confidenciales, y en este caso Google no lo pone tan fácil, porque hay
que saber de programación y tener control sobre tu servidor.
Espero poder probarlo mañana y publico cómo es. También voy a hacer una prueba haciendo lo que dicen y poniendo un link para ver si lo lee.
Si alguien sabe como
hacerlo en Apache que me lo diga, si no seguiré investigando. Creo que habría que modificar el
.htaccess y poner algo así para redirigir las peticiones http cuando
es a un archivo doc, mp3 o pdf
RewriteEngine on
RewriteCond %{QUERYSTRING} !^$
RewriteCond %{QUERYSTRING} !^http://([-a-z0-9]+\.)?mecagoenlos\.com[NC]
RewriteRule .*\.(doc|mp3|pdf)$ https://www.mecagoenlos.com/ [R,NC,L]
Pero a mi no me sale....