Viernes 26 de Marzo del 2021
El meta noindex sirve para indicar a los buscadores que la URL rastreada no debe ser indexada. Se configura utilizando una etiqueta <meta> entre '<head>' y '</head>' o en las cabeceras HTTP de la URL.
<meta name="googlebot" content="noindex" />
La metaetiqueta "robots" es una directiva, por lo que Google la cumplirá siempre (igual que hace con el robots.txt). Pero esto no impide que Google acceda y rastree esta URL, aunque no la muestre en los resultados.
Analizando los logs del servidor podemos comprobar que Google sigue accediendo a estas URLs si sigue recibiendo enlaces, ya sean externos o internos, o si sigue añadida al sitemaps.
En la siguiente tabla verás todas las directivas que Google reconoce para el meta robots.
Valores |
Significado |
all | No hay restricciones de indexación ni de presentación de contenido. Nota: Esta directiva es el valor predeterminado y no tiene ningún efecto si se muestra de forma explícita. |
noindex | No se muestra ni esta página ni un enlace "en caché" en los resultados de búsqueda. |
nofollow | No se siguen los enlaces de esta página. |
none | Equivalente a noindex, nofollow. |
noarchive | No se muestra ningún enlace "en caché" en los resultados de búsqueda. |
nosnippet | No se muestra ningún fragmento en los resultados de búsqueda de esta página. |
noodp | No se utilizan metadatos del proyecto de Open Directory para los títulos o los fragmentos que se muestran en esta página. |
notranslate | No se ofrece una traducción de esta página en los resultados de búsqueda. |
noimageindex | No se indexan las imágenes de esta página. |
unavailable_after | No se muestra esta página en los resultados de búsqueda después de la fecha y la hora especificadas. La fecha y la hora deben especificarse en el formato RFC 850. |
El meta noindex se puede configurar para todos los bots o rastreadores, por ejemplo;
<meta name="robots" content="noindex" />
Este meta indica a todos los bots de buscadores y otros rastreadores que está url no debe ser mostrada en los resultados de búsqueda.
También se puede definir para un bot en concreto, poniendo en el atributo "name" el nombre de ese bot o rastreador
Por ejemplo la siguiente línea le dirá a Google (pero no a otros buscadores) que está url no debe ser mostrada en los resultados de búsqueda de Google.
<meta name="googlebot" content="noindex" />
El meta robots con valor "noindex, follow" es uno de los metas más usados por los SEOs. El valor "noindex" le indica a Google que no puede mostrarlo en los resultados de búsqueda, y el valor "follow" indica a Google que siga los enlaces que hay en el contenido de esa url.
Se suele usar en estos casos:
Por ejemplo es habitual verlo en filtros de poco valor, que no generan apenas diferenciación, o en urls con contenido generado por los usuarios y que se cree que es de baja calidad
Aunque en este segundo caso se suele usar meta canonical, hay casos en los que no se sabe la url homóloga donde apuntaría ese canonical y para evitar una posible baja valoración del contenido de esa urls por parte de Google se usa el meta robots noindex.
Hace poco tiempo, desupués de una subida a producción de un site,
se subió sin querer la home del site con un meta noindex, vamos a tratar
de analizar este caso e intentar sacar algunas conclusiones.
El tener este meta impedirá que salga en las serps de Google, lo que es lo mismo impedirá que tenga tráfico orgánico desde resultados normales, es decir, sin contar resultados de imágenes por ejemplo.
Cómo vemos en la siguiente gráfica el tráfico orgánico proveniente de Google descendió casi a cero.
El tráfico que aun llegaba podría ser por búsquedad de imágenes, ya que el meta noindex no indica que las imágenes que haya en esa url no sean indexadas.
Posiblemente las otras dos crestas, anterior y posterior al periodo indicado por las flechas, también hubiese ocurrido el subir a producción la home con el meta noindex, pero no puedo asegurarlo.
La siguiente gráfica son los accesos diarios de Googlebot a la url de la home, cómo vemos, durante ese perioro de tiempo Google siguió accediendo a esa url, y con una frecuancia similar a cuándo no lo tenía.
Por lo que podríamos decir (al menos en este caso) que el meta noindex no impide el acceso de Google a estas urls, y tampoco se aprecia que reduzca su frecuencia de acceso, por lo que no nos vale para mejorar nuestro crawl budget.
Viendo cómo actua Google, ¿dónde y cuándo debemos usar el meta noindex?. Siempre digo que los metas como el noindex o el meta canonical son parches que usamos para solucionar algún problema detectado o un posible problema, pero realmente en una web ideal no deberíamos tener que usarlos.
Dicho esto, muchas veces no nos queda más remedio que usar estos parches metas para minimizar un error de arquitectura de la información o arquitectura web, y debemos enviar señales a Google para indicarle determinadas cosas como que un contenido es igual a otro.
Hay casos en los que no creo que se deba usar este meta pero que veo a menudo utilizar a muchos SEOs.
Para este caso tendríamos el meta canonical o una redirección 301. Si la causa es la duplicidad del contenido el noindex no será la solución idónea ya que lo único que parece hacer es impedir salir en los resultados orgánicos del buscador, y no tenemos certeza que valga para evitar que Google califique como thin content estas urls.
Pongamos por ejemplo que tenemos diferentes filtros para un listado, unos filtros son potenciales y diferenciales y los quermos indexar pero otros no lo son y no queremos indexarlos.
Si los filtros que no queremos indexar tienen un patrón en la url creo que es mucho mejor impedir el acceso a los buscadores mediante el robots.txt que usar el meta noindex por las siguientes razones
El meta robots name="noindex" no impide que Google acceda, indexe y muestre las imágenes en sus resultados. El meta noindex impide que se muestre la url donde aparece el meta noindex, pero no sus imágenes.
Hemos visto algunos aspectos que yo creo importantes sobre el meta noindex, y de los cuales saco estas conclusiones
Es su cometido, para esto se creó esta directiva, y como directiva los buscadores (o la mayoría de ellos) lo cumplen.
Google y otros buscadores, accederán a urls que contengan el noindex.
Como hemos visto, en este caso, Google no varia su frecuencia de rastreo hacia esta url.
Se podría pensar que quizás con esta url (la url de la home) no varie
la frecuencia de rastreo porque esta url es la home y recibe una gran
cantidad de enalces tanto internos como externnos.
Podria ser, pero eso
querría decir que la frecuencia con que Google
visita una url no depende del meta noindex, o al menos no depende solo
del meta noindex, sino de otros factores.
Yo me atrevería a decir que depende del número de enlaces entrantes tanto internos como externos y la autoridad de estos.
Posiblemente haya más casos creais que se debería usar el noindex, y también haya más casos para los que no usariais el meta noindex, comantar cuáles son para vosotros esos otros casos e iremos actualizando a lista sobre cuándo usar y cuándo no usar el meta noindex.
Publicado el 27 de julio del 2012 Ya era hora! después de no sé cuánto tiempo vuelvo a escribir un post! Espero poder cumplir mi promesa de principios de año de escribir dos por semana, creo que ya me he cargado las pilas otra vez. Esta vez voy a hacer un test un po
Seguir leyendoPublicado el 28 de noviembre del 2008 Google está haciendo caso omiso a la etiqueta <meta name="robots" content="noindex,nofollow" /> Tengo páginas que tienen esa etiqueta pero sí las está mostrando en caché, o sea, que sí la
Seguir leyendo
Javier Lorente (@)hace Hace más de 6 años y 358 días
Kaixo Lino!
Habría que ver si baja la frecuencia de rastreo en otras urls que no fuesen la home, muy difícil de medir por cierto.
Por otro lado sobre si valora el contenido o no, diría que no, pero quien sabe.
Lino Uruñuela (@)hace Hace más de 6 años y 358 días
@javier Lorente
Aupa Javi, en algún proyecto en el que he aplicado el noindex y que podía analizar los accesos del bot (tenina cierto patrón en a url) la verdad que no vi cambios, pero podría ser que si Google tuviese pocas señales sobre una url y encima la pones noindex quizás rastrea con menos frecuencia.
Pero sinceramente, creo que el meta no lo tiene en cuenta para acceder más o menos, y que la frecuencia con la que accede a una url depende sobretodo de dos cosas;
1) La cantidad de enlaces entrantes que tenga esa url.
2) La frecuencia con la que la url actualiza su contenido.
Si tienes algún proyecto en el que se pudiese analizar porque tiene patrón de url y tienes acceso a los logs lo miramos si quieres :)
Alex R (@)hace Hace más de 6 años y 357 días
Hola Lino!
Te leo desde hace algún tiempo (genial el cambio de look) y casualmente he venido aquí con una duda sobre indexación.
Lo que comentas es muy interesante, y lo cierto es que el tema de crawl budget es digno de estudio y gracias a tus artículos creo que queda ayuda a la comunidad a conocerlo más, sobre todo como trabajar bien a nivel técnico.
Mi pregunta es la siguiente... Dentro de un mismo artículo o entrada podemos hacer que no se indexe parte del artículo?
Por ejemplo al primer párrafo Google puede acceder a los dos siguientes no y al último si. No se si me explico bien pero creo que viendo el nivel técnico que manejas seguro que sabrás como resolverlo jeje. Como el tema de enmascarar enlaces ;) que ayuda mucho.
Un saludo y muchas gracias de antemano
Javier (@)hace Hace más de 6 años y 357 días
Buenas Lino Mecagoenlos! (vaya apellido tienes...)
Tu artículo me ha dado mucho que pensar... acaban de hacerme una web en una agencia y basicamente lo han hecho todo con javascript. De esta manera, si miro la web en cache (sólo texto) la página aparece totalmente en blanco...
¿significa eso que google no está viendo el contenido en texto y no lo posicionará? si eso fuera así, cosa que obviamente no quiero...pienso... ¿podría ponerse texto con javascript en páginas con contenido parcialmente duplicado para no poner canonicals ni nada de eso y evitar penalizaciones?
Saludos y gracias de anteamno! Soy un reciente suscriptor de tu blog desde que te vi en el video de ofuscación de enlaces de Luís :)
Lino Uruñuela (@)hace Hace más de 6 años y 357 días
@Alex R , lo primero graciias por a ti por participar :)
Sobre tu prebunta ¿Dentro de un mismo artículo o entrada podemos hacer que no se indexe parte del artículo? creo que no existe ningún protocolo o señal para indicar al buscador que no indexe o que no muestre un fragmento o parte del contenido.
Solo conozco el la opción de no traducir un fragmento del contenido, usando class="notranslate" por ejemplo así Este es el texto que no se deberá traducir cuándo usemos el traductor de Google para ver este site en otro idioma, aquí tienes más documentación sobre esta clase.
Alternatiivas, como bien intuyes, existen, pero a menos que sea por alguna casusa muy concreta y crítica no sé si merecería la pena hacerla....
A botepronto decirte que no es algo fácil, la única manera que se puede conseguir es que Google no lo vea, y para ello solo se me ocurre la opción de hacerlo con JavaScript, pero recuerda que según el experimento que hicimos, Google sí verá el conenido cargado mediante javascript si se realiza esa carga en el onReady o en el onLoad por muy ouscado que esté.
Es decir, debemos cargar ese contenido con alguna interacción del usuario como por ejemplo hacer scroll, mover el ratón, o hacer click, es decir, al detectar un evento mediante javascript, porque si no Google sí lo verá y lo valorarará cómo parte del contenido del site.
Si en tu web se carga el texto mediante javascript, pero esto ocurre "automáticamente" por llamarlo así, Google lo verá. Puedes hacer una prueba buscando entrecomillas ese texto que cargas con javascript para ver si sale en las serps de Google, y avisa con lo que ocurra ;)
Lino Uruñuela (@)hace Hace más de 6 años y 357 días
Hola @Javier repondiendo a tu pregunta "¿significa eso que google no está viendo el contenido en texto y no lo posicionará?" con el mismo argumento que a Alex te digo que si en tu web se carga el texto mediante javascript, pero esto ocurre "automáticamente" por llamarlo así, Google sí lo verá, y lo valorará cómo contenido de esa url.
Puedes hacer una prueba buscando entrecomillas ese texto que cargas con javascript para ver si sale en las serps de Google, y avisa con lo que ocurra ;)
"si eso fuera así, cosa que obviamente no quiero...pienso... ¿podría ponerse texto con javascript en páginas con contenido parcialmente duplicado para no poner canonicals ni nada de eso y evitar penalizaciones? "
No creo que sea válido ya que no veo la manera en la que haciendo eso, suponiendo que Google no lo viese, se podría corregir el que una url tenga el mismo contenido que otra. ¿No? o quizás no te haya entiendido bien :s
Javier (@)hace Hace más de 6 años y 354 días
Bueenas Lino! Gracias por tu respuesta! Efectivamente, cogiendo texto de una página hecha con javascript y poniéndolo en Google entre comillas me sale la url que lo contiene. No así en Bing, he leído que Bing no es capaz aún de leer texto en javascripts, no sé si ese post estaba desactualizado y esto se debe a otro motivo... porque poniendo en bing "site:mipagina.com" no me sale más que la home...
Con mi segunda pregunta me refería a que en un ecommerce por ejemplo. El apartado "telas disponibles" es igual para todos los productos (un texto de 300 palabras repetido en todas las fichas) pero el resto de la ficha de producto es un texto único. según lo que mencionas en tu respuesta a Alex entiendo que se podría poner ese contenido duplicado con javascript y cargarlo cuando el usuario hace scroll para evitar que Google lo vea.
Muchas gracias por la ayuda!
Javier Lorente (@)hace Hace más de 6 años y 329 días
Siempre sospeché de https://www.seroundtable.com/amp/google-long-term-noindex-follow-24990.html tiene toda la lógica. En alguno de tus experimentos Lino mantuviste el noindex períodos de más de 6 meses?