Prueba con ficheros txt

Publicado el 10 de octubre del 2012, by Lino Uruñuela

Desde hace bastante tiempo tengo una duda sobre cómo valora Google los distintos tipos de documentos, HTML, PDF, Flash, txt.

Con los documentos PDF ya he realizado alguna prueba, no sacando nada concluyente en cuanto a que prefiere, sí sacamos en claro que los links en esos documentos cuentan. Pensando lógicamente, veo que en los resultados Google a veces muestra resultados de documentos PDF, cosa que no suele ocurrir con txt, por lo que creo que no los tiene muy bien valorados.




¿Para que probar si Google valora más un txt o un HTML?.

A priori supongo que preferirá un documento HTML, ya que al ser un formato de hipertexto es muy probable que tenga más cosas que aportar al usuario. Muchos de estos txt provienen de un archivo PDF, depende del tema que busques encontrarás este tipo de txt que proviene de pdf (como es el caso de universidades que no sé cómo lo hacen pero indexan el txt y no el PDF) y otros muchos txt que son listas de correo, datos del boe y otro sin fín de documentos olvidados por la mano de dios.


Vamos a buscar un documento de texto, ya que estamos, sigamos con la marihuana, por ejemplo de esta búsqueda (he añadido el -filetype:pdf sin darme cuenta de la inutilidad de ese parámetro ya que en el anterior le digo que sólo quiero TXT, pero por no cambiar la imagen de abajo, lo dejo así) como veís voy a coger el siguiente resultado para hacer esta prueba, os lo muestro con una imagen para no enlazarlo desde aquí y así no influír en el experimento.


documento a probar




Acciones realizadas
He copiado el documento y le he dado sólo unos saltos de línea.
El documento lo he publicado y lo podemos ver aquí, es el primer resultado, no lo quiero linkar desde aqiuí

Mi idea es que para la búsqueda del título se posicione el copiado antes que el original, en este caso la url de la web que linka al pdf, que es la que sale la primera, aunque realmente esa página no contiene la tesis :).

Si fuese así, para los que practican black hat SEO puede ser un filón, ya que documentos txt indexados hay de todos los temas, así que podría considerarse "contenido casi gratis", pero como siempre digo se corre un riesgo, así que yo no lo haría en una web que quieras que tenga futuro.




 




Lea otros artículos de Links y experimentos

Últimos posts

Últimos comentarios


Dana

Post: Experimento para comprobar la teoría del primer enlace

JaviLazaro
Ya me has dado la necesidad de crear un comaando en bash para hacer estas cosas. Gracias Lino por estos tips
Post: Obtener KWs de varias fuentes usando la línea de comandos

Señor Muñoz
Lino, el 11% más de clicks y el 47% más de impresiones diarias ¿es algo constante o depende de cada sitio web?
Post: Diferencias entre la exportación de datos de Search Console usando BigQuery o usando la API

Carlos
Hola En mi blog tengo artículos atemporales (es decir, no caducan nunca, de manera que sirve para quien lo lea hoy o lo lea dentro de 5
Post: Tratamiento de urls que tienen un tiempo de vida muy corto

Profe Ray
Veo que hay comentarios de hace 5 años y de hace 3 años. ¿Habrá algun post actualizado sobre este tema o sigue funcionando? Lo cierto es
Post: Cómo cargar css y js y no bloquear la carga de contenido

Pepe
Muchas gracias por el articulo!! Muy buena información.
Post: Qué es ofuscar enlaces y cómo mejora el enlazado interno

María
Sí, he buscado el archivo robots.txt y todo está correcto. La última versión vista con error fue el 08/11/2021 y la última vez que el
Post: Errores críticos originados por el robots.txt

Lino
@María un placer verte por aquí :) Lo primero, a veces, con el robots.txt no se puede "forzar" a que lo rastree, si tu site no es muy p
Post: Errores críticos originados por el robots.txt

María
Hola Lino, tengo el mismo problema. El probador de robots de google me indica: "Error al obtener el archivo robots.txt Tienes un archivo ro
Post: Errores críticos originados por el robots.txt

Mario
Estoy tratando de vincular los datos en Google Data Studio y he combinado los datos de la tabla "Impresión del sitio" con "Impresión de UR
Post: Datos incoherentes y cálculo de la posición media en Search Console