Publicado por Lino Uruñuela el miércoles 26 de febrero de 2025 (2025-02-26)
El otro día mostré cómo podíamos obtener 72 millones de robots.txt, y le cogí vicio, así que me puse a procesar otras fechas pasadas, concretamente
Con el objetivo de comprobar cómo está reaccionando la industria ante la llegada de la IA y el debate abierto sobre el uso de contenido por parte de sus bots para alimentar el cerebro de los grandes modelos de leguaje me propuese analizar si con el paso del tiempo hay un aumento considerable en las restricciones que se le ponen a estos rastreados a la hora de acceder al contenido, con este objetivo en mente he analizado diferentes rastreos de CommonCrawl para ver esta evolución
Debemos saber que los robots.txt obtenidos en los rastreos de CommonCrawl varían de un mes a otro, no todos los dominios que se procesaron en enero han sido procesados en febrero, además, hay robots.txt que se rastrean varias o muchas veces al mes, por eso yo he obtenido los datos de robots.txt únicos, es decir, para cada hostname (dominio + subdominio) puede haber más de un robots.txt, por ejemplo la versión http y https del mismo hostname. Para un mismo dominio puede haber más de un hostname, de hecho hay dominios que tienen miles de subdominios.
Dominio | Subdominios |
---|---|
weebly.com | 105.117 |
medium.com | 61.647 |
list-manage.com | 45.937 |
substack.com | 39.863 |
fc2.com | 30.118 |
bigcartel.com | 28.968 |
teachable.com | 23.107 |
amazonaws.com | 18.641 |
mystrikingly.com | 16.583 |
deviantart.com | 15.430 |
peatix.com | 14.954 |
También debemos saber que los datos mostrados aquí son datos de robots.txt sin errores, porque no os imagináis lo que la gente es capaz de añadir a un robots.txt... eso lo dejaré para otro día, donde mostraré algunas "perlas"...
En total he obtenido más de 416.349.385 robots.txt diferentes, podemos ver en esta gráfica el número de dominios, subdominios y robots.txt procesados cada mes
Año | totales | Dominios | Hostnames | robots.txt | UserAgents |
---|---|---|---|---|---|
2025 (Febrero) | 185.089.326 | 46.415.734 | 62.188.920 | 71.325.947 | 8.186 |
2025 (Enero) | 190.017.148 | 46.682.993 | 62.785.043 | 72.162.483 | 8.212 |
2024 (Octubre) | 179.744.091 | 46.385.042 | 61.565.199 | 70.074.926 | 7.777 |
2024 (Marzo) | 189.637.559 | 44.472.354 | 60.811.834 | 70.558.599 | 7.747 |
2023 | 180.799.446 | 41.072.671 | 55.894.741 | 64.530.619 | 7.486 |
2022 | 179.883.709 | 42.886.703 | 58.543.519 | 67.696.811 | 7.415 |
Cualquiera que haya analizado ocasionalmente logs del servidor estará acostumbrado a estos User Agents, ya que como vemos en esta tabla son los más asiduos.
La columna 'Robots.txt en los que aparece' son el número de URLs únicas de robots.txt en los que se ha encontrado cada uno de los User Agent, así por ejemplo 'Googlebot' aparece en más de treinta y tres millones de robots.txt, mientras que semrushbot lo hace en trescientos cuarenta mil.
2025 febrero | ||
BOTS | Dominios en los que aparece | % sobre el total |
---|---|---|
* | 33.133.989 | 68,16% |
googlebot | 3.742.816 | 7,70% |
mediapartners-google | 620.388 | 1,28% |
bingbot | 356.642 | 0,73% |
semrushbot | 340.516 | 0,70% |
ahrefsbot | 332.491 | 0,68% |
dotbot | 218.890 | 0,45% |
blexbot | 213.099 | 0,44% |
yandex | 211.392 | 0,43% |
msnbot | 183.559 | 0,38% |
Dentro de los bots "habituales" el primer puesto es el asterisco '*', regla que hace mención a cualquier bot, sin distinción. Googlebot es con diferenecia el bot más nombrado en los robots.txt.
En la siguiente imagen se ve la proporción de "presencia" para los principales bots habituales.
De todos los User Agents encontrados cogí los más populares, se los pasé a chatGPT, Gemini, etc para obtener una lista de aquellos que son propios de rastreadores identificados para el uso de la IA. La lista irá creciendo poco a poco, de momento creo que con estos nos vale.
Esta es la lista de los User Agent identificados como bots de IA
gptbot, claudebot, google-extended, chatgpt-user, anthropic-ai, cohere-ai, perplexitybot, oai-searchbot, perplexity-ai, anthropicbot, bard, openai-api, deepseekbot, huggingfacebot, ai21bot, ai2bot, airesearchbot, anthropic-crawler, ccbot/2.0, claude-webbo, cohere-crawler, coherebot, google-generative-ai-crawler, groqbot, img2dataset, llama-control, meta ai bot, midjourneybot, omgilibot/1.0, stabilitybot, petalbot, aihitbot, duplexweb-google, mlbot, bytespider, pixray-seeker, aipbot, aibot, youbot
Esta gráfica muestra cómo ha ido incrementando el número de robots.txt en los que aparecen rastreadores asociados a la Inteligencia Artificial. El valor es el número de ficheros robots.txt en los que aparece algún User Agent asociado a la Inteligencia Artificial.
Este es el desglose para ver cuáles crecen más y de qué manera
El bot de chatGPT, gptBot, no aparece hasta 2023, ya que anteriormente apenas nadie había escuchado algo sobre chatGPT, en 2023 irrumpe apareciendo en más de cuarenta y seismil robots.txt, desde entonces el número de sites que le impiden el acceso se ha triplicado.
Seguiré publicando datos relacionados con estos rastreos, tanto para monitorizar esta evolución como para otros nenesteres :)