Notas semanales 5

Publicado el 2025-01-31 por Lino Uuñuela

 

El buscador de Google requiere JavaScript

Desde hace un par de semanas Google ha dejado de mostrar resultados si el navegador no tiene habilitado JavaScript.

A primera vista parece algo sin importancia porque casi todo el mundo accede a internet utilizando navegadores con JavaScript habilitado, según el propio Google el 99,9 %..

El motivo parece claro, dificultar a los scrapers y bots que monitorizan los resultados de Google, y lo confirma el propio Google en Techcrunch

Habilitar JavaScript nos permite proteger mejor nuestros servicios y usuarios de bots y formas cambiantes de abuso y spam.
Ver fuente original (Techcrunch)

Por supuesto, no ha sido la única medida que ha tomado para impedir a estos rastreadores obtener los resultados, también ha añadido otras medidas cómo la detección de comportamientos extraños o sospechosos ya que si realizas unas cuantas peticiiones seguidas rápidamente saltará el captcha....

Llevo más de una década monitorizando miles de KWs diarias, tengo literalmente Terabytes de pantallazos de búsquedas de Google, y tendré que revisar mi crawler para adaptarlo ya que accedía sin habilitar JavaScript pero eso ya no funciona :p.

 

Aquí os dejo un vídeo que hice hace años, un timelapse de dos años de pantallazos

 

El tener que acceder con javascript habilitado no supone un desafío tecnológico, hoy en día es fácil montar un script que se comporte como un navegador que ejecute ciertos comandos de JavaScript, el problema radica en el aumento del costo de procesmiento, el coste puede ser un x10 en cada búsqueda monitorizada, y eso llevado a escala es muchísimo dinero, ¿veremos aumento de precios en herramientas de monitorización de KWs?... el tiempo lo dirá

Consigue que los visitantes sigan interactuando con la recirculación - Google News Initiative

El artículo / lección de Google News Initiative ofrece algunos datos curiosos y diferentes recomendaciones para medios de comunicación y periodistas.

Actualmente, hay más usuarios que acceden a las noticias digitales a través de las redes sociales (28 %) que directamente a través de sitios y aplicaciones de noticias (23 %).
Ver fuente original

En una lección titulada "Mantén el interés de los visitantes" para mejorar la "recirculación" de usuarios nos sugiere añadir una sección de artículos recomendados en un sitio web, con el objetivo de mantener a los visitantes más comprometidos. Las recomendaciones se centran en la facilidad de lectura y la presentación clara. Me llamó la atención la concreción en algunos aspectos sobre los "artículos relacionados" que recomienda añadir a cada artículo; "hasta cinco artículos"

Introducción a ModernBERT – Answer.AI

Answer.AI publicó un Bert mejorado o moderno, ModernBERT.. (disponible en Huggingface)

Una de las nejoras más notables es la mayor longitud de contexto, que aumenta de 512 a 8192 tokens

Dependiendo de qué tarea vayas a realizar puedes elegir entre una variedad de modelos, todos con sus pros y sus contras...

Para tareas como la búsqueda vecotorial o la recuperación aumentada (RAG) el límite de 512 tokens en la longitud de contexto es algo bastante limitante, mejoras como la que puede traer ModernBERT pueden ser, a priori, muy significativas.

Un contexto pequeño a menudo hace que para guardar la información de un documento o un artículo teníans que trozcearlo en frases / párrafos y muchas veces los fragmentos tan pequños no son capaces de captar todo el significado y la relación con los párrafos adyacentes, motivo por el que pierde calidad en este tipo de tareas.

Además, la cantidad de fragmentos totales que deberás almacenar también puede ser de órdenes mayor lo que te puede complicar la vida...

SiteOne Crawler

https://github.com/janreges/siteone-crawler/discussions/43

Crawler de código abierto, escrito en C++ (lo que lo hace muy rápido), tiene miy buena pinta para rastrear aquelas webs ENORMES dónde nuestra ranita preferida (Screaming Frog) no llega.

Ofrece múltiples interfaces: aplicación de escritorio, línea de comandos o simplemente generando reportes en formato HTML.

EP144: The 9 Algorithms That Dominate Our World

Me resultó curiosa esta imagen de algunos de los algoritmos más influyentes que dominan el mundo actual

Deliberation in Latent Space via Differentiable Cache Augmentation

Este paper de DeepMind propone un método para mejorar el rendimiento de los LLMs sin modificar sus pesos.

Un coprocesador inyecta tokens latentes en la caché mejorando los resultados en tareas de razonamiento y una menor perplejidad.

  • Utiliza el caché de clave-valor del modelo para mejorar su rendimiento.
  • Evita la modificación directa de los parámetros del LLM.
  • Permite mantener la estabilidad del modelo, al mismo tiempo que se amplía su capacidad.

ALIA: el LLM español

Charla dónde uno de los responsables (Autor Gonzalex Aguirre) del LLM español, ALIA, habla sobre los conjuntos de datos utilizados, características del súper-ordenador (el Marenostrum 5) con el que se entrena, la existencia de diferemtes versiones / tamaños del modelo (2B y 7B, y 40B)

Common Crawl - Blog - Introducing cc-downloader

Common Crawl desarrolla cc-downloader, una herramienta de línea de comandos escrita en Rust para facilitar y mejorar la descarga de datos de Common Crawl.

Ya os contaré que tal va porque tenog un proyecto en mente para el que sin duda me vendrá de perlas :)

 




Lea otros artículos de Notas Semanales

Últimos posts

Últimos comentarios


JaviLazaro
Ya me has dado la necesidad de crear un comaando en bash para hacer estas cosas. Gracias Lino por estos tips
Post: Obtener KWs de varias fuentes usando la línea de comandos

Señor Muñoz
Lino, el 11% más de clicks y el 47% más de impresiones diarias ¿es algo constante o depende de cada sitio web?
Post: Diferencias entre la exportación de datos de Search Console usando BigQuery o usando la API

Carlos
Hola En mi blog tengo artículos atemporales (es decir, no caducan nunca, de manera que sirve para quien lo lea hoy o lo lea dentro de 5
Post: Tratamiento de urls que tienen un tiempo de vida muy corto

Profe Ray
Veo que hay comentarios de hace 5 años y de hace 3 años. ¿Habrá algun post actualizado sobre este tema o sigue funcionando? Lo cierto es
Post: Cómo cargar css y js y no bloquear la carga de contenido

Pepe
Muchas gracias por el articulo!! Muy buena información.
Post: Qué es ofuscar enlaces y cómo mejora el enlazado interno

María
Sí, he buscado el archivo robots.txt y todo está correcto. La última versión vista con error fue el 08/11/2021 y la última vez que el
Post: Errores críticos originados por el robots.txt

Lino
@María un placer verte por aquí :) Lo primero, a veces, con el robots.txt no se puede "forzar" a que lo rastree, si tu site no es muy p
Post: Errores críticos originados por el robots.txt

María
Hola Lino, tengo el mismo problema. El probador de robots de google me indica: "Error al obtener el archivo robots.txt Tienes un archivo ro
Post: Errores críticos originados por el robots.txt

Mario
Estoy tratando de vincular los datos en Google Data Studio y he combinado los datos de la tabla "Impresión del sitio" con "Impresión de UR
Post: Datos incoherentes y cálculo de la posición media en Search Console

José B. Moreno Suárez
Yo hace tiempo que agrupaba con stemmers. Ahora, además, comparo con un proceso las keywords que aportan impresiones a una URL determinada
Post: Clustering de keywords SEO en Google Search Console - Parte II