• Home  / 
  • SEO
  •  /  Optimización del rastreo y la indexación

Optimización del rastreo y la indexación

En webs relativamente grandes resulta muy importante optimizar y aprovechar al máximo el tiempo de cawling que nos dedican los bots de los buscadores. Uno de los errores más comunes que cometemos es no darle a los pequeños detalles toda la importancia que se merecen. Muchas veces pensamos, “si ya está redirigido” o “si tiene canonical” o “si ya está deshabilitado el parámetro en Google Webmaster Tools” o “qué más da, nadie va a acceder a esa url (cuando algo que debería devolver un 404 devuelve un 200)” y muchos otros ejemplos.

A continuación, voy a exponer unos máximos a los que deberíamos siempre tender para tener una web 100% optimizada de cara al rastreo de los buscadores. Espero tus comentarios para ir ampliando la lista 🙂

1º) Todas las URLs que atacásemos en un servidor web deberían devolver 200, 301 o 404 / 410, nada más. Además no debería haber más de dos o más 200 con un alto % de contenido parecido y a poder ser ninguno con poco contenido.

2º) Todos los links presentes en una web, deberían apuntar a un 200. Todos, si apuntan a una redirección, reemplaza el href por el destino.

3º) Los trackings codes, parámetros etc que no cambien el contenido, mejor con una # en lugar del “?”,  siempre y cuando técnicamente la almohadilla cumpla la misma función que la interrogación, que no siempre será así. Lo mejor será hacer pruebas y ver si todo funciona como se espera, cada entorno puede ser diferente, dependerá de tu herramienta de analítica web, del javascript o plugins que uses, etc. Prueba 🙂

Este último punto es el que más discrepancias puede acarrear con algunos desarrolladores. Sin embargo, la razón de poner una almohadilla, es muy clara, los bots tienen que rastrear menos urls para encontrar el mismo contenido.  Por mucho que haya canonical autoreferencial por debajo, poniendo la almohadilla antes de la interrogación le estás diciendo a los bots que se trata de la misma URL, no hace falta que rastree las dos (de hecho, como veremos más abajo, en los logs nunca veremos una almohadilla, salvo en webs con AJAX) En definitiva, si enlazas por ejemplo desde redes sociales una URL con el típico parámetro url?utm_source, les haces trabajar doble a los crawlers, rastreando “url” y “url?tracking” ya que se trata de 2 urls diferentes.

Los 3 puntos anteriores son categóricos, independientemente del contenido, volumen de URLs y arquitectura de la información de tu web, deben cumplirse sí o sí. A continuación voy a exponer algunos que también convendría cumplir siempre pero que el “cómo” ya depende más de las características concretas de tu sitio web. Se trata de la arquitectura de la información, en concreto a mí me gusta medir 3 cosas, los niveles de profundidad (clicks desde la home) y el número de URLs posicionadas vs indexadas y qué es lo que hacen los bots en nuestro sitio. Para sacar estas métricas personalmente me gusta mucho la herramienta Botify y también deepcrawl,  además de por supuesto el módulo Optimizer, de Sisxtrix.

Sobre los puntos que comentábamos que conviene cumplir:

1º) Tener todos los contenidos de tu web enlazados formando una campana de gauss de entre 3 a 5 o 6 niveles de profundidad desde la home. Para que este gráfico se aproxime lo máximo posible a la realidad, conviene tener optimizados los 3 puntos iniciales.

2º) Tener una arquitectura web que permita tener un cierto nivel de rastreo adecuado para cada tipología de contenido, no desaprovechando cuota de rastreo en URLs “poco importantes” y centrándonos en los contenidos o urls verdaderamente rentables. Si tenéis acceso a los logs podéis vigilar a Googlebot con Log Analyzer de Botify, Kibana o Splunk, pero si no tenéis también podéis hacerlo con Google Analytics.

Finalmente, como consecuencia de tener bien los dos puntos anteriores, conseguiremos aumentar el numero de urls posicionadas (con 1 visita desde google en el último mes) frente a las meramente indexadas. Es más, el número de URLs indexadas por sí solo dice más bien poco de una web, lo ideal es conjugarlo con el número de urls posicionadas.

Concusiones del experimento:

  1. Según los logs, Googlebot no sigue lo que se encuentra detrás de la #. En todo el access log, no hay rastro de una #.
  2. Los parámetros de Google Webmaster Tools son como el canonical, puede hacerles caso, o no. Mejor no darle la opción de pasar de ellos.
  3. Los trackings en Google Analytics con el código de Universal Google Analytics de mediados de Abril 2015, funcionan tanto con ?tracking, como #tracking. No funcionan con #?tracking.

Actualizción: Charla sobre optimización del crawling en #ensaladaSEO 2015

Actualización 2: Vídeo del webinar Semrush sobre esta ponencia el viernes 20 de Noviembre de 2015

 

Optimizar el rastreo y la indexación con wordpress

El sábado tuve oportunidad de contar mi experiencia reciente con varios plugins de WP que ayudan a corregir errores de rastreo y optimizar migraciones web en entornos wordpress.

Adjunto varias de las cosas que conté que no estaban en la presentación por si te perdiste el evento.

En el plugin redirection (una forma fácil y visual de acceder al error_log o access_log -solo las redirecciones ejecutadas desde este plugin-) no puedes ordenar los 404 por número de hits como puedes hacer con las redirecciones, pero sí que puedes descargar el CSV y tratarlo con Excel. Con Open Office o Libre Office incluso puedes usar regex en los filtros para ir más al grano, tipo (.png)|(.jpg)|(.gif)|(.jpeg)|, etc

Es preferible empezar a arreglar los 404 mediante el Yoast Premium ya que se conecta al API de Google Search Console.

Si vemos un error recurrente que nos queremos “quitar de encima” pero no podemos solucionar el origen, podemos redirigirlo o si es referrer google incluirlo en el robots.txt

Tras una migración, no os olvidéis de reemplazar todos los links, incluso habría que comprobar de forma recurrente todos nuestros links salientes, mediante el plugin de Pau Iglesias, WP Link Status

About the author

Javier Lorente Murillo

https://plus.google.com/+JavierLorente/posts

8 comments

Leave a comment:


A %d blogueros les gusta esto: