• Home  / 
  • SEO
  •  /  Optimizer de Sistrix

Optimizer de Sistrix

Hace unos días leí un articulo donde comparaban entre otras muchísimas cosas, la parte dedicada al crawling de herramientas como Deepcrawl, URLProfiler, Botify y el Optimizer de Sistrix entre otras.

Hoy nos centraremos en el módulo Optimizer de Sixtrix. Cada día que la uso me gusta más, sin embargo echo en falta algunas cosas como las que voy a exponer a continuación. Escribo este artículo con el objetivo de poder comentar las funcionalidades entre usuarios de esta parte de la herramienta. Voy a comentar solo aspectos o detalles muy concretos sobre el optimizer. Si quieres puedes ver un tutorial más completo en su propia web.

Personalmente me veo en la tesitura de tener que rastrear más de 100.000 URLs (que parece ser el límite del rastreador en cada sesión de crawling. Para ello se me habían ocurrido 2 alternativas:

1) Bloquear mediante robots.txt y para user agents personalizados todos los directorios menos uno (que contenta obviamente menos de 100k URLs). Pero hasta ahora no he conseguido que respete un robots personalizado para cierto user agent, parece que si que respeta el robots para el resto de user agents (User-Agent: *, o incluso “User-Agent: SIXTRIX”). hasta donde yo he po no sigue los nofollows y guarda cookies de sesión. ¿estás de acuerdo?

2) Filtrar en “Ajustes” > “Proyecto”, cierto PATH que quiero que rastree pero esto únicamente hace que intente leer esa URL, no hace que solo rastree las URLs que cuelguen de ese path tal y como hace con los host, ya que si indicas un host, si que no rastrea el resto de URLs del dominio. Esto es un poco contradictorio, de momento he comprobado que  funciona así.

Conclusión: Ninguna de las 2 anteriores me ha funcionado. El campo “página de inicio” de “Ajustes” > “Rastreador” únicamente le indica URLs adicionales a rastrear, pero no rastrea todos los links que se encuentra en esas URLs si no se los encuentra por el camino natural, es decir la home o la URL que le hayas dado en Path.

Así que si tu web es medianamente grande (más de 100k) para hacer un rastreo completo mediante el optimizer de sistrix tendrás que deshabilitar directorios mediante robots.txt hasta dejar rastreables menos de 100k. Tengo que probarlo todavía.

A continuación, voy a poner algunas cosas que le faltan a la herramienta:

– Poder establecer robots.txt virtuales, en Botify podemos hacerlo, a veces en proyectos grandes un seo depende de desarrollo y los cambios, incluso para subir un robots.txt no son excesivamente cortos.

– También estaría muy bien poder usar operadores booleanos en la herramienta de búsqueda de código fuente, así como poder exportar los resultados tal y como lo hacemos con el resto de informes. Trabajar solo con la interfaz web en webs medianamente grandes resulta realmente tedioso. Mejor todavía sería que el propio Google Webmaster Tools tuviese una herramienta de búsqueda de código fuente. Ah, y que no sacase URLs que resultan ser redirecciones cuando usamos la búsqueda inversa. No tiene sentido.

– La exportación de los redirects internos, solo exporta url redirigida y destino de la redirección. Deepcrawl si que exporta los 3 campos. Muy útil para terminar de pulir webs grandes tras migraciones donde han cambiado todas las URLs y hay muchos enlaces internos apuntando a redirecciones. El informe de los 404 si que lo exporta muy bien, con las URLs rotas y los orígenes. Esto último por cierto tengo pendiente mirar si se puede hacer desde el API de Google Webmaster Tools con el “urlDetails.linkedFromUrls[]“.

Post vivo, seguiré actualizando conforme vaya profundizando mis conocimientos sobre la herramienta y vayan mejorándola.

About the author

Javier Lorente Murillo

https://plus.google.com/+JavierLorente/posts

1 comment

Leave a comment:


A %d blogueros les gusta esto: