Sistrix: la navaja suiza del SEO

Sistrix: la navaja suiza del SEO

¿Qué es Sistrix?

Sistrix es…

Optimizer de Sistrix

Hace unos días leí un articulo donde comparaban entre otras muchísimas cosas, la parte dedicada al crawling de herramientas como Deepcrawl, URLProfiler, Botify y el Optimizer de Sistrix entre otras.

Hoy nos centraremos en el módulo Optimizer de Sixtrix. Cada día que la uso me gusta más, sin embargo echo en falta algunas cosas como las que voy a exponer a continuación. Escribo este artículo con el objetivo de poder comentar las funcionalidades entre usuarios de esta parte de la herramienta. Voy a comentar solo aspectos o detalles muy concretos sobre el optimizer. Si quieres puedes ver un tutorial más completo en su propia web.

Personalmente me veo en la tesitura de tener que rastrear más de 100.000 URLs (que parece ser el límite del rastreador en cada sesión de crawling. Para ello se me habían ocurrido 2 alternativas:

1) Bloquear mediante robots.txt y para user agents personalizados todos los directorios menos uno (que contenta obviamente menos de 100k URLs). Pero hasta ahora no he conseguido que respete un robots personalizado para cierto user agent, parece que si que respeta el robots para el resto de user agents (User-Agent: *, o incluso “User-Agent: SIXTRIX”). hasta donde yo he po no sigue los nofollows y guarda cookies de sesión. ¿estás de acuerdo?

2) Filtrar en “Ajustes” > “Proyecto”, cierto PATH que quiero que rastree pero esto únicamente hace que intente leer esa URL, no hace que solo rastree las URLs que cuelguen de ese path tal y como hace con los host, ya que si indicas un host, si que no rastrea el resto de URLs del dominio. Esto es un poco contradictorio, de momento he comprobado que  funciona así.

Conclusión: Ninguna de las 2 anteriores me ha funcionado. El campo “página de inicio” de “Ajustes” > “Rastreador” únicamente le indica URLs adicionales a rastrear, pero no rastrea todos los links que se encuentra en esas URLs si no se los encuentra por el camino natural, es decir la home o la URL que le hayas dado en Path.

Así que si tu web es medianamente grande (más de 100k) para hacer un rastreo completo mediante el optimizer de sistrix tendrás que deshabilitar directorios mediante robots.txt hasta dejar rastreables menos de 100k. Tengo que probarlo todavía.

A continuación, voy a poner algunas cosas que le faltan a la herramienta:

– Poder establecer robots.txt virtuales, en Botify podemos hacerlo, a veces en proyectos grandes un seo depende de desarrollo y los cambios, incluso para subir un robots.txt no son excesivamente cortos.

– También estaría muy bien poder usar operadores booleanos en la herramienta de búsqueda de código fuente, así como poder exportar los resultados tal y como lo hacemos con el resto de informes. Trabajar solo con la interfaz web en webs medianamente grandes resulta realmente tedioso. Mejor todavía sería que el propio Google Webmaster Tools tuviese una herramienta de búsqueda de código fuente. Ah, y que no sacase URLs que resultan ser redirecciones cuando usamos la búsqueda inversa. No tiene sentido.

– La exportación de los redirects internos, solo exporta url redirigida y destino de la redirección. Deepcrawl si que exporta los 3 campos. Muy útil para terminar de pulir webs grandes tras migraciones donde han cambiado todas las URLs y hay muchos enlaces internos apuntando a redirecciones. El informe de los 404 si que lo exporta muy bien, con las URLs rotas y los orígenes. Esto último por cierto tengo pendiente mirar si se puede hacer desde el API de Google Webmaster Tools con el “urlDetails.linkedFromUrls[]“.

Post vivo, seguiré actualizando conforme vaya profundizando mis conocimientos sobre la herramienta y vayan mejorándola.

Módulo de Links de Sistrix

Desde que tiran del índice de Majestic encuentra muchísimos, pero la detección de enlaces buenos vs malos deja mucho que desear. La parte que más me gusta es que si así lo quieres te sirve para hacer una foto de los enlaces únicamente que tú le subas.

1 comentario en “Sistrix: la navaja suiza del SEO

  1. Hola Javier,
    ¡Muchas gracias por el post! Siento haber tardado en contestar pero entre viajes y seminarios me ha sido imposible contestarte antes (y más que estaba ocupado con el Mobile-Update).
    Sobre los temas que comenta me gustaría comentar lo siguiente:

    – El optimizer de SISTRIX está pensado para que puedas rastrear tu dominio sin problemas. Si deseas rastrear 500.000 URLs de tu sitio Web lo puedes hacer tal y como dices tu, creando 5 proyectos. Pero en realidad esto no hace falta hacerlo, ya que la mayoría de sitios que tienen este número tan grande de documentos HTML usan plantillas, así pues, si cometes un error en alguna plantilla, seguramente se habrá cometido en otras. Otro motivo es que no todos los documentos de un sitio Web tienen el mismo PageRank, por ese motivo bastaría con corregir el problema en las categorías superiores, p.j: los primeros 10.000 de una categoría, pues los otros 90.000 tienen PR muy bajo.

    -Respecto a los User-Agents presonalizados: El objetivo de personalizarlos es para excluir el rastreador de SISTRIX, por ejemplo, para que nadie pueda rastrear tu dominio con Optimizer. Así que tu los excluyes y creas tus propios que sólo tu conoces y les dices que hacer. Así que primero excluye el user-agent de Optimizer y después crea los tuyos.

    -Respecto a los operadores booleanos, ¡SISTRIX los tiene! Entra en analizar, en el modo experto y puedes usar los filtro. Por ejemplo: “URL” combinado con otro filtro, “Tiempo de carga” y otro filtro “HTTP-Status”, etc.

    Espero haberte ayudado a que te guste aun más SISTRIX.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.