Botify vs Deepcrawl vs Oncrawl

By Javier Lorente Murillo / a few months ago

Herramientas para webmasters de los buscadores

Inicié este articulo a principios de 2014. A veces tener nuestra web dada de alta en Google, Bing, Yandex y Baidu Webmaster Tools y tener implementado un buen marcado de Google Analytics o Yandex Métrica no es suficiente. En esos casos es necesario recurrir a otras herramientas SEO para el trackeo de posiciones, diagnósticos de popularidad u optimización on page, entre otras cosas.

A día de hoy, lo cierto es que me resulta difícil de entender como las herramientas para webmasters de los buscadores no han evolucionado todavía lo suficiente como para que los webmasters no necesitemos herramientas de pago para mejorar la eficiencia del rastreo de los bots. Esto les permitiría ahorrar millones de dólares en crawling inútil. Entiendo que para un seguimiento de posiciones o análisis de popularidad se requieran herramientas de terceros, pero creo que en el tema de seo puramente técnico los buscadores tienen todavía mucho que avanzar. Quizá incluso las herramientas de Bing van un punto por delante respecto a las de Google.

Actualización Mayo 2017: La próxima actualización de las secciones de “Índice de Google” y “Rastreo” de Search Console va a traer mucho que hablar. He sido de los pocos privilegiados en poder acceder a la beta y puedo afirmar que al igual que en el informe de análisis de búsqueda, esta herramienta es la única del mercado capaz de ofrecer ciertas métricas que ni siquiera con acceso a los logs tendríamos. Obviamente, es el propio Google.

Crawlers de pago en la nube

Cuando nos enfrentamos a optimizar el crawleo de webs grandes o enormes usar herramientas de pago es una muy buena solución para ahorrar tiempo, sobre todo tiempo, a base de invertir dinero. En el verano de 2016 participé en SEonthebeach hablando de esto mismo.

Originariamente publiqué este artículo haciendo una comparativa entre Botify y Deepcrawl;  ahora he querido actualizarlo con la evolución de cada una de estas dos herramientas, incluyendo también un tercer competidor: Oncrawl. En su día también analizamos el módulo Optimizer de la herramienta Sistrix  y también haremos alguna mención hacia el mismo, pero a decir verdad, pese a tener un buscador de código fuente que no tiene ninguno de la competencia, en términos generales está a años luz de cualquiera de los 3 anteriores.

Botify vs Oncrawl vs Deepcrawl

Búsquedas en Google de Botify, Deepcrawl y Oncrawl

Precio crawlers en la nube

Es el gran inconveniente de estas herramientas, por norma general son bastante caras. En casi todos los casos (salvo en Sistrix) pagas por URL rastreada. La solución para ahorrar siempre para por Screaming SEO Frog, Scrapy (incluso su versión en la nube) o similares.

Como varían tanto, os dejo las URLs de los precios en las webs oficiales de las herramientas:

Oncrawl en términos generales es la más barata de las 3, la relación calidad precio sin duda es la mejor. Por otro lado, Botify en mi opinión está totalmente fuera de mercado, los planes más baratos comienzan por 5000€/año. En todos los casos tenéis una prueba de unos cuantos días totalmente gratis y en muchos casos incluso sus comerciales solicitándolo os harán una demo en profundidad para uno de vuestros proyectos. Aunque normalmente son eso, comerciales no técnicos los que hacen las demos. No les preguntes demasiado.

Características comunes de los principales rastreadores

Por norma general estas aplicaciones pueden llegar a rastrear hasta 20 URLs por segundo siempre y cuando hayas demostrado que tienes permiso, tipo las verificaciones para webmasters de los buscadores. Por otro lado, el límite de URLs que puedes rastrear con Screaming en Google Cloud que yo sepa no llega al millón de URLs y con Scrapy no tengo ni idea, pero sí que puedo afirmar que con Botify he visto rastreos de más de 10.000.000 URLs. Eso sí, prepara la cartera… Deepcrawl y Oncrawl no deben andar lejos de esos límites, son herramientas específicas para eso. Además, al estar en la nube puedes delegar acceso a tus informes a terceras personas, de forma totalmente gratuita para ellas.

Otra gran ventaja frente a Scrapy es que vienen con “todo lo que hay que mirar” preconfigurado de serie. Sale AMP, ellos implementan lo necesario para controlar que lo tengas bien, ahora dice Google que el hreflang de las versiones mobile debe apuntar a mobile, sus ingenieros implementan los controles necesarios. A veces incluso descubres errores que ni siquiera se te hubiese ocurrido buscarlos con Screaming o Scrapy. Por supuesto, la versatilidad que te da un desarrollo a medida en Scrapy no te la dan los crawlers propietarios cuyas opciones están muy limitadas, eso está claro. Lo único personalizable en los crawlers comerciales pasa por tener opciones más o menos logradas para “Buscar en HTML” pudiendo pintar regex.

Una de las cosas que más me ha gustado es el poder generar un robots.txt virtual para que el spider lo respete, ideal para entornos de desarrollo donde el SEO no tiene acceso directo al robots.txt. Esto en concreto es lo que más echo en falta del spider de sistrix, ya que únicamente obedece al user agent “sistrix” del robots.txt, no funciona cuando estableces uno personalizado.

Por otro lado, uno de los puntos fuertes me ha parecido que es el análisis de la profundidad (saltos desde la home necesarios para llegar al contenido) de los diferentes contenidos del sitio. Botify los presenta de forma gráfica y muy visual, incluso sacando la profundidad media de la totalidad de URLs de una web. Resulta increíble ver como simplemente reemplazando enlaces hacia 301 por las urls finales y cambiando en ciertos parámetros el signo ? por la # mejoran estos ratios. Algo que tienen las 3 herramientas es la posibilidad de cruzar los datos de la herramienta con los datos de Google Analytics, simplemente tienes que darle acceso a la herramienta a tus cuentas de la suite de analítica web. Esto nos permite por ejemplo encontrar páginas huérfanas, dentro del sitio. Una pena que ninguna de ellas tengan la implementación para Adobe Analytics.

Informes de calidad del contenido

Con todo el respeto para Safecont. Tanto Botify como Oncrawl tienen también partes dedicadas a analizar la calidad de su contenido, básicamente por número de palabras del contenido vs plantilla y % de similaridad entre URLs, n-gramas, TF IDF, etc. Deepcrawl tiene menos lograda esta parte. Echo en falta en las 3 herramientas una “mirada fuera”, los TF IDF están muy bien pero si los comparas con los de la competencia como puedes hacer con Onpage.org o Seolyze quizá se quedan un poco cortos, solo miran tu web, no las SERPs.

Extensiones para chrome

Sin duda uno de los puntos fuertes de las 3 herramientas es las extensiones para chrome. Una vez que ya has rastreado tu sitio, la extensión te va sacando las alertas concretas de cada URL de tu sitio por donde vas navegando. Brillante.

Rastreo en preproducción

Una de las funcionalidades más destacables de Deepcrawl frente al resto de herramientas es la posibilidad de rastrear una web en preproducción. Esta funcionalidad está especialmente indicada para migraciones donde puedes ver si la migración va a ir bien en términos SEO o hay que pulir cosas antes del lanzamiento definitivo. Puedes indicarle unas DNS personalizadas al dominio e incluso darle unas credenciales al spider de Deepcrawl para que se rastree en tu área todavía privada. Botify y Oncrawl permiten rastrear áreas privadas pero no incluirle tus propios DNS.

Visualización de los datos

Aquí Botify es la que mejor lo hace. Nada que no puedas hacer con excel y un rato, pero que te lo den mascadito es de agradecer.  Las 3 tienen un “URL Explorer” más o menos trabajado. Puedes exportar en CSV absolutamente todos los informes y filtrar y cruzar una infinidad de datos. Por poner un ejemplo en una migración de sitios medianamente grandes es muy habitual que se queden enlaces apuntando hacia redirecciones, pues estas  herramientas permiten exportar para pasarle a desarrollo todas las URLs que contienen en su cuerpo enlaces que apuntan a redirecciones junto con el destino final de las mismas; 3 columnas en un solo CSV. Lo mejor de todo es que si tienes varias concatenadas, también te las clasifica junto con sus respectivos orígenes.

Carencias de las herramientas a nivel general

Buscador de código fuente

 el optimizer de sistrix lo tiene, ni Botify, ni Deepcrawl, ni Oncrawl lo tienen. Tienen buscadores de HTML, pero al igual que en el custom search de Screaming, debes introducir lo que quieres buscar ANTES de rastrear.  En el Optimizer por su lado hecho en falta implementar operadores booleanos y poder exportar los resultados del buscador. Ya podrían Google, Bing o Yandex sacar algo parecido en sus herramientas para webmasters. Hasta donde yo sé la funcionalidad de buscar código fuente dentro de un sitio web está en el roadmap de nerydata, pero todavía no lo han sacado.

Microformatos

A día de hoy, únicamente Oncrawl tiene un análisis exhaustivo de los microformatos de tu sitio web, tanto en JSON como en el HTML.

Paginaciones

Deepcrawl es la única herramienta que engloba las paginaciones o listados de una misma entidad siempre y cuando estén relacionadas con prev/next, como si fuesen una única URL. Creo que el resto debería seguir ese mismo ejemplo. En mi opinión, es como se lo toma Google.

Robots.txt

Me gustaría poder probar una configuración con un determinado robots.txt sin tener que volver a rastrear todo el sitio de nuevo y por ende gastando créditos. Ninguna herramienta permite algo así. ¿Quizá ATB?

Rastreo de elementos adicionales a la url

Tanto oncrawl como deeepcrawl, crawlean srcs de imágenes, css, js, etc. No así Botify.

javascript

Tanto Deepcrawl como Oncrawl pero no así Botify lleva un prerenderizador Javascript, que no he podido probar a fondo en ningún caso.

Análisis de bots sin logs

Por qué no hacer una integración entre el código de Lino para monitorizar Googlebot con Google Analytics y los propios crawlers para poder cruzar datos de bots sin necesidad de acceder a los logs físicamente.

 

Carencias específicas de cada herramienta a nivel específico

 Carencias y errores de botify
  • No puedes borrar un rastreo de un proyecto y la comparativa siempre es con el último rastreo. Deberían poder cambiar el rastreo que quieres comparar.
  • No puedes ver la configuración del robots.txt virtual de un rastreo determinado.
Carencias y errores de Deepcrawl
  • Tienen un error simple pero que llevan mucho tiempo sin solucionar y es que la conexión con Search Console no proporciona los links entrantes, debes descargarte el fichero y subirlo manualmente. Además la versión en Español no va, debes cambiar la primera línea por los atributos en inglés.
  • Como carencia fundamental es que no puedes cruzar los datos del crawler con los logs, puesto que no tienen esta funcionalidad.
Carencias y errores de Oncrawl
  • La parte de contenido duplicado y sus n-gramas, creo que es más difícil de entender que la parte de contenido duplicado de Botify.

 

Puntos fuertes

Puntos fuertes de Botify
  • La función de “Explorador de URLs” con todos sus filtros y potenciales cruces, es la más potente de todos los crawlers que he probado.
Puntos fuertes de Deepcrawl
  • Que trate las paginaciones como un único elemento, me llama especialmente la atención. ¿Lo hará así Google?
Puntos fuertes de Oncrawl
  • Sin ninguna duda, el precio. La relación calidad / precio que ofrecen, en mi opinión es actualmente la mejor de todas.
  • La integración con MyPoseo. Cuando la tenga, teóricamente antes de 2018. Espero como agua de Mayo una herramienta a la que le puedas dar un keyword research y te diga que tal está tu web, para cumplir objetivos en base al keyword research dado. Que te falta, donde vas sobrado, donde vas justo.. ¿Lo hará oncrawl?
  • La opción “inlink popularity” que te dice cuánta popularidad pasa de una sección a otra en base a los links internos de todos los contenidos catalogados en cada sección o segmento.

Trucos

Trucos con Botify

Para comprobar en bulk un montón de URLs, podemos agregarlas a StartURL en la configuración inicial y luego filtrar pode depth=0, de esta manera únicamente estaríamos visualizando las URLs de nuestro .txt. Muy útil para comprobar si keywords que te has querido cargar por ejemplo en medio de un sitio con Panda, efectivamente te las has cargado correctamente, noindex, 404, canonical, robots.txt, como sea. Ahorra mucho tiempo! Supongo que no tardarán en agregar “Orphan URLs” al los filtros del URL explorer.

 

Nuevos desarrollos

Me consta que en Botify están trabajando en un informe de AMP (actualmente las cataloga como URLs huérfanas si tienen tráfico de Analytics) además también seguirán las URLs que nos encontramos en canonicals y en alternate

Herramientas de Análisis de Logs

Finalmente, en el caso de Oncrawl y Botify la guinda del pastel la ponen los analizadores de logs. Asequible en el caso de Oncrawl y totalmente estratosférico en el caso de Botify. Máxime si tenemos en cuenta la cantidad de herramientas desde gratuitas hasta mucho más baratas que hay en la actualidad.

 

Experimentos pendientes

Tengo que ver si poner noindex en las paginaciones a partir de la 2 de una determinada arquitectura, por ejemplo la de los tags de un wordpress, influiría en el rastreo; para bien o para mal.

1 comment

Leave a comment: