OnCrawl: ¿Qué es y cómo puede Ayudarte?

Personalmente me gusta decir que OnCrawl es “un screaming SEO Frog” en la nube con cientos de filtros y análisis preconfigurados. Dicho de otra manera es una herramienta que permite ahorrar muchísimo tiempo a la hora de cruzar datos de crawling, análisis de LOGs, backlinks de Majestic SEO junto con con los de Google Search Console o Google Analytics. Próximamente incluso datos de MyPoseo.

Como dicen por ahí que una imagen vale más que mil palabras, un vídeo más que mil imágenes:

Cuando contratemos OnCrawl nos encontraremos con estas partes dentro de la herramienta:

Crawl Analysis

Simplemente rastrea el sitio. El crawler accede a la home de tu web y va siguiendo todos y cada uno de los enlaces hasta que llega hasta el último. La única limitación es 50 niveles de profundidad o las URLs que tengas contratadas en tu plan. También puede seguir URLs contenidas en un sitemap o empezar el rastreo en un listado dado en la configuración. Ojo, únicamente seguirá enlaces dentro de hrefs. En próximas versiones se espera que se pueda configurar el crawler para decidir si se siguen o no destinos de canonicals, redirecciones, hreflangs, alternates, nofollows, etc .

Indexabilidad

Ofrecerá resultados sobre páginas indexables, sitemaps, canonicals, robots.txt, hreflangs, alternate mobile… Ojo, los datos agregados ofrecen muchísima información, pero lo verdaderamente interesante es cuando se trata información segmentada. Una de las tareas más importantes que hay que hacer para sacarle rendimiento a este informe es precisamente segmentar la web en grupos de URLs. Podemos segmentar en base a URL (esta forma de hacerlo es totalmente retroactivo) o usando la capacidad de Scraping, dicho de otro modo en base a “cosas dentro del HTML”. Al igual que la funcionalidad de buscar en el código fuente de Screaming, es algo que debemos configurar ANTES del rastreo.

Dentro de este informe de indexabilidad tendremos información como datos como:

What is indexable

• Pages in structure
• Crawled pages
• Indexable pages
• Indexable compliant pages
• Non indexable pages by meta robots
• Non indexable pages by robots.txt
• Canonicalized pages
• Pages by state of indexation
• Pages by state of indexation by group

Rel Alternate

• Pages with canonical
• Number of pages linked in pagination (next prev)
• Pages with hreflang
• Canonical evaluation
• Content duplicated pages with canonical issue
• Canonical evaluation by group
• Pages linked in pagination (next prev)
• Pages with hreflang Sitemaps
• Pages in sitemaps
• Compliant pages in sitemaps
• Redirect 3xx in sitemaps
• Errors 4xx in sitemaps
• Number of pages with news in sitemaps
• Number of pages with images in sitemaps
• Number of pages with videos in sitemaps
• Pages in news sitemaps without structured data Article item
• Pages in videos sitemaps without structured data VideoObject item
• Pages in sitemaps by group
• Sitemaps orphaned pages by group
• Pages in sitemaps by state of indexation

Status Codes

• 2xx pages
• 3xx pages
• 4xx pages
• 5xx pages
• Status code by group

 

Link Flow

Una parte fundamental del análisis de la arquitectura de la información. Hay una pregunta sencilla, ¿Son nuestras páginas más importantes las que más enlaces reciben? otra un poquito más complicada ¿los reciben desde los clústers que deben recibirlos? Ambas se pueden responder de forma muy fácil con el la métrica InRank (una especie de page rank propio de la herramienta que tiene en cuenta unas cuantas cosas más para evaluar la calidad de un link) y el informe LinkFlow en base a los grupos de URLs que hayas predefinido.

Entre otras métricas encontraremos:

Internal popularity

• Average inrank by depth
• Pages by depth by group
• Inrank distribution by group
• Inrank flow
• Average inrank by depth by group

Links

• Average inlinks per page
• Average internal followed outlinks per page
• Average external followed outlinks per page
• Links breakdown
• Number of inlinks
• Pages with 1 follow inlink
• Pages with less than 10 follow inlinks
• Links flow
• Average followed inlinks per page
• Average followed outlinks per page

 

HTML TAGs

También tiene una parte dedicada a las metaetiquetas, títulos, descripciones, headers, schema, social tags, etc. Muy útil para saber si todas tus URLs tienen correctamente configurados todos estos meta datos así como si cumplen los estándares que marcan por ejemplo las redes sociales como Facebook o Twitter, etc.

Contenido

Una de las partes más interesantes de la herramienta y quizá la que menos podríamos trabajar con crawlers en local como Screaming SEO Frog. Herramientas que detecten el contenido duplicado hay muchas, pero OnCrawl va un pasito más allá, identifica clusters de información en base a % de duplicidad y valora los canonicals de cada una de las URLs para ver si el canonical “soluciona” el duplicado. De ahí que en los informes sobre duplicados tengamos obtengamos diferencias entre URLs con contenido duplicado cuyo canonical no apunta a otra URL del clister de duplicidades vs otras donde si lo hace. Estas últimas nos las marca de color naranja, a diferencia del rojo (#fail) o verde (#ok)

 

Payload

Se trata de un informe de velocidad y rendimiento de la web. A mi modo ver, se queda corto, únicamente sirve para ver qué zonas, secciones o tipología de contenidos cargan más rápido o más lento. Pero lo verdaderamente interesante será cuando puedan implementar tiempos de renderizado sobre las nuevas tendencias en diseño y desarrollo web.

 

Cosas que echamos en falta

  • Informe sobre la implementación AMP
  • Posibilidad de tener en un solo informe vía web (se puede vía API) 3 columnas acerca de tus redirecciones, origen, destino e inlink.

 

En próximos artículos hablaremos de:

Logs Monitoring

SEO Impact Report

Ranking Report

Social Media Report

Backlink Report

Crawl Comparison

Data Scraping

Tools

Published by Javier Lorente Murillo

Técnico superior en administración de sistemas informáticos especializado en SEO desde finales de los 90.

Leave a comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.