OnCrawl: ¿Qué es y cómo puede Ayudarte?

Personalmente me gusta decir que OnCrawl es «un screaming SEO Frog» en la nube con cientos de filtros y análisis preconfigurados. Dicho de otra manera es una herramienta que permite ahorrar muchísimo tiempo a la hora de cruzar datos de crawling, análisis de LOGs, backlinks de Majestic SEO junto con con los de Google Search Console o Google Analytics.

Como dicen por ahí que una imagen vale más que mil palabras, un vídeo más que mil imágenes:

Cuando contratemos OnCrawl nos encontraremos con estas partes dentro de la herramienta:

Crawl Analysis

Simplemente rastrea el sitio. El crawler accede a la home de tu web y va siguiendo todos y cada uno de los enlaces hasta que llega hasta el último. La única limitación es 50 niveles de profundidad o las URLs que tengas contratadas en tu plan. También puede seguir URLs contenidas en un sitemap o empezar el rastreo en un listado dado en la configuración. Ojo, únicamente seguirá enlaces dentro de hrefs. En próximas versiones se espera que se pueda configurar el crawler para decidir si se siguen o no destinos de canonicals, redirecciones, hreflangs, alternates, nofollows, etc .

Indexabilidad

Ofrecerá resultados sobre páginas indexables, sitemaps, canonicals, robots.txt, hreflangs, alternate mobile… Ojo, los datos agregados ofrecen muchísima información, pero lo verdaderamente interesante es cuando se trata información segmentada. Una de las tareas más importantes que hay que hacer para sacarle rendimiento a este informe es precisamente segmentar la web en grupos de URLs. Podemos segmentar en base a URL (esta forma de hacerlo es totalmente retroactivo) o usando la capacidad de Scraping, dicho de otro modo en base a «cosas dentro del HTML». Al igual que la funcionalidad de buscar en el código fuente de Screaming, es algo que debemos configurar ANTES del rastreo.

Dentro de este informe de indexabilidad tendremos información como datos como:

What is indexable

• Pages in structure
• Crawled pages
• Indexable pages
• Indexable compliant pages
• Non indexable pages by meta robots
• Non indexable pages by robots.txt
• Canonicalized pages
• Pages by state of indexation
• Pages by state of indexation by group

Rel Alternate

• Pages with canonical
• Number of pages linked in pagination (next prev)
• Pages with hreflang
• Canonical evaluation
• Content duplicated pages with canonical issue
• Canonical evaluation by group
• Pages linked in pagination (next prev)
• Pages with hreflang Sitemaps
• Pages in sitemaps
• Compliant pages in sitemaps
• Redirect 3xx in sitemaps
• Errors 4xx in sitemaps
• Number of pages with news in sitemaps
• Number of pages with images in sitemaps
• Number of pages with videos in sitemaps
• Pages in news sitemaps without structured data Article item
• Pages in videos sitemaps without structured data VideoObject item
• Pages in sitemaps by group
• Sitemaps orphaned pages by group
• Pages in sitemaps by state of indexation

Status Codes

• 2xx pages
• 3xx pages
• 4xx pages
• 5xx pages
• Status code by group

Link Flow

Una parte fundamental del análisis de la arquitectura de la información. Hay una pregunta sencilla, ¿Son nuestras páginas más importantes las que más enlaces reciben? otra un poquito más complicada ¿los reciben desde los clústers que deben recibirlos? Ambas se pueden responder de forma muy fácil con el la métrica InRank (una especie de page rank propio de la herramienta que tiene en cuenta unas cuantas cosas más para evaluar la calidad de un link) y el informe LinkFlow en base a los grupos de URLs que hayas predefinido.

Entre otras métricas encontraremos:

Internal popularity

• Average inrank by depth
• Pages by depth by group
• Inrank distribution by group
• Inrank flow
• Average inrank by depth by group

Links

• Average inlinks per page
• Average internal followed outlinks per page
• Average external followed outlinks per page
• Links breakdown
• Number of inlinks
• Pages with 1 follow inlink
• Pages with less than 10 follow inlinks
• Links flow
• Average followed inlinks per page
• Average followed outlinks per page

HTML TAGs

También tiene una parte dedicada a las metaetiquetas, títulos, descripciones, headers, schema, social tags, etc. Muy útil para saber si todas tus URLs tienen correctamente configurados todos estos meta datos así como si cumplen los estándares que marcan por ejemplo las redes sociales como Facebook o Twitter, etc.

Contenido

Una de las partes más interesantes de la herramienta y quizá la que menos podríamos trabajar con crawlers en local como Screaming SEO Frog. Herramientas que detecten el contenido duplicado hay muchas, pero OnCrawl va un pasito más allá, identifica clusters de información en base a % de duplicidad y valora los canonicals de cada una de las URLs para ver si el canonical «soluciona» el duplicado. De ahí que en los informes sobre duplicados tengamos obtengamos diferencias entre URLs con contenido duplicado cuyo canonical no apunta a otra URL del clister de duplicidades vs otras donde si lo hace. Estas últimas nos las marca de color naranja, a diferencia del rojo (#fail) o verde (#ok)

Payload

Se trata de un informe de velocidad y rendimiento de la web. A mi modo ver, se queda corto, únicamente sirve para ver qué zonas, secciones o tipología de contenidos cargan más rápido o más lento. Pero lo verdaderamente interesante será cuando puedan implementar tiempos de renderizado sobre las nuevas tendencias en diseño y desarrollo web.

Regex útiles para OnCrawl

OnCrawl usa un tipo de Expresiones regulares basada en Lucene. En este post simplemente quería compartir varias de las regex que uso habitualmente con la herramienta por si os pudiesen ser de ayuda.

Encontrar caracteres extendidos: [^(a-zA-Z-0-9—-\/)]

En próximas ampliaciones del artículo hablaremos de:

Logs Monitoring

SEO Impact Report

Ranking Report

Social Media Report

Backlink Report

Crawl Comparison

Data Scraping

Tools

Medición del tráfico con OnCrawl ¿discrepancias entre informes?

En OnCrawl tenemos diferentes formas de medir el tráfico web y no siempre coinciden, veamos por qué.

Google Analytics / Adobe Analytics

Es la forma más fiable de medir el tráfico web llamémosle «real», lo que más se asemeja a lo que podríamos llamar usuarios o personas. Aunque todo hay que decirlo, en la mayoría de informes de Google Analytics  que se hace referencia a usuarios, se debería hacer a navegadores únicos. Esto va cambiando poco a poco pero hasta la fecha sigue resultando imposible que una web tenga más usuarios únicos que habitantes haya en un país.

Sin embargo, las diferentes herramientas de analítica web basadas en tags javascript presentan varios inconvenientes. En primer lugar únicamente medirán navegadores que hayan ejecutado ese javascript por lo tanto dejamos fuera la gran mayoría de bots a no ser que recojamos esa visita y mediante algún lenguaje de servidor y el protocolo de universal Analytics, introduzcamos de forma manuale esa información en nuestras vistas de Google Analytis.

Google Search Console

La forma más inexacta pero a su vez menos proclive a fallos. Sencillamente falla poco porque no hay lugar a error humano, aquí no se puede olvidar meter el ga.js ni meterlo más veces de la cuenta. No hay que dar de alta la web en ningún sitio, sencillamente si Google envía tráfico a un dominio, estos clicks se recogen de forma aproximada en Google Search Console. No es necesario que hayas verificado tu web para que se recojan estos datos, verificarla simplemente sirve para poder acceder a ellos, pero los datos ahí están.

Cuenta con la ventaja adicional de que contabilizan (o deberían) absolutamente todo el tráfico que llega de Google a tu web. Especialmente sirve para salir de dudas en casos de implementaciones donde el tema de las duplicidades de cookie entre la vista normal HTML y la vista AMP no esté nada claro. Hagas lo que hagas con tus tags de medición JS, Google Search Console siempre estará en «modo shadow» recogiendo datos por su cuenta. Ahora es cuestión simplemente de que cada vez sea más y más preciso.

Es más, en instalaciones donde los compañeros de medición digital hayan tenido la genial idea de no recoger la variable «url física» donde corresponde en una instalación o marcado por defecto, será la única manera de cruzar con OnCrawl los datos de URLs activas, posicionadas o con tráfico SEO. Nunca falla, si tienes contratada la opción de integrar los datos de Search Console, siempre vas a poder cruzar todos los informes de OnCrawl con datos de tráfico y URLs.

Hits de usuarios con referrer «*google*»

Finalmente tenemos los queridísimos LOGs. Aquí sí que re recoge todo, absolutamente todo, cualquier petición a nuestro httpd, ya sea humana o de bot que tenga una respuesta por parte de nuestra máquina, queda reflejada en los LOGs. Por un lado recogemos datos del propio Googlebot pero también son valiosísimos los datos de usuarios con referrer Google. Podríamos interpretar que es un hit o visita atribuible a SEO, sin embargo vemos que los datos a veces no coinciden con los de Search Console o Google Analytics, ¿por qué?

En primer lugar, Analytics recoge sesiones, cookies. Search Console recoge Clicks, si entras 15 veces en un ratio de 20 minutos de Google a una web, habrás generado 15 clicks pero una única sesión. Sin embargo, esto normalmente apenas supone discrepancia en los datos.

Las discrepancias mayores se producen en el caso de instalaciones de AMP activas. Existe un patrón de consumo de nuestros contenidos que simplemente consume la versión cacheada en los servidores de Google y que nunca hará un hit a nuestra máquina local, no veremos nada en nuestros logs, únicamente se recogerá en Search Console y en Google Analytics en caso de que tengamos marcada la vista AMP.

Deja un comentario

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.