Categorías
Tutoriales sobre Screaming Frog

Cómo encontrar páginas huérfanas con Screaming Frog



Cómo encontrar páginas huérfanas usando Screaming Frog

Una página huérfana es una página que no se puede encontrar rastreando los enlaces internos de un sitio web desde la página de inicio. Los usuarios pueden tener problemas para acceder a estas páginas y esto dificulta que los motores de búsqueda las descubran.

Las páginas huérfanas pueden ocurrir por una variedad de razones, como páginas antiguas que se desvinculan pero se dejan publicadas, problemas con la arquitectura del sitio, productos que se agotan pero aún existen, el CMS crea URL desconocidas adicionales como parte de sus plantillas de página, etc.

En Screaming Frog clasificamos cualquier URL donde no se observe una ruta de enlace desde el punto de inicio de un rastreo (generalmente la página de inicio) como una página huérfana. Las páginas huérfanas pueden tener enlaces internos de otras páginas huérfanas.

Para descubrir páginas huérfanas se requieren fuentes de URL adicionales, estas provienen de mapas de sitio XML y la integración de las API de Google Analytics y Search Console.

¿Por qué son importantes?

Encontrar páginas huérfanas es útil porque puede ayudar a identificar áreas de un sitio o páginas importantes que no tienen enlaces internos. Obviamente, esto puede ser un problema para los usuarios y el descubrimiento e indexación de las páginas por parte de los motores de búsqueda.

Es posible que las páginas huérfanas aún se indexen debido a que están vinculadas históricamente o desde otras fuentes (como mapas de sitio XML o enlaces externos, por ejemplo), pero sin ningún enlace interno, no pasarán al PageRank interno, lo que afectará su puntaje y orgánico. rendimiento en los motores de búsqueda.

Una pequeña cantidad de páginas huérfanas es común y generalmente no es un gran problema, sin embargo, a escala pueden contribuir a la hinchazón del índice y al desperdicio del presupuesto de rastreo, pueden resultar en páginas de la competencia, o simplemente una mala experiencia si los usuarios descubren páginas desactualizadas. orgánicamente.

Este tutorial lo guía a través de cómo usar el Gritando Rana SEO Spider para encontrar páginas huérfanas de tres fuentes, XML Sitemaps, Google Analytics y Search Console. Para rastrear todo el sitio web y abrir la configuración para integrarse con las tres fuentes, un Licencia de araña SEO es requerido.

Cuando esté listo, simplemente siga los pasos descritos en el tutorial a continuación.

1) Seleccione ‘Rastrear mapas de sitio XML vinculados’ en ‘Configuración > Araña > Rastrear’

Para rastrear direcciones URL en el mapa del sitio XML, puede optar por descubrir automáticamente las páginas a través de robots.txt (esto requiere una entrada ‘Mapa del sitio: https://www.example.com/sitemap.xml) o proporcionar el destino del XML Mapa del sitio.

Rastrear mapas de sitio XML

Esto significa que se rastrearán todas las nuevas URL huérfanas que solo se puedan descubrir a través del mapa del sitio XML.

2) Conéctese a Google Analytics en ‘Configuración > Acceso API’

Puede conectarse a la API de Google Analytics y obtener datos para una cuenta, propiedad, vista y segmento específicos directamente durante un rastreo. Para encontrar páginas huérfanas de la búsqueda orgánica, recuerda elegir el segmento ‘Tráfico orgánico’.

Encuentra páginas huérfanas usando Google Analytics

Puede establecer el intervalo de fechas a analizar, que idealmente sería de al menos un mes, así como las métricas y dimensiones que se pueden dejar como predeterminadas. El segmento se puede ajustar a ‘Todos los usuarios’ o ‘Tráfico pagado’ si también está interesado en encontrar páginas huérfanas a través de otras fuentes.

Si no se ha conectado a GA antes, lea nuestro Integración de Google Analytics guía.

3) Seleccione ‘Rastrear nuevas URL descubiertas en Google Analytics’

Esta opción de configuración se encuentra en la pestaña ‘General’ de la ventana de configuración de Google Analytics (Configuración > Acceso API > Google Analytics).

Rastrear páginas huérfanas descubiertas en Google Analytics

Si esta opción no está habilitada, las nuevas URL descubiertas a través de Google Analytics solo estarán disponibles para ver en el informe «Páginas huérfanas». No se agregarán a la cola de rastreo, se podrán ver en la interfaz de usuario y aparecerán en las pestañas y filtros respectivos.

4) Conéctese a Google Search Console en ‘Configuración> Acceso API’

Puede conectarse a la API de análisis de búsqueda y obtener datos como impresiones, clics, CTR y métricas de posición directamente durante un rastreo. Para encontrar páginas huérfanas que reciben impresiones en la búsqueda pero que no están vinculadas internamente, simplemente elija la propiedad correcta.

Páginas huérfanas de Google Search Console

Puede establecer el intervalo de fechas para que se analicen los datos, que idealmente sería de al menos un mes como Google Analytics.

Si no se ha conectado a GSC antes, lea nuestro Integración de la consola de búsqueda de Google guía.

5) Seleccione ‘Rastrear nuevas URL descubiertas en Google Search Console’

Esta opción de configuración se puede encontrar en la pestaña ‘Search Analytics’ de la ventana de configuración de Google Search Console (Configuración > Acceso API > Google Search Console).

Rastrear páginas huérfanas desde Google Search Console

De la misma manera que Google Analytics, si esta opción no está habilitada, las nuevas URL descubiertas a través de Google Search Console solo estarán disponibles para ver en el informe «Páginas huérfanas». No se agregarán a la cola de rastreo, se podrán ver en la interfaz de usuario y aparecerán en las pestañas y filtros respectivos.

6) Rastrear el sitio web

Abra SEO Spider, escriba o copie en el sitio web para rastrear en el cuadro ‘Ingresar URL a spider’ y presione ‘Iniciar’.

Rastreo de mapas de sitio XML de auditoría

Puede monitorear el progreso de las API y rastrear a través de las barras de progreso y la pestaña API.

Pestaña API

Posteriormente, se rastrearán el sitio web y las nuevas URL descubiertas a través del mapa del sitio XML, Google Analytics y Search Console. Espere hasta que finalice el rastreo y alcance el 100 %.

6) Haga clic en ‘Análisis de rastreo > Iniciar’ para completar los filtros de URL huérfanas

La mayoría de los filtros en SEO Spider están disponibles para ver en tiempo real durante un rastreo. Sin embargo, hay tres filtros respectivos de ‘URL huérfanas’ en las pestañas ‘Sitemaps’, ‘Analytics’ y ‘Search Console’ que solo se pueden ver al final de un rastreo.

Requerían publicación’Análisis de rastreo‘ para que se llenen con datos (más sobre esto en un momento). El panel «descripción general» de la derecha muestra el mensaje «(Análisis de rastreo requerido)» contra los filtros que requieren un análisis posterior al rastreo para completarse con datos. Por ejemplo, hay cinco filtros en ‘Sitemaps’ donde es obligatorio.

Filtros del mapa del sitio que requieren un análisis posterior al rastreo

SEO Spider solo sabrá qué URL faltan en un mapa del sitio XML y viceversa cuando se complete todo el rastreo. Para completar estos tres filtros de URL huérfanas, simplemente debe hacer clic en un botón.

Análisis de rastreo de páginas huérfanas

Sin embargo, si configuró ‘Análisis de rastreo’ anteriormente, es posible que desee volver a verificar, en ‘Análisis de rastreo> Configurar’, que ‘Mapas del sitio’, ‘Analíticas’ y ‘Consola de búsqueda’ estén marcados. También puede desmarcar otros elementos que también requieren un análisis posterior al rastreo para que este paso sea más rápido.

Configuración de análisis de rastreo

Cuando el análisis de rastreo se haya completado, la barra de progreso de ‘análisis’ estará al 100 % y los filtros ya no tendrán el mensaje ‘(Análisis de rastreo requerido)’.

Análisis de rastreo completado

¡También se completarán con datos de URL huérfanas!

7) Analice los filtros de ‘URL huérfanas’ en las pestañas Sitemaps, Analytics y Search Console

Ahora puede navegar por cada pestaña y el filtro respectivo de ‘URL huérfanas’ para ver las páginas huérfanas encontradas. Por ejemplo, en el sitio web de Screaming Frog, hay algunas URL huérfanas que dan error y redirigen desde el mapa del sitio XML.

páginas huérfanas de XML Sitemap

Si bien estas no son páginas que existen, son URL huérfanas que no están vinculadas internamente en el sitio web. Estas URL antiguas que deberían haberse eliminado del mapa del sitio XML en este ejemplo.

Las páginas huérfanas pueden tener enlaces internos de otras páginas huérfanas.

Según los datos de Search Console, hay algunas páginas que existen en el sitio web y responden con un código de estado 200, que no están vinculadas internamente. Una de ellas es una guía a la que realmente debería vincularse internamente, mientras que otra es una vacante de trabajo anterior que se eliminó de nuestra página de carreras, pero aún está activa y recibe impresiones y clics orgánicos.

Páginas huérfanas de Search Console

De la misma manera que en el ejemplo anterior, también se pueden ver la pestaña ‘Análisis’ y el filtro ‘URL huérfanas’. Los datos de cada una de estas pestañas y filtros se pueden exportar a través del botón ‘Exportar’ en la interfaz.

8) Exportar direcciones URL huérfanas combinadas a través de ‘Informes > Páginas huérfanas’

Finalmente, use el informe ‘Páginas huérfanas’ si desea exportar una lista combinada de todas las páginas huérfanas descubiertas.

Informe de páginas huérfanas

Hay una columna de ‘Fuente’ al lado de cada URL huérfana, que proporciona la fuente de descubrimiento. Estos se han abreviado como ‘GA’ para Google Analytics, ‘GSC’ para Google Search Console y ‘Sitemaps’, para, erm, Sitemaps XML.

Si integró Google Analytics y Search Console en un rastreo, pero no marcó la configuración «Rastrear nuevas URL detectadas en GA/GSC», este informe seguirá conteniendo datos para esas URL. Simplemente no se habrán rastreado y no aparecerán en las pestañas y filtros respectivos.

¡Consejo final! Identificar páginas huérfanas en la pestaña interna a través de la profundidad de rastreo en blanco

La pestaña ‘Interna’ incluye todas las URL encontradas en un rastreo, incluidas las URL huérfanas. Para identificar qué URL son páginas huérfanas, filtre por una «profundidad de rastreo» en blanco.

Profundidad de rastreo de páginas huérfanas en blanco

Las URL que no se han descubierto de forma natural a través de enlaces internos durante un rastreo, no tendrán una «profundidad de rastreo».

Soporte adicional

La guía anterior debería ayudar a ilustrar los sencillos pasos necesarios para encontrar páginas huérfanas utilizando SEO Spider.

Si tiene más consultas sobre el proceso descrito anteriormente, simplemente póngase en contacto a través de apoyo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *