Categorías
Tutoriales sobre Screaming Frog

Códigos de respuesta: ¿por qué no se rastrea mi sitio web?



Códigos de estado HTTP (status code) que se rastrean con Screaming Frog SEO

Si Screaming Frog solo rastrea una página, o no rastrea como se esperaba, el ‘Estado’ y el ‘Código de estado’ son las primeras cosas que debe verificar para ayudar a identificar cuál es el problema.

Un estado es una parte de Protocolo de Transferencia de Hipertexto (HTTP), que se encuentra en el encabezado de respuesta del servidor, se compone de un código de estado numérico y un estado de texto equivalente.

Cuando se ingresa una URL en SEO Spider y se inicia un rastreo, el estado numérico de la URL del encabezado de respuesta se muestra en la columna ‘código de estado’, mientras que el texto equivalente se muestra en la columna ‘estado’ dentro del valor predeterminado. Vista de pestaña ‘Interna’, por ejemplo

Códigos de estado

Los códigos de estado más comunes que es probable que encuentre cuando no se puede rastrear un sitio y los pasos para solucionarlos se encuentran a continuación:

Código de estado: estado

0 – Bloqueado por robots.txt
0 – Error de búsqueda de DNS
0 – Tiempo de espera de conexión
0 – Conexión rechazada
0 – Error de conexión / 0 – Sin respuesta
200 – Bien
301 – Trasladado permanentemente / 302 – Trasladado temporalmente
400 – Solicitud incorrecta / 403 – Prohibido / 406 – Estado no aceptable
404 – Página no encontrada / 410 – Eliminado
429 – Demasiadas solicitudes
500 – Error interno del servidor / 502 – Mala puerta de enlace / 503 – Servicio no disponible


0 – Bloqueado por robots.txt

Cualquier código de estado ‘0’ en Spider indica la falta de una respuesta HTTP del servidor. El estado proporciona una pista de por qué exactamente no se devolvió ningún estado.

En este caso, esto muestra que el archivo robots.txt del sitio está impidiendo que el agente de usuario de SEO Spider acceda a la URL solicitada. Por lo tanto, la respuesta HTTP real no se ve debido a la directiva de rechazo.

robots.txt

Cosas para comprobar: ¿Qué no está permitido en los sitios robots.txt? (Agregue /robots.txt en el subdominio de la URL rastreada).

Cosas para probar: Establezca la araña SEO en ignorar robots.txt (Configuración > Robots.txt > Ajustes > Ignorar Robots.txt) o use el robots.txt personalizados configuración para permitir el rastreo.

Razón: La araña SEO obedece las directivas disallow robots.txt por defecto.


0 – Error de búsqueda de DNS

El sitio web no se encuentra en absoluto, a menudo porque el sitio no existe o no se puede acceder a su conexión a Internet.

Búsqueda de DNS fallida

Cosas para comprobar: El dominio se está ingresando correctamente.

Cosas para comprobar: El sitio se puede ver en su navegador.

Razón: Si no puede ver el sitio en un navegador, es posible que tenga problemas de conectividad con la red o la PC. Si puede ver el sitio, entonces algo (probablemente un antivirus o un firewall) está bloqueando la conexión de Spider a Internet y se debe configurar una excepción para ello.


0 – Tiempo de espera de conexión

Se produce un tiempo de espera de conexión cuando SEO Spider tiene dificultades para recibir una respuesta HTTP del servidor en un período de tiempo determinado (20 segundos de forma predeterminada).

El tiempo de conexión expiro

Cosas para comprobar: ¿Puedes ver el sitio en un navegador? ¿Se carga lentamente?

Cosas para probar: Si el sitio es lento, intente aumentar el tiempo de espera de respuesta y bajando la velocidad del rastreo.

Razón: Esto le da a SEO Spider más tiempo para recibir información y ejerce menos presión sobre el servidor.

Cosas para comprobar: ¿Se pueden rastrear otros sitios? (bbc.co.uk y screamingfrog.co.uk son buenas pruebas de control).

Cosas para probar: Configuración de excepciones para SEO Spider en software de firewall/antivirus (consulte a su equipo de TI).

Razón: Si este problema ocurre para todos los sitios, es probable que sea un problema local para usted o su PC/red.

Cosas para comprobar: ¿Está habilitado el proxy (Configuración > Sistema > Proxy).

Cosas para probar: Si está habilitado, deshabilitar el proxy.

Razón: Si no se configura correctamente, esto podría significar que SEO Spider no está enviando o recibiendo solicitudes correctamente.


0 – Conexión rechazada

Se devuelve una ‘Conexión rechazada’ cuando el intento de conexión de SEO Spider ha sido rechazado en algún punto entre la máquina local y el sitio web.

Conexión denegada

Cosas para comprobar: ¿Puedes rastrear otros sitios? (bbc.co.uk y screamingfrog.co.uk son buenas pruebas de control).

Cosas para comprobar: Configuración de excepciones para SEO Spider en software de firewall/antivirus (consulte a su equipo de TI).

Razón: Si este problema ocurre para todos los sitios, es probable que sea un problema local para usted o su PC/red.

Cosas para comprobar: ¿Puede ver la página en el navegador o devuelve un error similar?

Cosas para probar: Si la página se puede ver establecer Chrome como el agente de usuario (Configuración > Usuario-Agente). También vale la pena probar un agente de usuario de Googlebot, aunque no es inusual que los sitios bloqueen un Googlebot falsificado.

Razón: El servidor rechaza la solicitud de la página de SEO Spider (posiblemente como protección/seguridad contra agentes de usuario desconocidos).


0 – Error de conexión / 0 – Sin respuesta

SEO Spider tiene problemas para establecer conexiones o recibir respuestas.

Ninguna respuesta

Cosas para comprobar: Configuración de proxy (Configuración > Sistema > Proxy).

Cosas para probar: Si está habilitado, deshabilitar el proxy.

Razón: Si no se configura correctamente, esto podría significar que SEO Spider no está enviando/recibiendo solicitudes correctamente.

Cosas para comprobar: ¿Puede ver la página en el navegador o devuelve un error similar?

Razón: Si hay problemas con la red o el sitio, es probable que el navegador tenga un problema similar.


200 – OK

No hubo ningún problema al recibir una respuesta del servidor, por lo que el problema debe estar relacionado con el contenido que se devolvió.

200 bien

Cosas para comprobar: ¿La página solicitada tiene la directiva ‘nofollow’ de meta robots en la página/en el encabezado HTTP o todos los enlaces en la página tienen atributos rel=’nofollow’?

Cosas para probar: Establezca la configuración en seguir Interno/Externo Nofollow (Configuración > Araña).

Razón: Por defecto, SEO Spider obedece las directivas ‘nofollow’.

Cosas para comprobar: ¿Los enlaces son JavaScript? (Ver página en el navegador con JavaScript deshabilitado)

Cosas para probar: Habilitar Representación de JavaScript (Configuración > Araña > Representación > JavaScript). Para obtener más detalles sobre el rastreo de JavaScript, consulte nuestro Guía de rastreo de JavaScript.

Razón: De forma predeterminada, SEO Spider solo rastreará los enlaces ,  y en el código fuente HTML, no lee el DOM. Si está disponible, SEO Spider utilizará Esquema de rastreo obsoleto de AJAX de Googlelo que esencialmente significa rastrear una instantánea HTML de la página de JavaScript procesada, en lugar de la versión de JavaScript de la página.

Cosas para comprobar: Pestaña ‘Límites’ de ‘Configuración > Araña’ en particular ‘Limitar profundidad de búsqueda‘ y ‘Límite total de búsqueda‘.

Razón: Si estos están configurados para marcar 0 o 1 respectivamente, entonces se le indica a SEO Spider que solo rastree una sola URL.

Cosas para comprobar: ¿El sitio requiere cookies? (Ver página en el navegador con las cookies deshabilitadas).

Cosas para probar: Configuración > Spider > Pestaña Avanzado > Permitir cookies.

Razón: Se puede enviar un mensaje o una página por separado a SEO Spider si las cookies están deshabilitadas, que no tiene un hipervínculo a otras páginas del sitio.

Cosas para probar: Cambiar el agente de usuario a Googlebot (Configuración > User-Agent).

Razón: El sitio/servidor puede configurarse para servir HTML a los robots de búsqueda sin la necesidad de aceptar cookies.

Cosas para comprobar: ¿Qué se especifica en la columna ‘Contenido’?

Cosas para probar: Si está en blanco, habilite la representación de JavaScript (Configuración > Spider > Representación > JavaScript) y vuelva a intentar el rastreo.

Razón: Si no se especifica ningún tipo de contenido en el encabezado HTTP, SEO Spider no sabe si la URL es una imagen, PDF, páginas HTML, etc., por lo que no puede rastrearla para determinar si hay más enlaces. Esto se puede omitir con el modo de renderizado, ya que SEO Spider verifica si hay un se especifica en el del documento cuando está habilitado.

Cosas para comprobar: ¿Hay una puerta de edad?

Cosas para probar: Cambiar el agente de usuario a Googlebot (Configuración > User-Agent).

Razón: El sitio/servidor puede configurarse para servir el HTML a los bots de búsqueda sin necesidad de ingresar una edad.


301- Mudanza permanente / 302 – Mudanza temporal

Esto significa que la URL solicitada se ha movido y se ha redirigido a una ubicación diferente.

Redirección 301

Cosas para comprobar: ¿Cuál es el destino de la redirección? (Comprobar el enlaces de la URL devuelta).

Cosas para probar: Si esta es la misma que la URL de inicio, siga los pasos descritos en nuestra ¿Por qué las URL se redireccionan a sí mismas? Preguntas frecuentes.

Razón: La redirección está en un bucle en el que SEO Spider nunca llega a una página HTML rastreable. Si esto se debe a que se dejó caer una cookie, puede omitirse siguiendo los pasos en las preguntas frecuentes vinculadas anteriormente.

Cosas para comprobar: Pestaña externa.

Cosas para probar: Configuración > Araña > Rastrear todos los subdominios.

Razón: SEO Spider trata los diferentes subdominios como externos y no los rastreará de manera predeterminada. Si está intentando rastrear un subdominio que redirige a un subdominio diferente, se informará en la pestaña externa.

Cosas para comprobar: ¿El sitio requiere cookies? (Ver la página en un navegador con las cookies deshabilitadas).

Cosas para probar: Configuración > Spider > Pestaña Avanzado > Permitir cookies.

Razón: SEO Spider está siendo redirigido a una URL donde se coloca una cookie, pero no acepta cookies.


400 – Solicitud incorrecta / 403 – Prohibido / 406 – Estado no aceptable

El servidor no puede o no procesará la solicitud / está denegando la solicitud de SEO Spider para ver la URL solicitada.

403 Prohibido

Cosas para comprobar: ¿Puede ver la página en un navegador o devuelve un error similar?

Cosas para probar: Si la página se puede ver establecer Chrome como el agente de usuario (Configuración > Usuario-Agente). También vale la pena probar un agente de usuario de Googlebot, aunque no es inusual que los sitios bloqueen un Googlebot falsificado.

Razón: El sitio niega la solicitud de la página de SEO Spider (posiblemente como protección/seguridad contra agentes de usuarios desconocidos).


404 – Página no encontrada / 410 – Eliminado

El servidor está indicando que la página ha sido eliminada.

404 No encontrado

Cosas para comprobar: ¿La URL solicitada carga una página normal en el navegador?

Cosas para probar: ¿El código de estado es el mismo en otras herramientas (Websniffer, Rexswain, complementos del navegador etc.).

Razón: Si el código de estado se informa incorrectamente para cada herramienta, el sitio/servidor puede estar configurado incorrectamente para mostrar el código de respuesta de error, a pesar de que la página existe.

Cosas para probar: Si la página se puede ver establecer Chrome como el agente de usuario (Configuración > Usuario-Agente). También vale la pena probar un agente de usuario de Googlebot, aunque no es inusual que los sitios bloqueen un Googlebot falsificado.

Razón: El sitio está enviando el error del servidor a SEO Spider (posiblemente como protección/seguridad contra agentes de usuarios desconocidos).


429 – Demasiadas solicitudes

Se han realizado demasiadas solicitudes al servidor en un período de tiempo determinado.

Cosas para comprobar: ¿Puede ver su sitio en el navegador o muestra un mensaje de error similar?

Cosas para probar: Bajando el velocidad de rastreo y/o probando un Agente de usuario de Googlebot.

Razón: El servidor no permite más solicitudes porque se han realizado demasiadas en un corto período de tiempo. Reducir la tasa de solicitudes o probar un agente de usuario para el que este límite puede no aplicarse puede ayudar.


500/502/503 – Error interno del servidor

El servidor dice que tiene un problema.

500 error del servidor

Cosas para comprobar: ¿Puedes ver tu sitio en el navegador o está caído?

Cosas para probar: Si la página se puede ver establecer Chrome como el agente de usuario (Configuración > Usuario-Agente). También vale la pena probar un agente de usuario de Googlebot, aunque no es inusual que los sitios bloqueen un Googlebot falsificado.

Razón: El sitio está enviando el error del servidor a SEO Spider (posiblemente como protección/seguridad contra agentes de usuarios desconocidos).

Es posible que más de uno de estos problemas esté presente en la misma página, por ejemplo, una página de JavaScript también podría tener una etiqueta meta ‘nofollow’.

También hay muchos más códigos de respuesta que este, pero en nuestra propia experiencia, estos se encuentran con poca frecuencia, si es que se encuentran. Es probable que muchos de estos también se resuelvan siguiendo los mismos pasos que otros códigos de respuesta similares descritos anteriormente.

Se pueden encontrar más detalles sobre los códigos de respuesta en https://en.wikipedia.org/wiki/List_of_HTTP_status_codes

Una respuesta a «Códigos de respuesta: ¿por qué no se rastrea mi sitio web?»

[…] ‘Response Codes’ aparecerán todas las direcciones del portal y podremos filtrarlas según el código de respuesta que […]

Deja una respuesta

Tu dirección de correo electrónico no será publicada.