Web Scraping del contenido de la página en 3 sencillos pasos con Screaming Frog

Exporte el contenido de un sitio web en una hoja de cálculo o CSV, usando una extracción personalizada en menos de 5 minutos

Cuando se resuelven problemas comerciales de la vida real con ciencia de datos y NLP, siempre existe la necesidad de crear un conjunto de datos en el que pueda ejecutar modelos de aprendizaje automático.

Web scraping, en términos simples, es extraer datos de la web, o más específicamente, de sitios web.

El raspado web con Screaming Frog no solo puede ser utilizado por los SEO, sino también por los científicos de datos, que desean omitir la codificación para llegar a sus conjuntos de datos más rápido.

Este tutorial lo guiará a través del uso de Screaming Frog SEO Spider extracción personalizada característica, para raspar datos de sitios web de la manera más rápida y fácil: a través de un CSSPath.

Un par de cosas (o limitaciones, si lo desea) de este enfoque antes de comenzar:

las extracciones de clientes no están disponibles en la versión gratuita de la herramienta, por lo que para tener acceso a esta función debe pagar una cuota anual (£ 149.00)
solo puede extraer texto de páginas que SEO Spider puede rastrear, por lo que deberían devolver un código de estado 200 (OK).
Puedes cambiar a Representación de JavaScript mode para extraer datos del HTML renderizado.
Este tutorial no cubrirá el web scraping del HTML usando Xpath y regex, sin embargo, esto está completamente cubierto por Screaming Frog’s propia entrada de blog en extracciones personalizadas.

Para comenzar, deberá descargar e instalar SEO Spider software.

Primero, debe ubicar el elemento que contiene el texto en la página y copiar el selector.

Para hacer esto, primero, abra Inspeccionar panel de programación para examinar el HTML.

Para identificar el elemento, puede leer el código o, si está menos familiarizado con HTML, también puede pasar el cursor sobre diferentes partes de la página para ver qué parte del código corresponde al selector de página.

Una vez que pasa el cursor sobre ellos, diferentes elementos se iluminan en azul oscuro.

Haga clic con el botón derecho y seleccione Copiar > Copiar selector.

Copiar el selector de HTML de una página web, imagen por autor

Ahora, vayamos a Screaming Frog.

Abra la rana que grita.

Haga clic en el menú Configuración y seleccione Personalizado > Extracción.

Crea una extracción personalizada con Screaming Frog, imagen del autor

En términos de configuración, primero debe nombrar la extracción. Tenga en cuenta que este nombre será el nombre de la columna, donde se extraerán los datos más adelante.

En mi ejemplo, lo he llamado ‘Contenido’.

Luego, seleccione ‘Ruta CSS’ y pegue el selector que copió en el paso 1. Finalmente, seleccione el Extraer texto opción y haga clic en Aceptar.

Configura tu Extracción Personalizada en Screaming Frog, Imagen del autor

Haga clic en Aceptar para cerrar el menú de extracción.

Luego, ejecute el rastreo.

Una vez que haya terminado su rastreo, puede navegar al campo de extracción personalizado para exportar solo los datos de la configuración de extracción. También puede exportar todo el rastreo en una hoja de cálculo.

Screaming Frog permite exportar datos en CSV, archivos de Excel o incluso directamente a una hoja de cálculo de Google. Las posibilidades son realmente infinitas.

Pensamientos finales

Como mencioné, este tutorial solo raspa la superficie (sin juego de palabras) sobre lo que esta herramienta puede hacer, por lo que sugiero que consulte los ejemplos de XPath para raspado web, proporcionados por El equipo de contenido de Screaming Frog.

Este tipo de datos es muy fácil de realizar análisis de datos y esta herramienta puede ser especialmente útil para profesionales de PNL y ciencia de datos, que se especializan en análisis de texto. Y como mencioné antes, es totalmente libre de código.

Fuente

Exporte el contenido de un sitio web en una hoja de cálculo o CSV, usando una extracción personalizada en menos de 5 minutos

Pensamientos finales

Deja una respuesta Cancelar la respuesta