Del curso: Python para data scientist avanzado

Accede al curso completo hoy mismo

Únete hoy para acceder a más de 23.100 cursos impartidos por expertos del sector.

Creación de un spider o crawler

Creación de un spider o crawler

Un "spyder" o "crawler" es el tipo de programa, en este caso de Python, que lo que va a hacer es explorar la web por nosotros automáticamente. ¿A qué me estoy refiriendo exactamente? A un programa que va a coger un enlace, el enlace inicial que nosotros le demos, va a obtener un conjunto de "links", es decir, todos los "links" internos, por ejemplo. En este ejemplo vamos a ver los "links" internos dentro de la Wikipedia. Y va a ir saltando por estos "links" buscando más "links" y realizando algún análisis. Se le llama "spyder" porque es una araña que va por toda la red y automáticamente va entrando en cada uno de los enlaces que tú le estás dando. Esto hay que programarlo. El código no es sencillo, pero tampoco son muchísimas líneas y el potencial que tiene es ilimitado. Lo primero que hacemos es crear el 'soup'. Y estos dos objetos son muy importantes. Los he llamado directamente por lo que son. Esto es una lista de los "links" que ya hemos explorado, esto es importante, porque no…

Contenido