Semalt: extracción de URL de páginas web con una hermosa sopa

Beautiful Soup es un paquete de Python de alto nivel utilizado para analizar documentos XML y HTML. La hermosa biblioteca Soup Python crea un árbol de análisis que se utiliza para extraer información útil del lenguaje de marcado de hipertexto (HTML). Esta biblioteca está disponible para las versiones de Python 2 y Python 3.

En la mayoría de los casos, descubre que solo se puede acceder a sus datos de destino y utilizarlos como parte de una página web. En tal caso, debe usar una técnica de raspado web que pueda extraer datos en los formatos que pueden analizarse. Aquí es donde entra la biblioteca Beautiful Soup.

Requisitos

Necesita los módulos correctos para usar la biblioteca Beautiful Soup. Para comenzar, debe instalar el lenguaje de programación Python 2.7 en su máquina. En esta publicación, aprenderá a raspar un sitio web y extraer todas las URL usando Solicitudes y Beautiful Soup 4. El análisis HTML es una tarea de bricolaje, especialmente con la ayuda técnica de Beautiful Soup.

¿Por qué usar sopa hermosa?

Beautiful Soup es un paquete de Python de primer nivel que se ha utilizado para raspar sitios web y analizar etiquetas HTML desde 2004. Recientemente, Beautiful Soup 4 reemplazó a Beautiful Soup 3 en la industria. Tenga en cuenta que BS4 funciona en ambas versiones de Python, mientras que BS3 solo funciona en Python 2.7. La biblioteca consta de las siguientes características incorporadas:

  • Capacidad de codificación: no tiene que preocuparse por las codificaciones una vez que instala los hermosos módulos Soup necesarios en su máquina. La biblioteca está automatizada para convertir entradas a Unicode y salidas a UTF-8.
  • Capacidad de navegación: Beautiful Soup ofrece métodos fáciles de usar para buscar, navegar y modificar un árbol de análisis.

¿Cómo usar la biblioteca Beautiful Soup?

Después de instalar Beautiful Soup en su máquina, puede comenzar a usar la biblioteca. Para comenzar, importe la biblioteca bs4 al comienzo de su código Python. Pase contenido o URL a Beautiful Soup para crear un objeto Soup. Sin embargo, la biblioteca no busca la página web de destino en sí misma. Aquí, debe completar esa tarea manualmente. También puede buscar fácilmente las páginas web preferidas utilizando una combinación de Python y Beautiful Soup.

Roles de solicitud de biblioteca

Para raspar una página, primero debe descargarla. Puede descargar páginas web utilizando la biblioteca de solicitudes. La biblioteca de solicitudes funciona realizando una solicitud "GET" a los servidores web, que, a su vez, descargarán el contenido HTML de la página web preferida.

Extraer URL de páginas web

Ahora tiene información detallada sobre la biblioteca Beautiful Soup. Una combinación de la biblioteca BS4 y Python lo ayudará a buscar una página web muy rápidamente. Para extraer todas las URL de su página web de destino, utilice el método "buscar todo". Este método le dará una compilación de elementos con la etiqueta. Desde bs4, importe Beautiful Soup y las solicitudes. Ejecute su código e ingrese a un sitio web o página web para extraer las URL.

mass gmail