Semalt: Εξαγωγή διευθύνσεων URL από ιστοσελίδες με όμορφη σούπα

Το Beautiful Soup είναι ένα πακέτο Python υψηλού επιπέδου που χρησιμοποιείται για την ανάλυση εγγράφων XML και HTML. Η βιβλιοθήκη Beautiful Soup Python δημιουργεί ένα δέντρο ανάλυσης που χρησιμοποιείται για την εξαγωγή χρήσιμων πληροφοριών από το HyperText Markup Language (HTML). Αυτή η βιβλιοθήκη είναι διαθέσιμη τόσο για τις εκδόσεις Python 2 όσο και για Python 3.

Στις περισσότερες περιπτώσεις, διαπιστώνετε ότι η πρόσβαση στα δεδομένα-στόχους σας μπορεί να χρησιμοποιηθεί μόνο ως μέρος μιας ιστοσελίδας. Σε μια τέτοια περίπτωση, πρέπει να χρησιμοποιήσετε μια τέτοια τεχνική απόξεσης ιστού που μπορεί να εξαγάγει δεδομένα με τις μορφές που μπορούν να αναλυθούν. Εδώ μπαίνει η βιβλιοθήκη Beautiful Soup.

Απαιτήσεις

Χρειάζεστε τις σωστές ενότητες για να χρησιμοποιήσετε τη βιβλιοθήκη Beautiful Soup. Για να ξεκινήσετε, πρέπει να εγκαταστήσετε τη γλώσσα προγραμματισμού Python 2.7 στον υπολογιστή σας. Σε αυτήν την ανάρτηση, θα μάθετε πώς να αποκόψετε έναν ιστότοπο και να εξαγάγετε όλες τις διευθύνσεις URL χρησιμοποιώντας τα αιτήματα και την όμορφη σούπα 4. Η ανάλυση HTML είναι μια εργασία μόνοι σας, ειδικά με την τεχνική βοήθεια του Beautiful Soup.

Γιατί να χρησιμοποιήσετε την όμορφη σούπα;

Το Beautiful Soup είναι ένα κορυφαίο πακέτο Python που χρησιμοποιείται για την απόσυρση ιστότοπων και την ανάλυση ετικετών HTML από το 2004. Πρόσφατα, το Beautiful Soup 4 αντικατέστησε το Beautiful Soup 3 στον κλάδο. Σημειώστε ότι το BS4 λειτουργεί και στις δύο εκδόσεις Python ενώ το BS3 λειτουργεί μόνο στο Python 2.7. Η βιβλιοθήκη περιλαμβάνει τα ακόλουθα ενσωματωμένα χαρακτηριστικά:

  • Δυνατότητα κωδικοποίησης - Δεν χρειάζεται να πανικοβληθείτε σχετικά με τις κωδικοποιήσεις μόλις εγκαταστήσετε τις απαραίτητες όμορφες μονάδες σούπας στο μηχάνημά σας. Η βιβλιοθήκη είναι αυτοματοποιημένη για τη μετατροπή εισόδων σε Unicode και εξόδους σε UTF-8.
  • Δυνατότητα πλοήγησης - Το Beautiful Soup προσφέρει εύχρηστες μεθόδους για αναζήτηση, πλοήγηση και τροποποίηση ενός αναλυτικού δέντρου.

Πώς να χρησιμοποιήσετε τη βιβλιοθήκη Beautiful Soup;

Αφού εγκαταστήσετε το Beautiful Soup στον υπολογιστή σας, μπορείτε να αρχίσετε να χρησιμοποιείτε τη βιβλιοθήκη. Για να ξεκινήσετε, εισαγάγετε βιβλιοθήκη bs4 στην αρχή του κώδικα Python. Διαβιβάστε περιεχόμενο ή διεύθυνση URL στο Beautiful Soup για να δημιουργήσετε ένα αντικείμενο Soup. Ωστόσο, η βιβλιοθήκη δεν παίρνει την ιστοσελίδα προορισμού από μόνη της. Εδώ, πρέπει να ολοκληρώσετε αυτήν την εργασία με μη αυτόματο τρόπο. Μπορείτε επίσης να πάρετε εύκολα τις προτιμώμενες ιστοσελίδες χρησιμοποιώντας έναν συνδυασμό Python και Beautiful Soup.

Ρόλοι της βιβλιοθήκης αιτημάτων

Για να ξύσετε μια σελίδα, πρέπει πρώτα να την κατεβάσετε. Μπορείτε να κατεβάσετε ιστοσελίδες χρησιμοποιώντας τη βιβλιοθήκη αιτημάτων. Η βιβλιοθήκη αιτημάτων λειτουργεί με την υποβολή αιτήματος "GET" στους διακομιστές ιστού, οι οποίοι, με τη σειρά τους, θα κατεβάσουν περιεχόμενο HTML της προτιμώμενης ιστοσελίδας.

Εξαγωγή διευθύνσεων URL από ιστοσελίδες

Τώρα έχετε λεπτομερείς πληροφορίες σχετικά με τη βιβλιοθήκη Beautiful Soup. Ένας συνδυασμός βιβλιοθήκης BS4 και Python θα σας βοηθήσει να ανακτήσετε μια ιστοσελίδα πολύ γρήγορα. Για να εξαγάγετε όλες τις διευθύνσεις URL από την ιστοσελίδα προορισμού σας, χρησιμοποιήστε τη μέθοδο "εύρεση όλων". Αυτή η μέθοδος θα σας δώσει μια συλλογή στοιχείων με την ετικέτα. Από το bs4, εισαγάγετε τόσο την όμορφη σούπα όσο και τα αιτήματα. Εκτελέστε τον κωδικό σας και εισαγάγετε έναν ιστότοπο ή μια ιστοσελίδα για να εξαγάγετε τις διευθύνσεις URL από.

mass gmail