Πώς να Χρησιμοποιήσεις το Screaming Frog για Custom Extraction

Το Screaming Frog είναι ένα εργαλείο που βρίσκεται στην “εργαλειοθήκη” κάθε επαγγελματία του SEO λόγω των πολλών δυνατοτήτων του που χρησιμοποιούνται για ένα μεγάλο εύρος σκοπών. Από crawling και SEO, μέχρι performance και content optimization, το Screaming Frog ανταποκρίνεται επάξια σε κάθε ανάγκη.

Ωστόσο, το εργαλείο αυτό έγινε γνωστό κυρίως για τη χρήση του στο SEO, καθώς σου επιτρέπει να κάνεις crawl ένα website και να τραβήξεις από εκεί μαζικά πολύτιμα δεδομένα όπως: metadata, headings, response codes, canonicals και πολλά άλλα. Αλλά το Screaming Frog είναι πολύ πιο ισχυρό από ότι συνειδοποιούν αρκετοί χρήστες του και μπορεί να βοηθήσει στην εκτέλεση εργασιών που απαιτούν αρκετό χρόνο.

Σε αυτό το άρθρο θα καλύψουμε μια από αυτές τις πτυχές και θα μιλήσουμε για custom extraction. Πιο συγκεκριμένα, θα καλύψουμε τον τρόπου με τον οποίο μπορούμε να χρησιμοποιήσουμε αυτήν τη λειτουργία για να κάνουμε scrape δεδομένα από ένα website με λίγα μόνο clicks.

Τι είναι το custom extraction

Αρχικά, πρέπει να αναφερθούμε στο τι είναι το custom extraction. Αυτή η λειτουργία είναι ένα “κρυφό χαρτί” του Screaming Frog που σου επιτρέπει να τραβήξεις custom πληροφορίες από ένα website ή σύνολο σελίδων.

Αυτό γίνεται με τη χρήση ενός από τα παρακάτω:

  • CSSPath
  • XPath
  • Regex

Χρησιμοποιώντας αυτά, μπορείς να επιλέξεις συγκεκριμένα στοιχεία μιας σελίδας και να εμφανίσεις το κείμενο, την HTML, ένα HTML element ή ένα value που βοηθάει τους selectors σου.

Για τους σκοπούς του άρθρου θα πάμε με το XPath.

Γιατί να χρησιμοποιήσεις custom extraction

Υπάρχουν πολλές περιπτώσεις που θα θέλεις να χρησιμοποιήσεις custom extraction για να κάνεις scrape δεδομένα από ένα website, όπως να τραβήξεις το κείμενο που βρίσκεται μέσα σε buttons ενός website, να τραβήξεις featured snippets από τα search results ή να τραβήξεις rating reviews για προϊόντα ή listings.

Στο παράδειγμα αυτό και για την απλότητα της πληροφορίας, θα χρησιμοποιήσουμε custom extraction για να τραβήξουμε μια λίστα με όλους τους τίτλους των blog posts από το www.grow-digital.gr.

Αυτή η διαδικασία, σε ένα πραγματικό παράδειγμα, θα περιλάμβανε το extraction όλου του περιεχομένου ενός ανταγωνιστή προκειμένου να αναλύσεις τη θεματολογία και τους τομείς που επικεντρώνεται το content του, ή να τραβήξεις δεδομένα από ένα μεγάλο blogging site για να εντοπίσεις παρόμοια θέματα για το υλικό σου, με μαζικό και γρήγορο τρόπο.

Βρίσκοντας τον XPath selector

Αρχικά, θα πρέπει να ανοίξεις στον browser σου τη σελίδα που περιέχει τις πληροφορίες που θέλεις να κάνεις extract. Στο παράδειγμα αυτό, θα χρησιμοποιήσουμε ένα τυχαίο άρθρο του grow-digital.gr στο link: https://www.grow-digital.gr/diathesima-tria-nea-xaraktiristika-google-my-business/.

Μόλις το ανοίξεις, θα πρέπει να κάνεις inspect το element που θες να κάνεις scrape με το inspect tool που έχει ο κάθε browser.

Τώρα ήρθε η ώρα να επιλέξεις το XPath του συγκεκριμένου element. Στην περίπτωσή μας, έχουμε αποφασίσει το element αυτό να είναι ο τίτλος του προϊόντος, δηλαδή το H1. Παρόλο που φαίνεται ότι η εύρεση του XPath θα μπορούσε να είναι μια κουραστική διαδικασία, είναι αρκετά εύκολο.

Κάνε δεξί κλικ στο στοιχείο και εντόπισέ το στο tab Elements. Στη συνέχεια κάνε copy το στοιχείο “Copy full XPath”.

Εδώ να σημειώσουμε το εξής. Η επιλογή του “Copy XPath” ή του “Copy full XPath” εξαρτάται από τη δομή της σελίδας ή το CMS. Για παράδειγμα, σε μια custom coded σελίδα μπορεί η σωστή επιλογή να είναι το Copy XPath. Στο Wordrpess ωστόσο, το “Copy XPath” περιορίζει το αποτέλεσμα στο συγκεκριμένο ID του άρθρου, με αποτέλεσμα το Screaming Frog να βγάζει αποτέλεσμα μόνο για το συγκεκριμένο άρθρο. Το “Copy full XPath” είναι η κατάλληλη επιλογή για τώρα δεδομένου ότι περιλαμβάνει ολόκληρο το XPath που θα μας χρησιμεύσει για όλα τα άρθρα.

Το αποτέλεσμα επομένως είναι το εξής: /html/body/div[6]/div[2]/div/div[2]/div[1]/div/article/div[1]/header/h1

Σετάροντας το πρώτο σου extraction

Στη συνέχεια, θα πρέπει να ρυθμίσεις τα settings στο Screaming Frog για το custom extraction.

Άνοιξε την εφαρμογή του Screaming Frog, επίλεξε το ‘Configuration’ από το menu, πήγαινε στο ‘Custom’ και στη συνέχεια στο ‘Extraction’. Θα δεις το παρακάτω παράθυρο – πολύ πιθανά να είναι κενό.

Αν είναι κενό, πρόσθεσε τουλάχιστον 10 extractors πατώντας το κουμπί ‘Add’ κάτω δεξιά.

Στη συνέχεια κάνε copy το XPath σε όλες τις κενές γραμμές, επιλέγοντας το ‘Extract Text’ στη 2η στήλη όπως φαίνεται στο παρακάτω παράδειγμα. Επίσης φρόντισε να βάλεις το κατάλληλο naming στη πρώτη στήλη. Στη δική μας περίπτωση ονοματίσαμε ως Blog Post 1, 2, 3…10 δεδομένου ότι θα κάνουμε extract τίτλους από blog posts.

Προετοιμασία για το crawl

Τώρα που έχεις τα settings του custom extraction έτοιμα, είναι ώρα να ρυθμίσεις το spider για να σιγουρευτείς ότι θα κάνεις crawl τις σωστές σελίδες.

Αυτό, πάλι εξαρτάται από τη δομή των urls που έχει η κάθε σελίδα και απαιτεί αρκετό πειραματισμό μέχρι να βρεις τις σωστές ρυθμίσεις για το αποτέλεσμα που θες.

Για το συγκεκριμένο παράδειγμα, αποφασίσαμε να κάνουμε crawl όλο το site και όχι μόνο τις σελίδες των blog posts, δεδομένου ότι δεν είχαμε τρόπο να κάνουμε exclude σελίδες όπως η Αρχική, σελίδες κατηγοριών, σελίδα Επικοινωνίας κλπ, μιας και η αρχιτεκτονική των urls είναι τέτοια.

Σε μια διαφορετική περίπτωση όπου μια σελίδα για παράδειγμα κρεμάει όλα της τα blog posts κάτω από τη δομή https://www.grow-digital.gr/blog, θα ρυθμίζαμε τον crawler ως εξής: https://www.grow-digital.gr/blog/*.

Αυτό θα διασφάλιζε ότι μόλις ξεκινούσε το crawling, το spider θα έκανε crawl σελίδες που έχουν το παραπάνω url στο link τους και δεν θα λάμβανε υπόψη άλλα links που είναι εκτός του blog.

Crawling και πρώτα αποτελέσματα

Τώρα είσαι έτοιμος να πατήσεις το κουμπί ‘Start’ και να πάρεις τα πρώτα αποτελέσματα. Επομένως στο search bar κάνεις copy-paste το url της σελίδας, όπου στη δική μας περίπτωση είναι η αρχική σελίδα του www.grow-digital.gr.

Μόλις πατήσεις το ‘Start’, ο crawler θα ξεκινήσει να συλλέγει τα πρώτα αποτελέσματα. Για να δεις τα αποτελέσματα αυτά, θα πρέπει να επιλέξεις το ‘Custom Extraction’ από το βελάκι πάνω δεξιά στην οθόνη όπως φαίνεται στο παρακάτω παράδειγμα.

Εκεί μπορείς να δεις μαζικά τα αποτελέσματα και να τα κάνεις export σε ένα CSV.

Στο δικό μας παράδειγμα, όπως αναφέραμε και παραπάνω, δεν ήταν εφικτό να εξαιρέσουμε τα non-blog posts links και άρα εμφανίστηκαν και άλλα αποτελέσματα -που είναι κενά- και τα οποία αργότερα με ένα φίλτρο μπορούμε να τα κρύψουμε.

Train, train, train

That’s it! Το πρώτο σου extraction είναι γεγονός και η σχέση σου με το Screaming Frog είναι λίιιιιιγο καλύτερη σε σχέση με πριν. Μόλις πειραματιστείς λίγο με το εργαλείο, τρέχοντας το process σε διαφορετικά sites και για διαφορετικά elements, θα δεις όλες εκείνες τις μικρές λεπτομέρειες του μαγικού κόσμου του scraping.

Αυτό μπορεί να σου γλιτώσει άπειρο χρόνο από πράγματα που σε έναν άλλο κόσμο θα τα έκανες χειροκίνητα και θα σε γεμίσει με ιδέες και πληροφορίες διευκολύνοντας έτσι το decision making και τα actions που πρέπει να πάρεις. Επομένως πειραματίσου αρκετά και όλα τα υπόλοιπα θα έρθουν!

Enjoy!

stheodoratos
stheodoratos
Αδυναμίες του οτιδήποτε έχει να κάνει με δεδομένα, performance και...Τρίκαλα Κορινθίας! Ίσως είναι από τους λίγους web developers στον κόσμο που έκανε στροφή προς το digital marketing! Δεν λέει ποτέ όχι στον καλό καφέ, στο gaming με φίλους και στη βόλτα κοντά στη θάλασσα!

More from author

Related posts

Latest posts

Πώς να κάνεις set up το Scroll Depth Tracking στα GA4

Εάν είσαι εξοικειωμένος με το Google Analytics 4 (GA4), πιθανότατα γνωρίζεις ήδη ότι έχει ενσωματωμένο scroll tracking από προεπιλογή. Και φυσικά, μπορεί να αναρωτιέσαι: γιατί...

Ο ανανεωμένος Chrome Canary και τα νέα features για Technical SEO

Κάθε μέρα που ξημερώνει στον κόσμο του web φέρνει και κάτι καινούριο. Παράλληλα, η ανάπτυξη που παρατηρείται στην τεχνολογία των mobile συσκευών και των...

Τι είναι ένα Canonical URL και ποιος ο ρόλος του στο SEO

Η φράση "canonical tag" εμφανίζεται συχνά σε συζητήσεις γύρω από το SEO και πιθανότατα περισσότερο μεταξύ cross-functional ομάδων όπως engineering, analytics ή MarTech. Όπως γίνεται...

8 δοκιμασμένες τακτικές για να γίνεις πιο ανταγωνιστικός στα Google Ads

Ισχύει ότι στο χρηματιστήριο που ονομάζεται Google Ads, κερδίζει πάντα αυτός που έχει περισσότερα χρήματα να χαλάσει; Οι πραγματιστές θα απαντήσουν ναι, οι ρομαντικοί...

Μάθε πώς μπορείς να εισάγεις κόστη διαφήμισης στο Google Analytics

Είναι γνωστό ότι η μόνη πηγή από την οποία το Google Analytics 'τραβάει' τα κόστη αυτόματα χωρίς κάποια εξτρά υλοποίηση, είναι το Google Ads. Ωστόσο,...

Google Ads Performance Max: Αυτά είναι τα best practices

Πλεόν οι Performance Max καμπάνιες του Google Ads είναι διαθέσιμες για όλους. Παρακάτω θα κάνουμε ένα deep dive σε όσα πρέπει να γνωρίζεις σχετικά με...

Θες να μαθαίνεις πρώτος νέα μας;

Ξέρεις τι να κάνεις! Θα μαθαίνεις νέα μας μόνο κάθε Κυριακή, επομένως...push the button!