Πώς να Χρησιμοποιήσεις το Screaming Frog για Custom Extraction

Το Screaming Frog είναι ένα εργαλείο που βρίσκεται στην “εργαλειοθήκη” κάθε επαγγελματία του SEO λόγω των πολλών δυνατοτήτων του που χρησιμοποιούνται για ένα μεγάλο εύρος σκοπών. Από crawling και SEO, μέχρι performance και content optimization, το Screaming Frog ανταποκρίνεται επάξια σε κάθε ανάγκη.

Ωστόσο, το εργαλείο αυτό έγινε γνωστό κυρίως για τη χρήση του στο SEO, καθώς σου επιτρέπει να κάνεις crawl ένα website και να τραβήξεις από εκεί μαζικά πολύτιμα δεδομένα όπως: metadata, headings, response codes, canonicals και πολλά άλλα. Αλλά το Screaming Frog είναι πολύ πιο ισχυρό από ότι συνειδοποιούν αρκετοί χρήστες του και μπορεί να βοηθήσει στην εκτέλεση εργασιών που απαιτούν αρκετό χρόνο.

Σε αυτό το άρθρο θα καλύψουμε μια από αυτές τις πτυχές και θα μιλήσουμε για custom extraction. Πιο συγκεκριμένα, θα καλύψουμε τον τρόπου με τον οποίο μπορούμε να χρησιμοποιήσουμε αυτήν τη λειτουργία για να κάνουμε scrape δεδομένα από ένα website με λίγα μόνο clicks.

Τι είναι το custom extraction

Αρχικά, πρέπει να αναφερθούμε στο τι είναι το custom extraction. Αυτή η λειτουργία είναι ένα “κρυφό χαρτί” του Screaming Frog που σου επιτρέπει να τραβήξεις custom πληροφορίες από ένα website ή σύνολο σελίδων.

Αυτό γίνεται με τη χρήση ενός από τα παρακάτω:

CSSPath
XPath
Regex

Χρησιμοποιώντας αυτά, μπορείς να επιλέξεις συγκεκριμένα στοιχεία μιας σελίδας και να εμφανίσεις το κείμενο, την HTML, ένα HTML element ή ένα value που βοηθάει τους selectors σου.

Για τους σκοπούς του άρθρου θα πάμε με το XPath.

Γιατί να χρησιμοποιήσεις custom extraction

Υπάρχουν πολλές περιπτώσεις που θα θέλεις να χρησιμοποιήσεις custom extraction για να κάνεις scrape δεδομένα από ένα website, όπως να τραβήξεις το κείμενο που βρίσκεται μέσα σε buttons ενός website, να τραβήξεις featured snippets από τα search results ή να τραβήξεις rating reviews για προϊόντα ή listings.

Στο παράδειγμα αυτό και για την απλότητα της πληροφορίας, θα χρησιμοποιήσουμε custom extraction για να τραβήξουμε μια λίστα με όλους τους τίτλους των blog posts από το www.grow-digital.gr.

Αυτή η διαδικασία, σε ένα πραγματικό παράδειγμα, θα περιλάμβανε το extraction όλου του περιεχομένου ενός ανταγωνιστή προκειμένου να αναλύσεις τη θεματολογία και τους τομείς που επικεντρώνεται το content του, ή να τραβήξεις δεδομένα από ένα μεγάλο blogging site για να εντοπίσεις παρόμοια θέματα για το υλικό σου, με μαζικό και γρήγορο τρόπο.

Βρίσκοντας τον XPath selector

Αρχικά, θα πρέπει να ανοίξεις στον browser σου τη σελίδα που περιέχει τις πληροφορίες που θέλεις να κάνεις extract. Στο παράδειγμα αυτό, θα χρησιμοποιήσουμε ένα τυχαίο άρθρο του grow-digital.gr στο link: https://www.grow-digital.gr/diathesima-tria-nea-xaraktiristika-google-my-business/.

Μόλις το ανοίξεις, θα πρέπει να κάνεις inspect το element που θες να κάνεις scrape με το inspect tool που έχει ο κάθε browser.

Τώρα ήρθε η ώρα να επιλέξεις το XPath του συγκεκριμένου element. Στην περίπτωσή μας, έχουμε αποφασίσει το element αυτό να είναι ο τίτλος του προϊόντος, δηλαδή το H1. Παρόλο που φαίνεται ότι η εύρεση του XPath θα μπορούσε να είναι μια κουραστική διαδικασία, είναι αρκετά εύκολο.

Κάνε δεξί κλικ στο στοιχείο και εντόπισέ το στο tab Elements. Στη συνέχεια κάνε copy το στοιχείο “Copy full XPath”.

Εδώ να σημειώσουμε το εξής. Η επιλογή του “Copy XPath” ή του “Copy full XPath” εξαρτάται από τη δομή της σελίδας ή το CMS. Για παράδειγμα, σε μια custom coded σελίδα μπορεί η σωστή επιλογή να είναι το Copy XPath. Στο Wordrpess ωστόσο, το “Copy XPath” περιορίζει το αποτέλεσμα στο συγκεκριμένο ID του άρθρου, με αποτέλεσμα το Screaming Frog να βγάζει αποτέλεσμα μόνο για το συγκεκριμένο άρθρο. Το “Copy full XPath” είναι η κατάλληλη επιλογή για τώρα δεδομένου ότι περιλαμβάνει ολόκληρο το XPath που θα μας χρησιμεύσει για όλα τα άρθρα.

Το αποτέλεσμα επομένως είναι το εξής: /html/body/div[6]/div[2]/div/div[2]/div[1]/div/article/div[1]/header/h1

Σετάροντας το πρώτο σου extraction

Στη συνέχεια, θα πρέπει να ρυθμίσεις τα settings στο Screaming Frog για το custom extraction.

Άνοιξε την εφαρμογή του Screaming Frog, επίλεξε το ‘Configuration’ από το menu, πήγαινε στο ‘Custom’ και στη συνέχεια στο ‘Extraction’. Θα δεις το παρακάτω παράθυρο – πολύ πιθανά να είναι κενό.

Αν είναι κενό, πρόσθεσε τουλάχιστον 10 extractors πατώντας το κουμπί ‘Add’ κάτω δεξιά.

Στη συνέχεια κάνε copy το XPath σε όλες τις κενές γραμμές, επιλέγοντας το ‘Extract Text’ στη 2η στήλη όπως φαίνεται στο παρακάτω παράδειγμα. Επίσης φρόντισε να βάλεις το κατάλληλο naming στη πρώτη στήλη. Στη δική μας περίπτωση ονοματίσαμε ως Blog Post 1, 2, 3…10 δεδομένου ότι θα κάνουμε extract τίτλους από blog posts.

Προετοιμασία για το crawl

Τώρα που έχεις τα settings του custom extraction έτοιμα, είναι ώρα να ρυθμίσεις το spider για να σιγουρευτείς ότι θα κάνεις crawl τις σωστές σελίδες.

Αυτό, πάλι εξαρτάται από τη δομή των urls που έχει η κάθε σελίδα και απαιτεί αρκετό πειραματισμό μέχρι να βρεις τις σωστές ρυθμίσεις για το αποτέλεσμα που θες.

Για το συγκεκριμένο παράδειγμα, αποφασίσαμε να κάνουμε crawl όλο το site και όχι μόνο τις σελίδες των blog posts, δεδομένου ότι δεν είχαμε τρόπο να κάνουμε exclude σελίδες όπως η Αρχική, σελίδες κατηγοριών, σελίδα Επικοινωνίας κλπ, μιας και η αρχιτεκτονική των urls είναι τέτοια.

Σε μια διαφορετική περίπτωση όπου μια σελίδα για παράδειγμα κρεμάει όλα της τα blog posts κάτω από τη δομή https://www.grow-digital.gr/blog, θα ρυθμίζαμε τον crawler ως εξής: https://www.grow-digital.gr/blog/*.

Αυτό θα διασφάλιζε ότι μόλις ξεκινούσε το crawling, το spider θα έκανε crawl σελίδες που έχουν το παραπάνω url στο link τους και δεν θα λάμβανε υπόψη άλλα links που είναι εκτός του blog.

Crawling και πρώτα αποτελέσματα

Τώρα είσαι έτοιμος να πατήσεις το κουμπί ‘Start’ και να πάρεις τα πρώτα αποτελέσματα. Επομένως στο search bar κάνεις copy-paste το url της σελίδας, όπου στη δική μας περίπτωση είναι η αρχική σελίδα του www.grow-digital.gr.

Μόλις πατήσεις το ‘Start’, ο crawler θα ξεκινήσει να συλλέγει τα πρώτα αποτελέσματα. Για να δεις τα αποτελέσματα αυτά, θα πρέπει να επιλέξεις το ‘Custom Extraction’ από το βελάκι πάνω δεξιά στην οθόνη όπως φαίνεται στο παρακάτω παράδειγμα.

Εκεί μπορείς να δεις μαζικά τα αποτελέσματα και να τα κάνεις export σε ένα CSV.

Στο δικό μας παράδειγμα, όπως αναφέραμε και παραπάνω, δεν ήταν εφικτό να εξαιρέσουμε τα non-blog posts links και άρα εμφανίστηκαν και άλλα αποτελέσματα -που είναι κενά- και τα οποία αργότερα με ένα φίλτρο μπορούμε να τα κρύψουμε.

Train, train, train

That’s it! Το πρώτο σου extraction είναι γεγονός και η σχέση σου με το Screaming Frog είναι λίιιιιιγο καλύτερη σε σχέση με πριν. Μόλις πειραματιστείς λίγο με το εργαλείο, τρέχοντας το process σε διαφορετικά sites και για διαφορετικά elements, θα δεις όλες εκείνες τις μικρές λεπτομέρειες του μαγικού κόσμου του scraping.

Αυτό μπορεί να σου γλιτώσει άπειρο χρόνο από πράγματα που σε έναν άλλο κόσμο θα τα έκανες χειροκίνητα και θα σε γεμίσει με ιδέες και πληροφορίες διευκολύνοντας έτσι το decision making και τα actions που πρέπει να πάρεις. Επομένως πειραματίσου αρκετά και όλα τα υπόλοιπα θα έρθουν!

Enjoy!

Πώς να Χρησιμοποιήσεις το Screaming Frog για Custom Extraction

Τι είναι το custom extraction

Γιατί να χρησιμοποιήσεις custom extraction

Βρίσκοντας τον XPath selector

Σετάροντας το πρώτο σου extraction

Προετοιμασία για το crawl

Crawling και πρώτα αποτελέσματα

Train, train, train

More from author

Related posts

Latest posts

Incrementality Testing: Πώς να μετράς το πραγματικό impact των καμπανιών σου

AI Citation Tracking: Ο μονόδρομος για τo Brand Visibility

AI Max vs. Broad Match: Ποιο Κερδίζει στη Μάχη των Google Ads;

Incrementality Testing: Πώς να μετράς το πραγματικό impact των καμπανιών σου

Automated competitive crawling με το Screaming Frog: Αναλυτικός οδηγός

Web Vitals measurement & debugging με Google Analytics 4 και BigQuery

Latest Posts

Incrementality Testing: Πώς να μετράς το πραγματικό impact των καμπανιών σου

AI Citation Tracking: Ο μονόδρομος για τo Brand Visibility

AI Max vs. Broad Match: Ποιο Κερδίζει στη Μάχη των Google Ads;

Most Popular

Google Ads Performance Max: Αυτά είναι τα best practices

Peak Awards 2022 – Οι καλύτεροι του Performance Marketing είναι εδώ

Μάθε πώς μπορείς να εισάγεις κόστη διαφήμισης στο Google Analytics

Fast Access

Πώς να Χρησιμοποιήσεις το Screaming Frog για Custom Extraction

Τι είναι το custom extraction

Γιατί να χρησιμοποιήσεις custom extraction

Βρίσκοντας τον XPath selector

Σετάροντας το πρώτο σου extraction

Προετοιμασία για το crawl

Crawling και πρώτα αποτελέσματα

Train, train, train

More from author

Related posts

Latest posts

Θες να μαθαίνεις πρώτος νέα μας;

Latest Posts

Most Popular

Fast Access