Η Google δεν διαθέτει απεριόριστους πόρους όταν πρόκειται για το crawling των σελίδων.
Αυτός είναι και ο λόγος που στο ίδιο της το documentation προτείνει ότι οι SEO experts οφείλουν να ενδιαφέρονται για το crawl budget τους εάν έχουν εκατομμύρια σελίδες στο site τους ή περισσότερες από 10,000 σελίδες που ανανεώνονται σε καθημερινή βάση.
Εάν αντιμετωπίζεις προβλήματα με το indexation του site σου και έχεις σελίδες οι οποίες δεν γίνονται indexed από την Google, ή αν έχεις άλλα προβλήματα όπως το να μην γίνονται σελίδες γρήγορα indexed, τότε το crawl budget είναι ένας παράγοντας ο οποίος θα πρέπει να ερευνήσεις.
Τι είναι το crawl budget
Το crawl budget είναι ο χρόνος που αφιερώνει η Google για να κάνει crawl ένα site.
Αν και η Google μπορεί να φαίνεται ότι διαθέτει πόρους να κάνει τα πάντα στον ταχύτερο χρόνο, αυτό δεν ισχύει 100%.
Η αλήθεια είναι ότι διαθέτει περιορισμένους πόρους και χρόνους, ενώ ο ρυθμός με τον οποίο μεγαλώνει το web είναι τρομακτικός.
Έτσι, η Google έχει κατά μια ένννοια προτεραιοποιήσει και αναθέσει ένα συγκεκριμένο ποσοστό χρόνου και πόρων για να κάνει crawl ένα site.
Αυτή τη στιγμή – ή τουλάχιστον έτσι δηλώνει – η Google προτεραιοποιεί τα παραπάνω με βάση τη δημοφιλία μιας σελίδας και με βάση τη φρεσκότητα του περιεχομένου της, αλλά σε αυτό θα αναφερθούμε αναλυτικότερα παρακάτω.
Σε αυτό το άρθρο ο στόχος είναι να μάθουμε τι είναι το crawl budget, από ποιους παράγοντες εξαρτάται και ποιες είναι οι συχνότερες αιτίες που το επηρεάζουν αρνητικά.
Πώς διαμοιράζεται το crawl budget στα websites:
Υπάρχουν δύο παράγοντες, το crawl limit και το crawl demand:
Crawl limit / host load: πόσο crawling μπορεί να διαχειριστεί ένα site και ποιες είναι οι προτιμήσεις του ιδιοκτήτη;
Crawl demand / crawl scheduling: Ποια URL αξίζουν να γίνουν (re)crawled περισσότερο, με βάση τη δημοφιλία τους και το πόσο συχνά ανανεώνονται.
Το crawl budget το συναντάμε συχνά και ως crawl space ή crawl time.
Αφορά τo crawl budget μόνο σελίδες;
Όχι, απλά είναι βολικό να αναφερόμαστε περισσότερες σε σελίδες όταν συζητάμε για crawl budget. Στην πραγματικότητα όμως, το crawl budget αφορά οτιδήποτε αρχείο μπορούν να κάνουν crawl οι μηχανές αναζήτησης. Μερικά παραδείγμα είναι: αρχεία JavaScript, αρχεία CSS, mobile pages, hreflang variants και PDF αρχεία.
Αιτίες για προβλήματα με το crawl budget
Ποιες είναι εκείνες οι αιτίες που μπορεί να οδηγήσουν σε προβλήματα με το crawl budget;
Facets ή αλλιώς Hidden Links
Ας υποθέσουμε ότι βρισκόμαστε σε ένα eshop με ηλεκτρονικά είδη και κοιτάμε μια σελίδα κατηγορίας με περιφερειακά για σταθερό υπολογιστή.
Εκεί μπορούμε να παίξουμε με διάφορα φίλτρα, όπως Κατασκευαστής, Τιμή, Κριτικές και άλλα. Αυτή η συνεχής αναδιάταξη μπορεί να δημιουργήσει εκατοντάδες συνδυασμούς από URL διευθύνσεις, ενώ στην πραγματικότητα παρατηρείς μόνο μια σελίδα ή κατηγορία, αυτή των περιφερειακών για σταθερό υπολογιστή.
Ομοίως, αυτά τα νέα URLs μπορούν να αναδιαταχθούν για να δημιουργήσουν άλλες διευθύνσεις URL που κάνουν ακριβώς το ίδιο πράγμα, αλλά θα πρέπει να γίνουν crawled ξεχωριστά. Έτσι, μπορείς να έχεις σελίδες οι οποίες δημιουργούν έναν τεράστιο αριθμό από άλλες URL διευθύνσεις.
Search results pages
Μια ακόμη αιτία είναι οι search results σελίδες οι οποίες προκύπτουν από τις αναζητήσεις που γίνονται εσωτερικά σε ένα site. Ειδικά αν σε αυτά τα αποτελέσματα υπάρχει pagination, τότε πολλαπλασιάζονται τα νέα URLs.
Listing pages
Sites που επιτρέπουν στους χρήστες να ανεβάζουν τις δικές τους καταχωρήσεις, όπως για παράδειγμα τα Yellow Pages ή το Ebay, μπορεί να οδηγήσει στη δημιουργία τρομακτικού αριθμού από νέα URLs με εκατομμύρια σελίδες.