Εισαγωγή
Το Πρωτόκολλο Αποκλεισμού Ρομπότ (REP) είναι ένα αρχείο Webmaster που χρησιμοποιείται για την καθοδήγηση των ρομπότ. Οι οδηγίες βοηθούν τα ρομπότ να ανιχνεύσουν ιστοσελίδες και να τις ευρετηριάσουν για διάφορους ιστότοπους. Αυτό το REP αναφέρεται μερικές φορές ως Robots.txt. Τοποθετούνται στο κορυφαίο επίπεδο του καταλόγου του διακομιστή ιστού για να είναι πιο χρήσιμα. Για παράδειγμα: https://www.123abc.com/robots.txt
Οι ομάδες REP χρησιμοποιούνται ως πρότυπο ιστού που ρυθμίζει τις ενέργειες των ρομπότ και τη συμπεριφορά ευρετηρίασης των μηχανών αναζήτησης. Μεταξύ 1994 και 1997, το αρχικό REP καθόρισε τη συμπεριφορά των bot για το robots.txt. Το 1996, οι μηχανές αναζήτησης υποστήριξαν πρόσθετες ετικέτες REP X-robot. Οι μηχανές αναζήτησης χειρίζονταν τους συνδέσμους όπου η τιμή περιείχε ένα "follow" χρησιμοποιώντας μια μικρομορφή rel-no follow.
Φύλλο εξαπατήσεων ρομπότ
Για να αποκλείσετε εντελώς τους web crawlers
Πράκτορας χρήστη: * Disallow: /
Για να αποκλείσετε συγκεκριμένους web crawlers από έναν φάκελο-στόχο
Πράκτορας χρήστη: Googlebot Disallow: /no-google/
Για να αποκλείσετε συγκεκριμένους web crawlers από μια ιστοσελίδα-στόχο
Πράκτορας χρήστη: Googlebot Disallow: /no-google/blocked-page.html User-agent: * Disallow:
Sitemap: https://www.123abc.com/none-standard-location/sitemap.xml
Αποκλεισμός Ειδικές ετικέτες πρωτοκόλλου ρομπότ
URI, οι ετικέτες REP εφαρμόζονται σε ορισμένες εργασίες ευρετηριασμού και, σε ορισμένες περιπτώσεις, στις μηχανές nosnippet, noarchive και noodpquery ή σε ένα ερώτημα αναζήτησης. Οι πόροι που έχουν επισημανθεί με ετικέτες αποκλεισμού, οι μηχανές αναζήτησης, όπως οι λίστες SERP της Bing, εμφανίζουν αυτούς τους εξωτερικούς συνδέσμους ως απαγορευμένες διευθύνσεις URL. Εκτός από τις οδηγίες των ανιχνευτών, συγκεκριμένες μηχανές αναζήτησης ερμηνεύουν διαφορετικά τις ετικέτες REP. Ένα παράδειγμα αυτού μπορεί να φανεί στο πώς η Bing θα εμφανίζει μερικές φορές τις εξωτερικές παραπομπές στις δικές της SERPs ως απαγορευμένες. Η Google παίρνει τις ίδιες καταχωρίσεις και σβήνει τις αναφορές URL και ODP στα SERPs της. Η σκέψη είναι ότι τα X-Robots θα παρακάμπτουν τις οδηγίες που έρχονται σε σύγκρουση με τα στοιχεία META.
Microformats
Ειδικοί παράγοντες HTML θα υπερισχύουν των ρυθμίσεων σελίδας στις οδηγίες μικρο-διαμορφωμένου ευρετηρίου. Αυτή η μέθοδος προγραμματισμού απαιτεί δεξιότητες και πολύ καλή γνώση των διακομιστών ιστού και του πρωτοκόλλου HTTP. Ένα παράδειγμα αυτού του πρωτοκόλλου θα ήταν μια σελίδα με ετικέτες X-Robot με ένα συγκεκριμένο σύνδεσμο στοιχείου που λένε follow και στη συνέχεια rel-nofollow. Οι δείκτες Robots.txt συνήθως στερούνται οδηγιών, αλλά είναι δυνατόν να οριστούν ομαδικοί δείκτες URIs που έχουν ένα διακομιστή με πλευρικά σενάρια σε επίπεδο ιστότοπου.
Αντιστοίχιση μοτίβων
Οι διαχειριστές ιστοτόπων μπορούν ακόμα να χρησιμοποιούν δύο ξεχωριστές εκφράσεις για να δηλώσουν τον αποκλεισμό σελίδας. Οι δύο χαρακτήρες είναι ο αστερίσκος και το σύμβολο του δολαρίου. Ο αστερίσκος δηλώνει ότι μπορεί να αντιπροσωπεύει οποιονδήποτε συνδυασμό χαρακτήρων. Το σύμβολο του δολαρίου υποδηλώνει το τέλος της διεύθυνσης URL.
Απεριόριστες πληροφορίες
Τα αρχεία ρομπότ είναι πάντα δημόσια, επομένως είναι σημαντικό να γνωρίζετε ότι οποιοσδήποτε μπορεί να δει ένα αρχείο ρομπότ που επισυνάπτεται σε μια ιστοσελίδα. Είναι επίσης προσβάσιμες οι πληροφορίες από όπου ο Webmaster μπλοκάρει τις μηχανές στον διακομιστή. Αυτά τα δημόσια αρχεία αφήνουν πρόσβαση σε ιδιωτικά δεδομένα χρηστών που θα μπορούσαν να περιλαμβάνουν ιδιωτικά ατομικά δεδομένα. Είναι δυνατή η προσθήκη προστασίας με κωδικό πρόσβασης για να μην μπορούν οι επισκέπτες και άλλοι να βλέπουν απόρρητες σελίδες που δεν πρέπει να ευρετηριάζονται.
Πρόσθετοι κανόνες
- Οι απλές παράμετροι meta robot, όπως η εντολή index και η εντολή follow, πρέπει να χρησιμοποιούνται μόνο για την αποτροπή της ευρετηρίασης και της ανίχνευσης της σελίδας.
- Τα επικίνδυνα bots σίγουρα θα αγνοήσουν αυτές τις εντολές και ως εκ τούτου αποτελούν ένα άχρηστο σχέδιο ασφαλείας.
- Σε κάθε διεύθυνση URL επιτρέπεται μόνο μία γραμμή "disallow".
- Απαιτούνται ξεχωριστά αρχεία robots σε κάθε υποτομέα
- Τα ονόματα αρχείων για τα bots είναι ευαίσθητα στην πεζότητα
- Τα διαστήματα δεν διαχωρίζουν τις παραμέτρους αναζήτησης
Κορυφαίες τακτικές SEO: txt
Αποκλεισμός σελίδας - υπάρχουν διάφοροι τρόποι για να αποτρέψετε μια μηχανή αναζήτησης από την ευρετηρίαση και την πρόσβαση σε μια ι στοσελίδα ή έναν τομέα.
Χρήση ρομπότ για να αποκλείσετε σελίδες
Αυτός ο αποκλεισμός λέει στη μηχανή αναζήτησης να μην ανιχνεύσει τη σελίδα, αλλά μπορεί ακόμα να την ευρετηριάσει για να την εμφανίσει στις λίστες SERP.
Δεν υπάρχει μπλοκάρισμα σελίδας ευρετηρίου
Αυτή η μέθοδος αποκλεισμού λέει στις μηχανές αναζήτησης ότι επιτρέπεται να επισκεφθούν τη σελίδα, αλλά δεν επιτρέπεται να εμφανίσουν τη διεύθυνση URL ή να αποθηκεύσουν τη σελίδα για το ευρετήριό τους. Αυτή είναι η προτιμώμενη μέθοδος αποκλεισμού.
Δεν υπάρχει ακόλουθος σύνδεσμος για να μπλοκάρετε σελίδες
Αυτή δεν είναι μια υποστηριζόμενη τακτική. Οι μηχανές αναζήτησης εξακολουθούν να έχουν πρόσβαση σε σελίδες με αυτή την εντολή. Ακόμη και αν η μηχανή αναζήτησης δεν μπορεί να ακολουθήσει απευθείας τη σελίδα, μπορεί να έχει πρόσβαση στο περιεχόμενο χρησιμοποιώντας τα αναλυτικά στοιχεία του προγράμματος περιήγησης ή άλλες συνδεδεμένες σελίδες.
Meta Robots vs. Robots.txt
Ένα παράδειγμα του αρχείου robots.txt ενός ιστότοπου μπορεί να βοηθήσει στην αποσαφήνιση της διαδικασίας του προγράμματος. Στο παράδειγμα το αρχείο ρομπότ μπλοκάρει τον κατάλογο. Όταν γίνεται αναζήτηση της συγκεκριμένης διεύθυνσης URL στο Google, φαίνεται ότι 2760 σελίδες έχουν αποκλειστεί από τον κατάλογο. Στο παράδειγμα, η μηχανή δεν έχει ανιχνεύσει τις διευθύνσεις URL, οπότε δεν θα εμφανίζονται όπως οι παραδοσιακές καταχωρίσεις. Αυτές οι σελίδες θα συσσωρεύσουν link juice μόλις συνδεθούν με συνδέσμους σε αυτές. Εκτός από τη δύναμη κατάταξής τους, θα αρχίσουν επίσης να αποκτούν δημοτικότητα και εμπιστοσύνη από την εμφάνισή τους στις αναζητήσεις. Δεδομένου ότι οι σελίδες δεν μπορούν να είναι επωφελείς για τον ιστότοπο επειδή δεν ανιχνεύονται. Ο καλύτερος τρόπος για να διορθώσετε αυτό το πρόβλημα και να μην έχετε σπαταλημένη δύναμη κατάταξης σε μια σελίδα, είναι συνετό να χρησιμοποιήσετε μια άλλη μέθοδο αποκλεισμού για να αφαιρέσετε τις μεμονωμένες σελίδες. Η κωδικοποίηση θα εμφανιζόταν ως: meta tag αυτή η μέθοδος θα παρουσίαζε καλύτερη απόδοση από την προηγούμενη μέθοδο.