Τι σημαίνει το robots txt; Πώς να επεξεργαστείτε το αρχείο txt του robots. Απαγόρευση: Απαγόρευση δημιουργίας ευρετηρίου

02.07.2020

Ένα από τα στάδια της βελτιστοποίησης ενός ιστότοπου για τις μηχανές αναζήτησης είναι η σύνταξη ενός αρχείου robots.txt. Χρησιμοποιώντας αυτό το αρχείο, μπορείτε να αποτρέψετε ορισμένα ή όλα τα ρομπότ αναζήτησης από το να ευρετηριάσουν τον ιστότοπό σας ή ορισμένα μέρη του που δεν προορίζονται για ευρετηρίαση. Συγκεκριμένα, μπορείτε να αποτρέψετε την ευρετηρίαση διπλού περιεχομένου, όπως εκτυπώσιμες εκδόσεις σελίδων.

Πριν ξεκινήσετε την ευρετηρίαση, τα ρομπότ αναζήτησης αναφέρονται πάντα στο αρχείο robots.txt στον ριζικό κατάλογο του ιστότοπού σας, για παράδειγμα, http://site.ru/robots.txt, για να γνωρίζετε ποιες ενότητες του ιστότοπου απαγορεύεται το ρομπότ από την ευρετηρίαση. Αλλά ακόμα κι αν δεν πρόκειται να απαγορεύσετε τίποτα, συνιστάται να δημιουργήσετε αυτό το αρχείο.

Όπως μπορείτε να δείτε από την επέκταση robots.txt, αυτό είναι ένα αρχείο κειμένου. Για να δημιουργήσετε ή να επεξεργαστείτε αυτό το αρχείο, είναι προτιμότερο να χρησιμοποιήσετε τους απλούστερους επεξεργαστές κειμένου όπως το Σημειωματάριο. Το robots.txt πρέπει να τοποθετηθεί στον ριζικό κατάλογο του ιστότοπου και να έχει τη δική του μορφή, την οποία θα συζητήσουμε παρακάτω.

Μορφή αρχείου Robots.txt

Το αρχείο robots.txt πρέπει να περιέχει τουλάχιστον δύο απαιτούμενες καταχωρήσεις. Η πρώτη είναι η οδηγία χρήστη-πράκτορα που υποδεικνύει ποιο ρομπότ αναζήτησης πρέπει να ακολουθεί τις επόμενες οδηγίες. Η τιμή μπορεί να είναι το όνομα του ρομπότ (googlebot, Yandex, StackRambler) ή το σύμβολο * εάν έχετε πρόσβαση σε όλα τα ρομπότ ταυτόχρονα. Για παράδειγμα:

Χρήστης-πράκτορας: googlebot

Μπορείτε να βρείτε το όνομα του ρομπότ στην ιστοσελίδα της αντίστοιχης μηχανής αναζήτησης. Στη συνέχεια θα πρέπει να υπάρχουν μία ή περισσότερες οδηγίες Απαγόρευσης. Αυτές οι οδηγίες λένε στο ρομπότ ποια αρχεία και φακέλους δεν επιτρέπεται να ευρετηριαστούν. Για παράδειγμα, οι ακόλουθες γραμμές εμποδίζουν τα ρομπότ να δημιουργήσουν ευρετήριο στο αρχείο feedback.php και στον κατάλογο cgi-bin:

Disallow: /feedback.php Απαγόρευση: /cgi-bin/

Μπορείτε επίσης να χρησιμοποιήσετε μόνο τους αρχικούς χαρακτήρες αρχείων ή φακέλων. Η γραμμή Disallow: /forum απαγορεύει την ευρετηρίαση όλων των αρχείων και των φακέλων στη ρίζα του ιστότοπου του οποίου το όνομα αρχίζει με φόρουμ, για παράδειγμα, το αρχείο http://site.ru/forum.php και το φάκελο http://site. ru/forum/ με όλο το περιεχόμενό του. Εάν το Disallow είναι κενό, αυτό σημαίνει ότι το ρομπότ μπορεί να ευρετηριάσει όλες τις σελίδες. Εάν η τιμή Απαγόρευση είναι το σύμβολο /, σημαίνει ότι απαγορεύεται η ευρετηρίαση ολόκληρου του ιστότοπου.

Για κάθε πεδίο User-agent πρέπει να υπάρχει τουλάχιστον ένα πεδίο Απαγόρευσης. Δηλαδή, εάν δεν πρόκειται να απαγορεύσετε τίποτα για δημιουργία ευρετηρίου, τότε το αρχείο robots.txt θα πρέπει να περιέχει τις ακόλουθες καταχωρήσεις:

Πράκτορας χρήστη: * Απαγόρευση:

Πρόσθετες Οδηγίες

Εκτός από τις τυπικές εκφράσεις, το Yandex και η Google επιτρέπουν τη χρήση της οδηγίας Allow, η οποία είναι αντίθετη από την Disallow, δηλαδή υποδεικνύει ποιες σελίδες μπορούν να ευρετηριαστούν. Στο παρακάτω παράδειγμα, η Yandex απαγορεύεται να ευρετηριάζει τα πάντα εκτός από τις διευθύνσεις σελίδων που ξεκινούν με /articles:

Πράκτορας χρήστη: Yandex Allow: /articles Disallow: /

Σε αυτό το παράδειγμα, η οδηγία Allow πρέπει να γραφτεί πριν από την Disallow, διαφορετικά η Yandex θα το καταλάβει ως πλήρη απαγόρευση δημιουργίας ευρετηρίου του ιστότοπου. Μια κενή οδηγία Allow απενεργοποιεί επίσης εντελώς την ευρετηρίαση ιστότοπων:

Πράκτορας χρήστη: Yandex Allow:

ισοδύναμος

Πράκτορας χρήστη: Yandex Disallow: /

Οι μη τυπικές οδηγίες πρέπει να προσδιορίζονται μόνο για τις μηχανές αναζήτησης που τις υποστηρίζουν. Διαφορετικά, ένα ρομπότ που δεν κατανοεί αυτήν την καταχώρηση ενδέχεται να την επεξεργαστεί εσφαλμένα ή ολόκληρο το αρχείο robots.txt. Περισσότερες πληροφορίες σχετικά με πρόσθετες οδηγίες και, γενικά, σχετικά με την κατανόηση των εντολών στο αρχείο robots.txt από ένα μεμονωμένο ρομπότ μπορείτε να βρείτε στον ιστότοπο της αντίστοιχης μηχανής αναζήτησης.

Κανονικές εκφράσεις στο robots.txt

Οι περισσότερες μηχανές αναζήτησης λαμβάνουν υπόψη μόνο ρητά καθορισμένα ονόματα αρχείων και φακέλων, αλλά υπάρχουν και πιο προηγμένες μηχανές αναζήτησης. Το Google Robot και το Yandex Robot υποστηρίζουν τη χρήση απλών κανονικών εκφράσεων στο robots.txt, γεγονός που μειώνει σημαντικά τον όγκο εργασίας για τους webmasters. Για παράδειγμα, οι ακόλουθες εντολές εμποδίζουν το Googlebot να ευρετηριάσει όλα τα αρχεία με επέκταση .pdf:

Χρήστης-πράκτορας: googlebot Απαγόρευση: *.pdf$

Στο παραπάνω παράδειγμα, το * είναι οποιαδήποτε ακολουθία χαρακτήρων και το $ υποδηλώνει το τέλος του συνδέσμου.

Πράκτορας χρήστη: Yandex Allow: /articles/*.html$ Disallow: /

Οι παραπάνω οδηγίες επιτρέπουν στο Yandex να ευρετηριάζει μόνο αρχεία με την επέκταση ".html" που βρίσκεται στο φάκελο /articles/. Όλα τα άλλα απαγορεύονται για ευρετηρίαση.

Χάρτης τοποθεσίας

Μπορείτε να καθορίσετε τη θέση του χάρτη ιστοτόπου XML στο αρχείο robots.txt:

Χρήστης-πράκτορας: googlebot Απαγόρευση: Χάρτης ιστότοπου: http://site.ru/sitemap.xml

Εάν έχετε πολύ μεγάλο αριθμό σελίδων στον ιστότοπό σας και έπρεπε να χωρίσετε τον χάρτη ιστότοπου σε μέρη, τότε πρέπει να υποδείξετε όλα τα μέρη του χάρτη στο αρχείο robots.txt:

Πράκτορας χρήστη: Yandex Disallow: Χάρτης ιστότοπου: http://mysite.ru/my_sitemaps1.xml Χάρτης ιστότοπου: http://mysite.ru/my_sitemaps2.xml

Καθρέφτες τοποθεσίας

Όπως γνωρίζετε, συνήθως ο ίδιος ιστότοπος είναι προσβάσιμος σε δύο διευθύνσεις: τόσο με www όσο και χωρίς αυτό. Για ένα ρομπότ αναζήτησης, το site.ru και το www.site.ru είναι διαφορετικοί ιστότοποι, αλλά με το ίδιο περιεχόμενο. Λέγονται καθρέφτες.

Λόγω του γεγονότος ότι υπάρχουν σύνδεσμοι προς τις σελίδες του ιστότοπου τόσο με όσο και χωρίς www, το βάρος των σελίδων μπορεί να διαιρεθεί μεταξύ www.site.ru και site.ru. Για να μην συμβεί αυτό, η μηχανή αναζήτησης πρέπει να υποδείξει τον κύριο καθρέφτη του ιστότοπου. Ως αποτέλεσμα της «κόλλησης», όλο το βάρος θα ανήκει σε έναν κύριο καθρέφτη και ο ιστότοπος θα μπορεί να πάρει υψηλότερη θέση στα αποτελέσματα αναζήτησης.

Μπορείτε να καθορίσετε τον κύριο καθρέφτη για το Yandex απευθείας στο αρχείο robots.txt χρησιμοποιώντας την οδηγία Host:

Πράκτορας χρήστη: Yandex Disallow: /feedback.php Disallow: /cgi-bin/ Κεντρικός υπολογιστής: www.site.ru

Μετά την κόλληση, ο καθρέφτης www.site.ru θα κατέχει όλο το βάρος και θα καταλαμβάνει υψηλότερη θέση στα αποτελέσματα αναζήτησης. Και η μηχανή αναζήτησης δεν θα ευρετηριάσει καθόλου το site.ru.

Για άλλες μηχανές αναζήτησης, η επιλογή του κύριου καθρέφτη είναι μια μόνιμη ανακατεύθυνση από την πλευρά του διακομιστή (κωδικός 301) από πρόσθετους καθρέφτες στον κύριο. Αυτό γίνεται χρησιμοποιώντας το αρχείο .htaccess και τη λειτουργική μονάδα mod_rewrite. Για να το κάνετε αυτό, βάλτε το αρχείο .htaccess στη ρίζα του ιστότοπου και γράψτε εκεί τα εξής:

RewriteEngine On Options +FollowSymlinks RewriteBase / RewriteCond %(HTTP_HOST) ^site.ru$ RewriteRule ^(.*)$ http://www.site.ru/$1

Ως αποτέλεσμα, όλα τα αιτήματα από το site.ru θα μεταβούν στο www.site.ru, δηλαδή, το site.ru/page1.php θα ανακατευθυνθεί στο www.site.ru/page1.php.

Η μέθοδος ανακατεύθυνσης θα λειτουργήσει για όλες τις μηχανές αναζήτησης και τα προγράμματα περιήγησης, αλλά εξακολουθεί να συνιστάται η προσθήκη της οδηγίας Host στο αρχείο robots.txt για το Yandex.

Σχόλια στο robots.txt

Μπορείτε επίσης να προσθέσετε σχόλια στο αρχείο robots.txt - ξεκινούν με το σύμβολο # και τελειώνουν με μια νέα γραμμή. Συνιστάται να γράφετε σχόλια σε ξεχωριστή γραμμή ή καλύτερα να μην τα χρησιμοποιείτε καθόλου.

Ένα παράδειγμα χρήσης σχολίων:

User-agent: StackRambler Disallow: /garbage/ # δεν υπάρχει τίποτα χρήσιμο σε αυτόν τον φάκελο Disallow: /doc.xhtml # και σε αυτήν τη σελίδα επίσης # και όλα τα σχόλια σε αυτό το αρχείο είναι επίσης άχρηστα

Παραδείγματα αρχείων robots.txt

1. Να επιτρέπεται σε όλα τα ρομπότ να ευρετηριάζουν όλα τα έγγραφα του ιστότοπου:

Πράκτορας χρήστη: * Απαγόρευση:
Πράκτορας χρήστη: * Απαγόρευση: /

3. Απαγορεύουμε στο ρομπότ αναζήτησης Google να ευρετηριάζει το αρχείο feedback.php και τα περιεχόμενα του καταλόγου cgi-bin:

User-agent: googlebot Disallow: /cgi-bin/ Disallow: /feedback.php

4. Επιτρέπουμε σε όλα τα ρομπότ να ευρετηριάζουν ολόκληρο τον ιστότοπο και απαγορεύουμε στο ρομπότ της μηχανής αναζήτησης Yandex να ευρετηριάζει το αρχείο feedback.php και τα περιεχόμενα του καταλόγου cgi-bin:

Πράκτορας χρήστη: Yandex Disallow: /cgi-bin/ Disallow: /feedback.php Κεντρικός υπολογιστής: www.site.ru User-agent: * Disallow:

5. Επιτρέπουμε σε όλα τα ρομπότ να ευρετηριάζουν ολόκληρο τον ιστότοπο και επιτρέπουμε στο ρομπότ Yandex να ευρετηριάζει μόνο το τμήμα του ιστότοπου που προορίζεται για αυτόν:

Πράκτορας χρήστη: Yandex Allow: /yandex Disallow: / Κεντρικός υπολογιστής: www.site.ru Πράκτορας χρήστη: * Disallow:

Οι κενές γραμμές χωρίζουν περιορισμούς για διαφορετικά ρομπότ. Κάθε μπλοκ περιορισμών πρέπει να ξεκινά με μια γραμμή με το πεδίο User-Agent, υποδεικνύοντας το ρομπότ στο οποίο ισχύουν αυτοί οι κανόνες ευρετηρίασης τοποθεσιών.

Συνήθη λάθη

Είναι σημαντικό να ληφθεί υπόψη ότι μια κενή γραμμή στο αρχείο robots.txt είναι διαχωριστικό μεταξύ δύο καταχωρήσεων για διαφορετικά ρομπότ. Επίσης, δεν μπορείτε να καθορίσετε πολλές οδηγίες σε μία γραμμή. Όταν εμποδίζουν την ευρετηρίαση ενός αρχείου, οι webmasters συχνά παραλείπουν το / πριν από το όνομα του αρχείου.

Δεν χρειάζεται να ορίσετε στο robots.txt μια απαγόρευση δημιουργίας ευρετηρίου του ιστότοπου για διάφορα προγράμματα που έχουν σχεδιαστεί για πλήρη λήψη του ιστότοπου, για παράδειγμα, TeleportPro. Ούτε προγράμματα λήψης ούτε προγράμματα περιήγησης κοιτάζουν ποτέ αυτό το αρχείο και δεν εκτελούν τις οδηγίες που είναι γραμμένες εκεί. Προορίζεται αποκλειστικά για μηχανές αναζήτησης. Επίσης, δεν πρέπει να αποκλείσετε τον πίνακα διαχείρισης του ιστότοπού σας στο robots.txt, γιατί αν δεν υπάρχει πουθενά σύνδεσμος προς αυτόν, τότε δεν θα ευρετηριαστεί. Απλώς θα αποκαλύψετε τη θέση της περιοχής διαχείρισης σε άτομα που δεν θα έπρεπε να το γνωρίζουν. Αξίζει επίσης να θυμάστε ότι το robots.txt που είναι πολύ μεγάλο μπορεί να αγνοηθεί από τη μηχανή αναζήτησης. Εάν έχετε πάρα πολλές σελίδες που δεν προορίζονται για δημιουργία ευρετηρίου, τότε είναι προτιμότερο να τις αφαιρέσετε απλώς από τον ιστότοπο ή να τις μετακινήσετε σε ξεχωριστό κατάλογο και να αποτρέψετε τη δημιουργία ευρετηρίου αυτού του καταλόγου.

Έλεγχος του αρχείου robots.txt για σφάλματα

Φροντίστε να ελέγξετε πώς κατανοούν οι μηχανές αναζήτησης το αρχείο ρομπότ σας. Για να ελέγξετε το Google, μπορείτε να χρησιμοποιήσετε τα Εργαλεία για Webmasters Google. Εάν θέλετε να μάθετε πώς γίνεται κατανοητό το αρχείο robots.txt από το Yandex, μπορείτε να χρησιμοποιήσετε την υπηρεσία Yandex.Webmaster. Αυτό θα σας επιτρέψει να διορθώσετε τυχόν λάθη εγκαίρως. Επίσης, στις σελίδες αυτών των υπηρεσιών μπορείτε να βρείτε συστάσεις για τη δημιουργία ενός αρχείου robots.txt και πολλές άλλες χρήσιμες πληροφορίες.

Απαγορεύεται η αντιγραφή του άρθρου.

Αυτό το άρθρο περιέχει ένα παράδειγμα του βέλτιστου, κατά τη γνώμη μου, κώδικα για το αρχείο robots.txt για WordPress, τον οποίο μπορείτε να χρησιμοποιήσετε στους ιστότοπούς σας.

Για αρχή, ας θυμηθούμε γιατί χρειάζεστε το robots.txt- το αρχείο robots.txt χρειάζεται αποκλειστικά για τα ρομπότ αναζήτησης να τους «λένε» ποιες ενότητες/σελίδες του ιστότοπου να επισκεφτούν και ποιες δεν πρέπει να επισκεφτούν. Οι σελίδες που έχουν κλείσει από επίσκεψη δεν θα περιλαμβάνονται στο ευρετήριο της μηχανής αναζήτησης (Yandex, Google, κ.λπ.).

Επιλογή 1: Βέλτιστος κώδικας robots.txt για WordPress

User-agent: * Disallow: /cgi-bin # classic... Disallow: /? # όλες οι παράμετροι ερωτήματος στην κύρια σελίδα Απαγόρευση: /wp- # όλα τα αρχεία WP: /wp-json/, /wp-includes, /wp-content/plugins Απαγόρευση: *?s= # αναζήτηση Απαγόρευση: *&s= # αναζήτηση Disallow: /search # search Απαγόρευση: /author/ # αρχείο συγγραφέα Απαγόρευση: */embed # all embeddings Disallow: */page/ # όλοι οι τύποι σελιδοποίησης Επιτρέπονται: */uploads # open uploads Allow: /*/*.js # εντός /wp - (/*/ - για προτεραιότητα) Να επιτρέπεται: /*/*.css # inside /wp- (/*/ - για προτεραιότητα) Να επιτρέπεται: /wp-*.png # εικόνες σε προσθήκες, φάκελος προσωρινής μνήμης κ.λπ. . Να επιτρέπονται: /wp-*.jpg # εικόνες σε προσθήκες, φάκελο προσωρινής μνήμης κ.λπ. Να επιτρέπονται: /wp-*.jpeg # εικόνες σε προσθήκες, φάκελο προσωρινής μνήμης κ.λπ. Να επιτρέπονται: /wp-*.gif # εικόνες σε πρόσθετα, φάκελο προσωρινής μνήμης κ.λπ. Να επιτρέπονται: /wp-*.svg # εικόνες σε προσθήκες, φάκελο προσωρινής μνήμης κ.λπ. Να επιτρέπονται: /wp-*.pdf # αρχεία σε προσθήκες, φάκελο προσωρινής μνήμης κ.λπ. Να επιτρέπεται: /wp-admin/admin-ajax.php #Disallow: /wp/ # όταν το WP είναι εγκατεστημένο στον υποκατάλογο wp Χάρτης ιστότοπου: http://example.com/sitemap.xml Χάρτης ιστότοπου: http://example.com/ sitemap2.

Ανάλυση κώδικα:

Στη γραμμή User-agent: * υποδεικνύουμε ότι όλοι οι παρακάτω κανόνες θα λειτουργούν για όλα τα ρομπότ αναζήτησης *. Εάν χρειάζεστε αυτούς τους κανόνες για να λειτουργούν μόνο για ένα συγκεκριμένο ρομπότ, τότε αντί για * υποδεικνύουμε το όνομα του ρομπότ (User-agent: Yandex, User-agent: Googlebot).

Στη γραμμή Allow: */uploads, επιτρέπουμε σκόπιμα την ευρετηρίαση σελίδων που περιέχουν /uploads. Αυτός ο κανόνας είναι υποχρεωτικός, γιατί παραπάνω, απαγορεύουμε την ευρετηρίαση σελίδων που ξεκινούν με /wp- και /wp-συμπεριλαμβανεται σε /wp-content/uploads. Επομένως, για να παρακάμψετε τον κανόνα Disallow: /wp-, χρειάζεστε τη γραμμή Allow: */uploads , γιατί για συνδέσμους όπως /wp-content/uploads/...Ενδέχεται να έχουμε εικόνες που πρέπει να ευρετηριαστούν και μπορεί επίσης να υπάρχουν κάποια ληφθέντα αρχεία που δεν χρειάζεται να κρύψουμε. Να επιτρέπεται: μπορεί να είναι "πριν" ή "μετά" Απαγόρευση: .

Οι υπόλοιπες γραμμές απαγορεύουν στα ρομπότ να «ακολουθούν» συνδέσμους που ξεκινούν με:

Disallow: /cgi-bin - κλείνει τον κατάλογο σεναρίων στο διακομιστή
Disallow: /feed - κλείνει τη ροή RSS του ιστολογίου
Disallow: /trackback - κλείνει τις ειδοποιήσεις
Disallow: ?s= ή Disallow: *?s= - κλείνει τις σελίδες αναζήτησης
Disallow: */page/ - κλείνει όλους τους τύπους σελιδοποίησης

Ο κανόνας του χάρτη ιστότοπου: http://example.com/sitemap.xml οδηγεί το ρομπότ σε ένα αρχείο με χάρτη ιστότοπου σε μορφή XML. Εάν έχετε ένα τέτοιο αρχείο στον ιστότοπό σας, τότε γράψτε την πλήρη διαδρομή προς αυτό. Μπορεί να υπάρχουν πολλά τέτοια αρχεία, τότε υποδεικνύουμε τη διαδρομή προς το καθένα ξεχωριστά.

Στη γραμμή Host: site.ru υποδεικνύουμε τον κύριο καθρέφτη του ιστότοπου. Εάν ένας ιστότοπος έχει καθρέφτες (αντίγραφα του ιστότοπου σε άλλους τομείς), τότε για να τα ευρετηριάσει όλα εξίσου το Yandex, πρέπει να καθορίσετε τον κύριο καθρέφτη. Οδηγία κεντρικού υπολογιστή: μόνο η Yandex καταλαβαίνει, η Google δεν καταλαβαίνει! Εάν ο ιστότοπος λειτουργεί σύμφωνα με το πρωτόκολλο https, τότε πρέπει να καθοριστεί στο Host: Host: http://example.com

Από την τεκμηρίωση του Yandex: "Ο κεντρικός υπολογιστής είναι μια ανεξάρτητη οδηγία και λειτουργεί οπουδήποτε στο αρχείο (διατομή)." Επομένως, το βάζουμε στην κορυφή ή στο τέλος του αρχείου, μέσα από μια κενή γραμμή.

Επειδή απαιτείται η παρουσία ανοιχτών ροών, για παράδειγμα, για το Yandex Zen, όταν πρέπει να συνδέσετε έναν ιστότοπο σε ένα κανάλι (χάρη στον σχολιαστή "Digital"). Ίσως χρειάζονται ανοιχτές τροφοδοσίες αλλού.

Ταυτόχρονα, οι ροές έχουν τη δική τους μορφή στις κεφαλίδες απόκρισης, χάρη στην οποία οι μηχανές αναζήτησης κατανοούν ότι αυτή δεν είναι μια σελίδα HTML, αλλά μια τροφοδοσία και, προφανώς, την επεξεργάζονται κάπως διαφορετικά.

Η οδηγία Host δεν χρειάζεται πλέον για το Yandex

Η Yandex εγκαταλείπει εντελώς την οδηγία Host και την έχει αντικαταστήσει με μια ανακατεύθυνση 301. Ο κεντρικός υπολογιστής μπορεί να αφαιρεθεί με ασφάλεια από το robots.txt. Ωστόσο, είναι σημαντικό όλοι οι καθρέφτες ιστότοπου να έχουν ανακατεύθυνση 301 στον κύριο ιστότοπο (κύριος καθρέφτης).

Αυτό είναι σημαντικό: κανόνες ταξινόμησης πριν από την επεξεργασία

Η Yandex και η Google επεξεργάζονται τις οδηγίες Αποδοχή και Απαγόρευση όχι με τη σειρά με την οποία καθορίζονται, αλλά πρώτα τις ταξινομούν από σύντομο κανόνα σε μεγάλο και στη συνέχεια επεξεργάζονται τον τελευταίο κανόνα αντιστοίχισης:

User-agent: * Allow: */uploads Disallow: /wp-

θα διαβαστεί ως εξής:

User-agent: * Disallow: /wp- Allow: */uploads

Για να κατανοήσετε γρήγορα και να εφαρμόσετε τη δυνατότητα ταξινόμησης, θυμηθείτε αυτόν τον κανόνα: «όσο μεγαλύτερος είναι ο κανόνας στο robots.txt, τόσο μεγαλύτερη προτεραιότητα έχει. Εάν το μήκος των κανόνων είναι το ίδιο, τότε δίνεται προτεραιότητα στην οδηγία Allow».

Επιλογή 2: Τυπικό robots.txt για WordPress

Δεν ξέρω γιατί, αλλά είμαι υπέρ της πρώτης επιλογής! Επειδή είναι πιο λογικό - δεν χρειάζεται να αντιγράψετε εντελώς την ενότητα για να υποδείξετε την οδηγία Host για το Yandex, η οποία είναι διατομεακή (καταλαβαίνεται από το ρομπότ οπουδήποτε στο πρότυπο, χωρίς να υποδεικνύει σε ποιο ρομπότ αναφέρεται). Όσον αφορά την μη τυπική οδηγία Allow, λειτουργεί για Yandex και Google και εάν δεν ανοίξει το φάκελο μεταφορτώσεων για άλλα ρομπότ που δεν την καταλαβαίνουν, τότε στο 99% των περιπτώσεων αυτό δεν συνεπάγεται τίποτα επικίνδυνο. Δεν έχω παρατηρήσει ακόμη ότι τα πρώτα ρομπότ δεν λειτουργούν όπως θα έπρεπε.

Ο παραπάνω κωδικός είναι λίγο λανθασμένος. Ευχαριστώ τον σχολιαστή " " για την επισήμανση της ανακρίβειας, αν και έπρεπε να καταλάβω τι ήταν ο ίδιος. Και αυτό είναι που κατέληξα (μπορεί να κάνω λάθος):

Ορισμένα ρομπότ (όχι το Yandex και η Google) δεν κατανοούν περισσότερες από 2 οδηγίες: User-agent: και Disallow:

Η οδηγία Yandex Host: πρέπει να χρησιμοποιείται μετά το Disallow:, επειδή ορισμένα ρομπότ (όχι το Yandex και η Google) ενδέχεται να μην την κατανοούν και γενικά να απορρίπτουν το robots.txt. Η ίδια η Yandex, κρίνοντας από την τεκμηρίωση, δεν ενδιαφέρεται καθόλου πού και πώς να χρησιμοποιήσετε το Host:, ακόμα κι αν γενικά δημιουργείτε το robots.txt με μία μόνο γραμμή Host: www.site.ru για να κολλήσετε όλους τους καθρέφτες του ιστότοπου μαζί.

3. Χάρτης ιστότοπου: μια διατομεακή οδηγία για το Yandex και την Google και προφανώς και για πολλά άλλα ρομπότ, οπότε το γράφουμε στο τέλος με μια κενή γραμμή και θα λειτουργήσει για όλα τα ρομπότ ταυτόχρονα.

Με βάση αυτές τις τροπολογίες, ο σωστός κωδικός θα πρέπει να μοιάζει με αυτό:

Πράκτορας χρήστη: Yandex Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: /cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Host: site.ru User-agent: * Disallow: /wp-admin Disallow : /wp-includes Disallow: /wp-content/plugins Disallow: /wp-json/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: */embed Disallow: */page/ Disallow: / cgi-bin Disallow: *?s= Allow: /wp-admin/admin-ajax.php Χάρτης ιστότοπου: http://example.com/sitemap.xml

Ας το προσθέσουμε μόνοι μας

Εάν πρέπει να αποκλείσετε άλλες σελίδες ή ομάδες σελίδων, μπορείτε να προσθέσετε έναν κανόνα (οδηγία) παρακάτω Απαγορεύω:. Για παράδειγμα, πρέπει να κλείσουμε όλες τις καταχωρήσεις σε μια κατηγορία από την ευρετηρίαση Νέα, τότε πριν Χάρτης ιστότοπου:προσθέστε έναν κανόνα:

Απαγόρευση: /ειδήσεις

Εμποδίζει τα ρομπότ να ακολουθούν τέτοιους συνδέσμους:

http://example.com/news
http://example.com/news/drugoe-nazvanie/

Εάν πρέπει να κλείσετε τυχόν εμφανίσεις του /news , τότε γράψτε:

Απαγόρευση: */ειδήσεις

http://example.com/news
http://example.com/my/news/drugoe-nazvanie/
http://example.com/category/newsletter-nazvanie.html

Μπορείτε να μελετήσετε τις οδηγίες του robots.txt με περισσότερες λεπτομέρειες στη σελίδα βοήθειας του Yandex (αλλά να έχετε κατά νου ότι δεν λειτουργούν όλοι οι κανόνες που περιγράφονται εκεί για την Google).

Έλεγχος και τεκμηρίωση του Robots.txt

Μπορείτε να ελέγξετε εάν οι προβλεπόμενοι κανόνες λειτουργούν σωστά χρησιμοποιώντας τους ακόλουθους συνδέσμους:

Yandex: http://webmaster.yandex.ru/robots.xml.
Στο Google αυτό γίνεται στο Κονσόλα αναζήτησης. Χρειάζεστε εξουσιοδότηση και την παρουσία του ιστότοπου στον πίνακα webmaster...
Υπηρεσία για τη δημιουργία αρχείου robots.txt: http://pr-cy.ru/robots/
Υπηρεσία για τη δημιουργία και τον έλεγχο robots.txt: https://seolib.ru/tools/generate/robots/

Ρώτησα την Yandex...

Έκανα μια ερώτηση στην τεχνολογία. Υποστήριξη Yandex σχετικά με τη διατομεακή χρήση των οδηγιών Host και Sitemap:

Ερώτηση:

Γειά σου!
Γράφω ένα άρθρο για το robots.txt στο ιστολόγιό μου. Θα ήθελα να λάβω μια απάντηση σε αυτήν την ερώτηση (δεν βρήκα ξεκάθαρο "ναι" στην τεκμηρίωση):

Εάν πρέπει να κολλήσω όλους τους καθρέφτες και για αυτό χρησιμοποιώ την οδηγία Host στην αρχή του αρχείου robots.txt:
Κεντρικός υπολογιστής: site.ru Πράκτορας χρήστη: * Απαγόρευση: /asd
Θα λειτουργήσει σωστά το Host: site.ru σε αυτό το παράδειγμα; Θα δείξει στα ρομπότ ότι το site.ru είναι ο κύριος καθρέφτης; Εκείνοι. Χρησιμοποιώ αυτήν την οδηγία όχι σε μια ενότητα, αλλά ξεχωριστά (στην αρχή του αρχείου) χωρίς να υποδεικνύω σε ποιον χρήστη-πράκτορα αναφέρεται.

Ήθελα επίσης να μάθω εάν η οδηγία Χάρτη ιστότοπου πρέπει να χρησιμοποιείται μέσα σε μια ενότητα ή μπορεί να χρησιμοποιηθεί εκτός: για παράδειγμα, μέσω μιας κενή γραμμής, μετά από μια ενότητα;
Πράκτορας χρήστη: Yandex Disallow: /asd User-agent: * Disallow: /asd Χάρτης ιστότοπου: http://example.com/sitemap.xml
Θα κατανοήσει το ρομπότ την οδηγία για τον χάρτη ιστότοπου σε αυτό το παράδειγμα;

Ελπίζω να λάβω μια απάντηση από εσάς που θα βάλει τέλος στις αμφιβολίες μου.

Απάντηση:

Γειά σου!

Οι οδηγίες Host και Sitemap είναι διατομεακές, επομένως θα χρησιμοποιηθούν από το ρομπότ ανεξάρτητα από τη θέση στο αρχείο robots.txt όπου καθορίζονται.

--
Με εκτίμηση, Platon Shchukin
Υπηρεσία υποστήριξης Yandex

συμπέρασμα

Είναι σημαντικό να θυμάστε ότι οι αλλαγές στο robots.txt σε έναν ήδη λειτουργικό ιστότοπο θα είναι ορατές μόνο μετά από αρκετούς μήνες (2-3 μήνες).

Υπάρχουν φήμες ότι η Google μπορεί μερικές φορές να αγνοήσει τους κανόνες στο robots.txt και να εισάγει μια σελίδα στο ευρετήριο, εάν θεωρεί ότι η σελίδα είναι πολύ μοναδική και χρήσιμη και απλώς πρέπει να βρίσκεται στο ευρετήριο. Ωστόσο, άλλες φήμες διαψεύδουν αυτήν την υπόθεση από το γεγονός ότι οι άπειροι βελτιστοποιητές μπορούν να καθορίσουν εσφαλμένα τους κανόνες στο robots.txt και έτσι να κλείσουν τις απαραίτητες σελίδες από την ευρετηρίαση και να αφήσουν περιττές. Τείνω περισσότερο στη δεύτερη υπόθεση...

Dynamic robots.txt

Στο WordPress, το αίτημα για το αρχείο robots.txt επεξεργάζεται ξεχωριστά και δεν είναι καθόλου απαραίτητο να δημιουργηθεί φυσικά ένα αρχείο robots.txt στη ρίζα του ιστότοπου, επιπλέον, αυτό δεν συνιστάται, γιατί με αυτήν την προσέγγιση θα είναι πολύ δύσκολο για τα πρόσθετα να αλλάξουν αυτό το αρχείο και αυτό μερικές φορές είναι απαραίτητο.

Διαβάστε σχετικά με το πώς λειτουργεί η δυναμική δημιουργία ενός αρχείου robots.txt στην περιγραφή της λειτουργίας και παρακάτω θα δώσω ένα παράδειγμα για το πώς μπορείτε να αλλάξετε τα περιεχόμενα αυτού του αρχείου αμέσως, μέσω ενός γάντζου.

Για να το κάνετε αυτό, προσθέστε τον ακόλουθο κώδικα στο αρχείο functions.php:

Add_action("do_robotstxt", "my_robotstxt"); function my_robotstxt())( $lines = [ "User-agent: *", "Disallow: /wp-admin/", "Disallow: /wp-includes/", "", ]; echo implode("\r\ n ", $lines); die; // τερματισμός της εργασίας PHP)

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

Καθυστέρηση ανίχνευσης - timeout για τρελά ρομπότ (δεν λαμβάνεται υπόψη από το 2018)

Yandex

Έχοντας αναλύσει επιστολές τα τελευταία δύο χρόνια προς την υποστήριξή μας σχετικά με ζητήματα ευρετηρίασης, ανακαλύψαμε ότι ένας από τους κύριους λόγους για την αργή λήψη των εγγράφων είναι μια εσφαλμένα ρυθμισμένη οδηγία καθυστέρησης ανίχνευσης στο robots.txt […] Έτσι ώστε οι ιδιοκτήτες ιστότοπων να μην είναι πλέον πρέπει να ανησυχείτε για αυτό και Για να διασφαλίσουμε ότι όλες οι πραγματικά απαραίτητες σελίδες ιστότοπου εμφανίζονται και ενημερώνονται γρήγορα στην αναζήτηση, αποφασίσαμε να εγκαταλείψουμε την οδηγία για την καθυστέρηση ανίχνευσης.

Όταν το ρομπότ Yandex σαρώνει τον ιστότοπο σαν τρελό και αυτό δημιουργεί περιττό φορτίο στον διακομιστή. Μπορείτε να ζητήσετε από το ρομπότ να «επιβραδύνει».

Για να το κάνετε αυτό, πρέπει να χρησιμοποιήσετε την οδηγία Crawl-Delay. Υποδεικνύει το χρόνο σε δευτερόλεπτα που το ρομπότ πρέπει να παραμείνει σε αδράνεια (αναμονή) για να σαρώσει κάθε επόμενη σελίδα του ιστότοπου.

Για συμβατότητα με ρομπότ που δεν ακολουθούν καλά το τυπικό robots.txt, η καθυστέρηση ανίχνευσης πρέπει να καθοριστεί στην ομάδα (στην ενότητα User-Agent) αμέσως μετά το Disallow and Allow

Το Yandex Robot κατανοεί κλασματικές τιμές, για παράδειγμα, 0,5 (μισό δευτερόλεπτο). Αυτό δεν εγγυάται ότι το ρομπότ αναζήτησης θα επισκέπτεται τον ιστότοπό σας κάθε μισό δευτερόλεπτο, αλλά σας επιτρέπει να ανιχνεύσετε τον ιστότοπο πιο γρήγορα.

User-agent: Yandex Disallow: /wp-admin Disallow: /wp-includes Crawl-delay: 1,5 # timeout 1,5 seconds User-agent: * Disallow: /wp-admin Disallow: /wp-includes Allow: /wp-* . gif Καθυστέρηση ανίχνευσης: 2 # timeout 2 δευτερόλεπτα

Google

Το Googlebot δεν κατανοεί την οδηγία για την καθυστέρηση ανίχνευσης. Το χρονικό όριο για τα ρομπότ του μπορεί να καθοριστεί στον πίνακα webmaster.

Στην υπηρεσία avi1.ru μπορείτε πλέον να αγοράσετε προώθηση SMM σε περισσότερα από 7 από τα πιο δημοφιλή κοινωνικά δίκτυα. Ταυτόχρονα, δώστε προσοχή στο αρκετά χαμηλό κόστος όλων των υπηρεσιών του ιστότοπου.

Γεια σας φίλοι! Το άρθρο δείχνει τι είναι το σωστό robots txt για τον ιστότοπο όπου βρίσκεται, πώς να δημιουργήσετε ένα αρχείο robots, πώς να προσαρμόσετε ένα αρχείο robots από άλλο ιστότοπο, πώς να το ανεβάσετε στο ιστολόγιό σας.

Τι είναι ένα αρχείορομπότ κείμενο,γιατί χρειάζεται και σε τι ευθύνεται

Ένα αρχείο txt robots είναι ένα αρχείο κειμένου που περιέχει οδηγίες για ρομπότ αναζήτησης. Πριν αποκτήσει πρόσβαση στις σελίδες του ιστολογίου σας, το ρομπότ αναζητά πρώτα το αρχείο robots, γι' αυτό είναι τόσο σημαντικό. Το αρχείο txt robots είναι ένα πρότυπο για την αποτροπή των ρομπότ από την ευρετηρίαση συγκεκριμένων σελίδων. Το αρχείο txt του robots θα καθορίσει εάν θα δημοσιοποιηθούν τα εμπιστευτικά δεδομένα σας. Το σωστό robots txt για έναν ιστότοπο θα βοηθήσει στην προώθησή του, καθώς είναι ένα σημαντικό εργαλείο στην αλληλεπίδραση μεταξύ του ιστότοπού σας και των ρομπότ αναζήτησης.

Δεν είναι τυχαίο ότι το αρχείο txt του robots ονομάζεται το πιο σημαντικό εργαλείο SEO, αυτό το μικρό αρχείο επηρεάζει άμεσα την ευρετηρίαση των σελίδων του ιστότοπου και του ιστότοπου στο σύνολό του. Αντίθετα, το εσφαλμένο robot txt μπορεί να αποκλείσει ορισμένες σελίδες, ενότητες ή τον ιστότοπο συνολικά από τα αποτελέσματα αναζήτησης. Σε αυτή την περίπτωση, μπορείτε να έχετε 1000 άρθρα στο blog σας, αλλά απλά δεν θα υπάρχουν επισκέπτες στον ιστότοπο, θα υπάρχουν καθαρά τυχαίοι περαστικοί.

Ο webmaster του Yandex διαθέτει ένα εκπαιδευτικό βίντεο στο οποίο η Yandex συγκρίνει ένα αρχείο txt robots με ένα κουτί με τα προσωπικά σας αντικείμενα που δεν θέλετε να δείξετε σε κανέναν. Για να αποτρέψετε τους ξένους να κοιτάξουν μέσα σε αυτό το κουτί, το σφραγίζετε με ταινία και γράφετε πάνω του «Μην ανοίγετε».

Τα ρομπότ, ως άτομα με καλούς τρόπους, δεν ανοίγουν αυτό το κουτί και δεν θα μπορούν να πουν στους άλλους τι υπάρχει εκεί. Εάν δεν υπάρχει αρχείο robots txt, τότε το ρομπότ της μηχανής αναζήτησης πιστεύει ότι όλα τα αρχεία είναι διαθέσιμα, θα ανοίξει το πλαίσιο, θα εξετάσει τα πάντα και θα πει στους άλλους τι υπάρχει στο πλαίσιο. Για να αποτρέψετε το ρομπότ να σκαρφαλώσει σε αυτό το κουτί, πρέπει να του απαγορεύσετε να σκαρφαλώσει εκεί, αυτό γίνεται χρησιμοποιώντας την οδηγία Απαγόρευση, η οποία μεταφράζεται από τα αγγλικά ως απαγόρευση, και Να επιτρέπεται ως επιτρέπεται.

Αυτό είναι ένα κανονικό αρχείο txt, το οποίο μεταγλωττίζεται σε ένα κανονικό σημειωματάριο ή πρόγραμμα NotePad++, ένα αρχείο που προτείνει στα ρομπότ να μην ευρετηριάζουν ορισμένες σελίδες στον ιστότοπο. Σε τι χρησιμεύει:

ένα σωστά μεταγλωττισμένο αρχείο robots txt δεν επιτρέπει στα ρομπότ να ευρετηριάζουν τυχόν σκουπίδια και δεν φράζει τα αποτελέσματα αναζήτησης με περιττό υλικό, καθώς και να μην δημιουργεί διπλότυπες σελίδες, το οποίο είναι πολύ επιβλαβές φαινόμενο.
δεν επιτρέπει στα ρομπότ να ευρετηριάζουν πληροφορίες που χρειάζονται για επίσημη χρήση.
εμποδίζει τα ρομπότ κατασκόπων να κλέψουν εμπιστευτικά δεδομένα και να τα χρησιμοποιήσουν για την αποστολή ανεπιθύμητων μηνυμάτων.

Αυτό δεν σημαίνει ότι θέλουμε να κρύψουμε κάτι από τις μηχανές αναζήτησης, κάτι μυστικό, απλώς αυτές οι πληροφορίες δεν έχουν καμία αξία ούτε για τις μηχανές αναζήτησης ούτε για τους επισκέπτες. Για παράδειγμα, σελίδα σύνδεσης, ροές RSS κ.λπ. Επιπλέον, το αρχείο txt robots καθορίζει τον καθρέφτη του ιστότοπου καθώς και τον χάρτη ιστότοπου. Από προεπιλογή, ένας ιστότοπος που έχει κατασκευαστεί με WordPress δεν έχει αρχείο txt robots. Επομένως, πρέπει να δημιουργήσετε ένα αρχείο robots txt και να το ανεβάσετε στον ριζικό φάκελο του ιστολογίου σας Σε αυτό το άρθρο θα εξετάσουμε το robots txt για WordPress, τη δημιουργία, την προσαρμογή και τη μεταφόρτωσή του στον ιστότοπο. Έτσι πρώτα θα ξέρουμε πού βρίσκεται το αρχείο txt του robots;

Που είναιρομπότ κείμενοπως να το δεις

Νομίζω ότι πολλοί αρχάριοι θέτουν στον εαυτό τους την ερώτηση - πού βρίσκεται το robots txt; Το αρχείο βρίσκεται στον ριζικό φάκελο του ιστότοπου, στον φάκελο public_html, φαίνεται πολύ απλά. Μπορείτε να μεταβείτε στη φιλοξενία σας, να ανοίξετε το φάκελο του ιστότοπού σας και να δείτε εάν αυτό το αρχείο υπάρχει ή όχι. Το παρακάτω βίντεο δείχνει πώς να το κάνετε αυτό. Μπορείτε να προβάλετε το αρχείο χρησιμοποιώντας τον webmaster του Yandex και τον webmaster της Google, αλλά θα μιλήσουμε για αυτό αργότερα.

Υπάρχει μια ακόμη πιο απλή επιλογή, η οποία σας επιτρέπει να βλέπετε όχι μόνο τα ρομπότ σας txt, αλλά και τα ρομπότ οποιουδήποτε ιστότοπου. Μπορείτε να κάνετε λήψη ρομπότ στον υπολογιστή σας και στη συνέχεια να τα προσαρμόσετε στον εαυτό σας και να τα χρησιμοποιήσετε στον ιστότοπό σας. Αυτό γίνεται ως εξής - ανοίγετε τον ιστότοπο (ιστολόγιο) που χρειάζεστε και προσθέτετε το robots.txt χρησιμοποιώντας κάθετο (δείτε στιγμιότυπο οθόνης)

και πατήστε Enter, ανοίγει το αρχείο robots txt. Σε αυτήν την περίπτωση, δεν μπορείτε να δείτε πού βρίσκεται το robots txt, αλλά μπορείτε να το δείτε και να το κατεβάσετε.

Πώς να δημιουργήσετε το σωστόρομπότ κείμενο για το site

Υπάρχουν διάφορες επιλογές για τη δημιουργία robots txt για έναν ιστότοπο:

Χρησιμοποιήστε ηλεκτρονικές γεννήτριες που θα δημιουργήσουν γρήγορα ένα αρχείο txt, υπάρχουν πάρα πολλοί ιστότοποι και υπηρεσίες που μπορούν να το κάνουν αυτό.
χρησιμοποιήστε πρόσθετα για WordPress που θα βοηθήσουν στην επίλυση αυτού του προβλήματος.
δημιουργήστε ένα αρχείο txt robots με τα χέρια σας με μη αυτόματο τρόπο σε ένα κανονικό σημειωματάριο ή πρόγραμμα NotePad++.
χρησιμοποιήστε έτοιμα, σωστά robots txt από τον ιστότοπο κάποιου άλλου (blog), αντικαθιστώντας τη διεύθυνση του ιστότοπού σας σε αυτό.

Γεννήτριες

Έτσι, δεν έχω χρησιμοποιήσει προηγουμένως γεννήτριες για τη δημιουργία αρχείων txt ρομπότ, αλλά πριν γράψω αυτό το άρθρο αποφάσισα να δοκιμάσω 4 υπηρεσίες για τη δημιουργία αρχείων txt ρομπότ, πήρα ορισμένα αποτελέσματα, θα σας πω για αυτά αργότερα. Οι υπηρεσίες αυτές είναι:

SEOlib ;
Υπηρεσία PR-CY.
υπηρεσία Raskruty.ru;
seo café μπορείτε να πάτε εδώ χρησιμοποιώντας αυτόν τον σύνδεσμο - info.seocafe.info/tools/robotsgenerator.

Ο τρόπος χρήσης της γεννήτριας robots txt στην πράξη φαίνεται αναλυτικά στο παρακάτω βίντεο. Κατά τη διαδικασία της δοκιμής, κατέληξα στο συμπέρασμα ότι δεν είναι κατάλληλα για αρχάριους, και να γιατί; Η γεννήτρια σάς επιτρέπει μόνο να δημιουργήσετε τη σωστή καταχώρηση χωρίς σφάλματα στο ίδιο το αρχείο, αλλά για να συνθέσετε το σωστό robot txt πρέπει να έχετε γνώση, πρέπει να γνωρίζετε ποιους φακέλους να κλείσετε και ποιους όχι. Για αυτόν τον λόγο, δεν συνιστώ τη χρήση του robots txt generator για τη δημιουργία αρχείου για αρχάριους.

ΠρόσθεταΓια WordPress

Υπάρχουν πρόσθετα, για παράδειγμα, PC Robots.txt για τη δημιουργία του αρχείου. Αυτή η προσθήκη σάς επιτρέπει να επεξεργαστείτε ένα αρχείο απευθείας στον πίνακα ελέγχου του ιστότοπου. Ένα άλλο πρόσθετο είναι το iRobots.txt SEO - αυτό το πρόσθετο έχει παρόμοια λειτουργικότητα. Μπορείτε να βρείτε μια δέσμη διαφορετικών προσθηκών που σας επιτρέπουν να εργαστείτε με το αρχείο txt robots. Εάν θέλετε, μπορείτε να εισαγάγετε τη φράση robots στο πεδίο «Αναζήτηση για πρόσθετα». txt και κάντε κλικ στο κουμπί «Αναζήτηση» και θα σας προσφερθούν πολλά πρόσθετα. Φυσικά, πρέπει να διαβάσετε για καθένα από αυτά και να δείτε κριτικές.

Ο τρόπος με τον οποίο λειτουργούν τα πρόσθετα txt των ρομπότ για το WordPress είναι πολύ παρόμοιος με τον τρόπο λειτουργίας των γεννητριών. Για να αποκτήσετε το σωστό robot txt για έναν ιστότοπο, χρειάζεστε γνώση και εμπειρία, αλλά πού μπορούν να τα βρουν οι αρχάριοι; Κατά τη γνώμη μου, περισσότερο κακό παρά καλό μπορεί να προέλθει από τέτοιες υπηρεσίες. Και αν εγκαταστήσετε ένα πρόσθετο, θα φορτώσει επίσης τη φιλοξενία. Για το λόγο αυτό, δεν συνιστώ την εγκατάσταση της προσθήκης robots txt WordPress.

Δημιουργώρομπότ κείμενοχειροκίνητα

Μπορείτε να δημιουργήσετε robots txt χειροκίνητα χρησιμοποιώντας ένα κανονικό σημειωματάριο ή πρόγραμμα NotePad++, αλλά αυτό απαιτεί γνώση και εμπειρία. Αυτή η επιλογή δεν είναι επίσης κατάλληλη για αρχάριους. Αλλά με την πάροδο του χρόνου, όταν αποκτήσετε εμπειρία, θα μπορείτε να το κάνετε αυτό και μπορείτε να δημιουργήσετε ένα αρχείο txt robots για τον ιστότοπο, να καταχωρήσετε οδηγίες Απαγόρευσης ρομπότ, να κλείσετε τους απαραίτητους φακέλους από την ευρετηρίαση, να εκτελέσετε έναν έλεγχο ρομπότ και να το προσαρμόσετε μόνο 10 λεπτά. Το παρακάτω στιγμιότυπο οθόνης δείχνει τα robots txt στο σημειωματάριο:

Δεν θα εξετάσουμε τη διαδικασία δημιουργίας ενός αρχείου txt ρομπότ εδώ, αυτό είναι γραμμένο λεπτομερώς σε πολλές πηγές, για παράδειγμα, το Yandex Webmaster. Πριν από τη σύνταξη ενός αρχείου txt robots, πρέπει να μεταβείτε στο Yandex Webmaster, όπου κάθε οδηγία περιγράφεται λεπτομερώς, για τι είναι υπεύθυνη και να συνθέσετε ένα αρχείο με βάση αυτές τις πληροφορίες. (δείτε στιγμιότυπο οθόνης).

Παρεμπιπτόντως, ο νέος webmaster Yandex προσφέρει λεπτομερείς και λεπτομερείς πληροφορίες, ένα άρθρο σχετικά με αυτό μπορεί να βρεθεί στο ιστολόγιο. Πιο συγκεκριμένα, παρουσιάζονται δύο άρθρα που θα ωφελήσουν πολύ τους bloggers και όχι μόνο τους αρχάριους, σας συμβουλεύω να τα διαβάσετε.

Εάν δεν είστε αρχάριοι και θέλετε να φτιάξετε ρομπότ μόνοι σας txt, τότε πρέπει να ακολουθήσετε μια σειρά από κανόνες:

Η χρήση εθνικών χαρακτήρων στο αρχείο txt του robots δεν επιτρέπεται.
Το μέγεθος του αρχείου ρομπότ δεν πρέπει να υπερβαίνει τα 32 KB.
Το όνομα του αρχείου ρομπότ δεν μπορεί να γραφτεί σαν Robots ή ROBOTS το αρχείο πρέπει να είναι υπογεγραμμένο ακριβώς όπως φαίνεται στο άρθρο.
Κάθε οδηγία πρέπει να ξεκινά από μια νέα γραμμή.
Δεν μπορείτε να καθορίσετε περισσότερες από μία οδηγίες σε μία γραμμή.
Η οδηγία "Απαγόρευση" με κενή γραμμή είναι ισοδύναμη με την οδηγία "Να επιτρέπεται" - επιτρέψτε, αυτό πρέπει να το θυμάστε.
Δεν μπορείτε να βάλετε κενό στην αρχή μιας γραμμής.
Εάν δεν κάνετε κενό μεταξύ των διαφόρων οδηγιών «User-agent», τότε τα ρομπότ θα αποδεχτούν μόνο την κορυφαία οδηγία - τα υπόλοιπα θα αγνοηθούν.
Η ίδια η παράμετρος της οδηγίας πρέπει να γραφτεί σε μία μόνο γραμμή.
Δεν μπορείτε να περικλείσετε παραμέτρους οδηγιών σε εισαγωγικά.
Δεν μπορείτε να κλείσετε μια γραμμή με ερωτηματικό μετά από μια οδηγία.
Εάν το αρχείο robots δεν εντοπιστεί ή είναι κενό, τότε τα ρομπότ θα το αντιληφθούν ως "Όλα επιτρέπονται".
Μπορείτε να κάνετε σχόλια στη γραμμή οδηγιών (για να καταστεί σαφές ποια είναι η γραμμή), αλλά μόνο μετά το σύμβολο κατακερματισμού #.
Εάν βάλετε κενό μεταξύ των γραμμών, αυτό θα σημάνει το τέλος της οδηγίας User-agent.
Οι οδηγίες "Disallow" και "Allow" πρέπει να περιέχουν μόνο μία παράμετρο.
Για οδηγίες που είναι κατάλογος, προστίθεται μια κάθετο, για παράδειγμα – Disallow/wp-admin.
Στην ενότητα "Καθυστέρηση ανίχνευσης", πρέπει να προτείνετε στα ρομπότ το χρονικό διάστημα μεταξύ της λήψης εγγράφων από τον διακομιστή, συνήθως 4-5 δευτερόλεπτα.
Σημαντικό - δεν πρέπει να υπάρχουν κενές γραμμές μεταξύ των οδηγιών. Μια νέα οδηγία ξεκινά με ένα χώρο. Αυτό σημαίνει το τέλος των κανόνων για το ρομπότ αναζήτησης, όπως δείχνει αναλυτικά το συνημμένο βίντεο. Οι αστερίσκοι σημαίνουν μια ακολουθία οποιωνδήποτε χαρακτήρων.
Σας συμβουλεύω να επαναλάβετε όλους τους κανόνες ξεχωριστά για το ρομπότ Yandex, δηλαδή να επαναλάβετε όλες τις οδηγίες που είχαν προδιαγραφεί για άλλα ρομπότ ξεχωριστά για το Yandex. Στο τέλος των πληροφοριών για το ρομπότ Yandex, πρέπει να γράψετε την οδηγία κεντρικού υπολογιστή (Host - υποστηρίζεται μόνο από το Yandex) και να υποδείξετε το ιστολόγιό σας. Ο κεντρικός υπολογιστής υποδεικνύει στο Yandex ποιος καθρέφτης του ιστότοπού σας είναι ο κύριος, με ή χωρίς www.
Επιπλέον, σε έναν ξεχωριστό κατάλογο του αρχείου robots txt, δηλαδή χωρισμένο με κενό, συνιστάται να υποδείξετε τη διεύθυνση του χάρτη του ιστότοπού σας. Η δημιουργία του αρχείου μπορεί να γίνει σε λίγα λεπτά και ξεκινά με τη φράση "User-agent:". Εάν θέλετε να αποκλείσετε, για παράδειγμα, εικόνες από την ευρετηρίαση, τότε πρέπει να ορίσετε Disallow: /images/.

Χρησιμοποιήστε το σωστόρομπότ κείμενο από τον ιστότοπο κάποιου άλλου

Δεν υπάρχει ιδανικό αρχείο περιοδικά, πρέπει να προσπαθείτε να πειραματίζεστε και να λαμβάνετε υπόψη τις αλλαγές στη λειτουργία των μηχανών αναζήτησης, να λαμβάνετε υπόψη τα σφάλματα που μπορεί να εμφανιστούν στο ιστολόγιό σας με την πάροδο του χρόνου. Επομένως, για αρχή, μπορείτε να πάρετε το επαληθευμένο αρχείο txt robots κάποιου άλλου και να το εγκαταστήσετε μόνοι σας.

Φροντίστε να αλλάξετε τις εγγραφές που αντικατοπτρίζουν τη διεύθυνση του ιστολογίου σας στον κατάλογο Host (δείτε στιγμιότυπο οθόνης, δείτε επίσης βίντεο) και επίσης να τις αντικαταστήσετε με τη διεύθυνση του ιστότοπού σας στη διεύθυνση χάρτη ιστότοπου (κάτω δύο γραμμές). Με την πάροδο του χρόνου, αυτό το αρχείο θα πρέπει να προσαρμοστεί λίγο. Για παράδειγμα, παρατηρήσατε ότι άρχισαν να εμφανίζονται διπλότυπες σελίδες.

Στην ενότητα "Πού βρίσκεται το robots txt, πώς να το δείτε", που βρίσκεται παραπάνω, εξετάσαμε τον τρόπο προβολής και λήψης του robots txt. Επομένως, πρέπει να επιλέξετε έναν καλό ιστότοπο αξιοπιστίας που να έχει υψηλούς δείκτες TIC, υψηλή επισκεψιμότητα, να ανοίξετε και να κατεβάσετε το σωστό txt ρομπότ. Πρέπει να συγκρίνετε πολλούς ιστότοπους, να επιλέξετε το αρχείο txt του robots που θέλετε και να το ανεβάσετε στον ιστότοπό σας.

Πώς να ανεβάσετε ένα αρχείο στον ιστότοπορομπότ κείμενο στον ριζικό φάκελο του ιστότοπου

Όπως ήδη γράφτηκε, μετά τη δημιουργία ενός ιστότοπου στο WordPress, από προεπιλογή, δεν υπάρχει αρχείο txt robots. Επομένως, πρέπει να δημιουργηθεί και να μεταφορτωθεί στον ριζικό φάκελο του ιστότοπού μας (ιστολόγιο) στη φιλοξενία. Η μεταφόρτωση του αρχείου είναι αρκετά απλή. Στη φιλοξενία TimeWeb, σε άλλες φιλοξενίες μπορείτε να ανεβάσετε είτε μέσω είτε μέσω. Το παρακάτω βίντεο δείχνει τη διαδικασία μεταφόρτωσης ενός αρχείου txt robots στη φιλοξενία TimeWeb.

Έλεγχος του αρχείου txt του robots

Μετά τη λήψη του αρχείου robots txt, πρέπει να ελέγξετε την παρουσία και τη λειτουργία του. Για να το κάνουμε αυτό, μπορούμε να δούμε το αρχείο από το πρόγραμμα περιήγησης, όπως φαίνεται παραπάνω στην ενότητα "Πού βρίσκεται το robots txt, πώς να το δούμε". Μπορείτε να ελέγξετε τη λειτουργία του αρχείου χρησιμοποιώντας τον webmaster του Yandex και τον webmaster της Google. Θυμόμαστε ότι για αυτό πρέπει να υπάρχει , και σε .

Για να κάνετε check in στο Yandex, μεταβείτε στον λογαριασμό webmaster Yandex, επιλέξτε έναν ιστότοπο εάν έχετε πολλούς από αυτούς. Επιλέξτε «Ρυθμίσεις ευρετηρίου», «Ανάλυση Robots.txt» και, στη συνέχεια, ακολουθήστε τις οδηγίες.

Στο Google webmaster κάνουμε το ίδιο, πηγαίνουμε στον λογαριασμό μας, επιλέγουμε τον ιστότοπο που επιθυμούμε (αν υπάρχουν αρκετές), κάνουμε κλικ στο κουμπί «Ανίχνευση» και επιλέγουμε «Εργαλείο επαλήθευσης αρχείων Robots.txt». Το αρχείο txt του robots θα ανοίξει Μπορείτε να το επεξεργαστείτε ή να το ελέγξετε.

Στην ίδια σελίδα υπάρχουν εξαιρετικές οδηγίες για την εργασία με το αρχείο txt robots, μπορείτε να τις διαβάσετε. Εν κατακλείδι, παρέχω ένα βίντεο που δείχνει τι είναι ένα αρχείο robots txt, πώς να το βρείτε, πώς να το δείτε και να το κατεβάσετε, πώς να εργαστείτε με τη δημιουργία αρχείων, πώς να δημιουργήσετε ένα robots txt και να το προσαρμόσετε για τον εαυτό σας, άλλες πληροφορίες φαίνεται:

συμπέρασμα

Έτσι, σε αυτό το άρθρο εξετάσαμε το ερώτημα τι είναι ένα αρχείο txt robots και ανακαλύψαμε ότι αυτό το αρχείο είναι πολύ σημαντικό για τον ιστότοπο. Μάθαμε πώς να φτιάχνουμε το σωστό robots txt, πώς να προσαρμόζουμε ένα αρχείο robots txt από τον ιστότοπο κάποιου άλλου στο δικό σας, πώς να το ανεβάζετε στο ιστολόγιό σας και πώς να το ελέγχετε.

Από το άρθρο έγινε σαφές ότι για αρχάριους, στην αρχή, είναι καλύτερο να χρησιμοποιήσετε ένα έτοιμο και σωστό robot txt, αλλά πρέπει να θυμάστε να αντικαταστήσετε τον τομέα σε αυτόν στον κατάλογο Host με τον δικό σας και επίσης να εισαγάγετε τη διεύθυνση του ιστολογίου σας στους χάρτες ιστότοπου. Μπορείτε να κατεβάσετε το αρχείο txt του robots μου εδώ. Τώρα, μετά τη διόρθωση, μπορείτε να χρησιμοποιήσετε το αρχείο στο ιστολόγιό σας.

Υπάρχει ξεχωριστός ιστότοπος για το αρχείο txt του robots. Μπορείτε να μεταβείτε σε αυτό και να μάθετε πιο λεπτομερείς πληροφορίες. Ελπίζω ότι όλα πάνε καλά για εσάς και το ιστολόγιο θα είναι καλά ευρετηριασμένο. Καλή σου τύχη!

Με εκτίμηση, Ivan Kunpan.

ΥΣΤΕΡΟΓΡΑΦΟ.Για να προωθήσετε σωστά το ιστολόγιό σας, πρέπει να γράψετε σωστά για τη βελτιστοποίηση άρθρων στο ιστολόγιό σας, τότε θα έχει υψηλή επισκεψιμότητα και βαθμολογίες. Τα προϊόντα πληροφοριών μου, τα οποία ενσωματώνουν την τριετή εμπειρία μου, θα σας βοηθήσουν σε αυτό. Μπορείτε να προμηθευτείτε τα παρακάτω προϊόντα:

πληρωμένο βιβλίο?
χάρτης νοημοσύνης?
επί πληρωμή μάθημα βίντεο " ".

Λάβετε νέα άρθρα ιστολογίου απευθείας στο email σας. Συμπληρώστε τη φόρμα, κάντε κλικ στο κουμπί "Εγγραφή".

Γεια σε όλους! Σήμερα θα ήθελα να σας μιλήσω για αρχείο robots.txt. Ναι, έχουν γραφτεί πολλά για αυτό στο Διαδίκτυο, αλλά, για να είμαι ειλικρινής, για πολύ καιρό εγώ ο ίδιος δεν μπορούσα να καταλάβω πώς να δημιουργήσω το σωστό robots.txt. Κατέληξα να φτιάξω ένα και υπάρχει σε όλα τα blog μου. Δεν παρατηρώ κανένα πρόβλημα, το robots.txt λειτουργεί μια χαρά.

Robots.txt για WordPress

Γιατί, στην πραγματικότητα, χρειαζόμαστε το robots.txt; Η απάντηση είναι ακόμα η ίδια - . Δηλαδή, η μεταγλώττιση του robots.txt είναι ένα από τα μέρη της βελτιστοποίησης μηχανών αναζήτησης ενός ιστότοπου (παρεμπιπτόντως, πολύ σύντομα θα υπάρξει ένα μάθημα που θα αφιερωθεί σε όλη την εσωτερική βελτιστοποίηση ενός ιστότοπου στο WordPress. Επομένως, μην ξεχάστε να εγγραφείτε στο RSS για να μην χάσετε ενδιαφέρον υλικό.).

Μία από τις λειτουργίες αυτού του αρχείου είναι απαγόρευση ευρετηρίασηςπεριττές σελίδες ιστότοπου. Ορίζει επίσης τη διεύθυνση και δηλώνει το κύριο πράγμα καθρέφτης τοποθεσίας(ιστοσελίδα με ή χωρίς www).

Σημείωση: για τις μηχανές αναζήτησης, ο ίδιος ιστότοπος με www και χωρίς www είναι εντελώς διαφορετικοί ιστότοποι. Όμως, συνειδητοποιώντας ότι το περιεχόμενο αυτών των τοποθεσιών είναι το ίδιο, οι μηχανές αναζήτησης τους «κολλούν» μεταξύ τους. Επομένως, είναι σημαντικό να καταχωρήσετε τον κύριο καθρέφτη του ιστότοπου στο robots.txt. Για να μάθετε ποιος είναι ο κύριος (με www ή χωρίς www), απλώς πληκτρολογήστε τη διεύθυνση του ιστότοπού σας στο πρόγραμμα περιήγησης, για παράδειγμα, με www, εάν ανακατευθυνθείτε αυτόματα στον ίδιο ιστότοπο χωρίς www, τότε ο κύριος καθρέφτης του Ο ιστότοπός σας είναι χωρίς www. Ελπίζω να το εξήγησα σωστά.

Λοιπόν, αυτό το πολύτιμο, κατά τη γνώμη μου, σωστό robots.txt για WordPressΜπορείτε να δείτε παρακάτω.

Σωστό Robots.txt για WordPress

Πράκτορας χρήστη: *
Απαγόρευση: /cgi-bin
Απαγόρευση: /wp-admin
Disallow: /wp-includes
Απαγόρευση: /wp-content/cache
Απαγόρευση: /wp-content/themes
Disallow: /trackback
Απαγόρευση: */trackback
Απαγόρευση: */*/trackback
Απαγόρευση: */*/feed/*/
Απαγόρευση: */ροή
Απαγόρευση: /*?*
Απαγόρευση: /tag

Πράκτορας χρήστη: Yandex
Απαγόρευση: /cgi-bin
Απαγόρευση: /wp-admin
Disallow: /wp-includes
Απαγόρευση: /wp-content/plugins
Απαγόρευση: /wp-content/cache
Απαγόρευση: /wp-content/themes
Disallow: /trackback
Απαγόρευση: */trackback
Απαγόρευση: */*/trackback
Απαγόρευση: */*/feed/*/
Απαγόρευση: */ροή
Απαγόρευση: /*?*
Απαγόρευση: /tag
Διοργανωτής: ιστοσελίδα
.gz
Χάρτης ιστότοπου: https://site/sitemap.xml

Πρέπει να αντιγράψετε όλα όσα αναφέρονται παραπάνω σε ένα έγγραφο κειμένου με την επέκταση .txt, δηλαδή, έτσι ώστε το όνομα του αρχείου να είναι robots.txt. Μπορείτε να δημιουργήσετε αυτό το έγγραφο κειμένου, για παράδειγμα, χρησιμοποιώντας το πρόγραμμα. Απλά μην ξεχνάς, σε παρακαλώ αλλάξτε τις τρεις τελευταίες γραμμέςδιεύθυνση στη διεύθυνση του ιστότοπού σας. Το αρχείο robots.txt θα πρέπει να βρίσκεται στη ρίζα του ιστολογίου, δηλαδή στον ίδιο φάκελο όπου βρίσκονται οι φάκελοι wp-content, wp-admin κ.λπ.

Όσοι είναι πολύ τεμπέληδες για να δημιουργήσουν αυτό το αρχείο κειμένου, μπορείτε απλά να κάνετε λήψη του robots.txt και επίσης να διορθώσετε 3 γραμμές εκεί.

Θα ήθελα να σημειώσω ότι δεν χρειάζεται να επιβαρύνεστε υπερβολικά με τα τεχνικά μέρη που θα συζητηθούν παρακάτω. Τους φέρνω για «γνώση», ας πούμε, μια γενική άποψη, για να ξέρουν τι χρειάζεται και γιατί.

Η γραμμή λοιπόν:

Χρήστης-πράκτορας

ορίζει κανόνες για ορισμένες μηχανές αναζήτησης: για παράδειγμα, το "*" (αστερίσκος) υποδεικνύει ότι οι κανόνες είναι για όλες τις μηχανές αναζήτησης και ό,τι φαίνεται παρακάτω

Πράκτορας χρήστη: Yandex

σημαίνει ότι αυτοί οι κανόνες είναι μόνο για το Yandex.

Απαγορεύω
Εδώ "πετάς" ενότητες που ΔΕΝ χρειάζεται να ευρετηριαστούν από τις μηχανές αναζήτησης. Για παράδειγμα, στη σελίδα https://site/tag/seo έχω ένα αντίγραφο άρθρων (επανάληψη) με κανονικά άρθρα και η αντιγραφή σελίδων έχει αρνητικό αντίκτυπο στην προώθηση της μηχανής αναζήτησης, επομένως, είναι πολύ επιθυμητό αυτοί οι τομείς πρέπει να είναι κλειστό από την ευρετηρίαση, κάτι που το κάνουμε χρησιμοποιώντας αυτόν τον κανόνα:

Απαγόρευση: /tag

Έτσι, στο robots.txt που δίνεται παραπάνω, σχεδόν όλες οι περιττές ενότητες ενός ιστότοπου WordPress είναι κλειστές από την ευρετηρίαση, δηλαδή, απλώς αφήστε τα πάντα ως έχουν.

Πλήθος

Εδώ ορίσαμε τον κεντρικό καθρέφτη του ιστότοπου, για τον οποίο μίλησα ακριβώς παραπάνω.

Χάρτης ιστότοπου

Στις δύο τελευταίες γραμμές ορίσαμε τη διεύθυνση έως και δύο χαρτών ιστοτόπου που δημιουργήθηκαν με τη χρήση .

Πιθανά προβλήματα

Αλλά λόγω αυτής της γραμμής στο robots.txt, οι αναρτήσεις του ιστότοπού μου δεν ήταν πλέον ευρετηριασμένες:

Απαγόρευση: /*?*

Όπως μπορείτε να δείτε, αυτή ακριβώς η γραμμή στο robots.txt απαγορεύει την ευρετηρίαση άρθρων, την οποία φυσικά δεν χρειαζόμαστε καθόλου. Για να το διορθώσετε, πρέπει απλώς να αφαιρέσετε αυτές τις 2 γραμμές (στους κανόνες για όλες τις μηχανές αναζήτησης και για το Yandex) και το τελικό σωστό robots.txt για έναν ιστότοπο WordPress χωρίς CNC θα μοιάζει με αυτό:

Πράκτορας χρήστη: *
Απαγόρευση: /cgi-bin
Απαγόρευση: /wp-admin
Disallow: /wp-includes
Απαγόρευση: /wp-content/plugins
Απαγόρευση: /wp-content/cache
Απαγόρευση: /wp-content/themes
Disallow: /trackback
Απαγόρευση: */trackback
Απαγόρευση: */*/trackback
Απαγόρευση: */*/feed/*/
Απαγόρευση: */ροή
Απαγόρευση: /tag

Πράκτορας χρήστη: Yandex
Απαγόρευση: /cgi-bin
Απαγόρευση: /wp-admin
Disallow: /wp-includes
Απαγόρευση: /wp-content/plugins
Απαγόρευση: /wp-content/cache
Απαγόρευση: /wp-content/themes
Disallow: /trackback
Απαγόρευση: */trackback
Απαγόρευση: */*/trackback
Απαγόρευση: */*/feed/*/
Απαγόρευση: */ροή
Απαγόρευση: /tag
Διοργανωτής: ιστοσελίδα
Χάρτης ιστότοπου: https://site/sitemap.xml

Για να ελέγξετε αν έχουμε μεταγλωττίσει σωστά το αρχείο robots.txt, σας συνιστώ να χρησιμοποιήσετε την υπηρεσία Yandex Webmaster (σας είπα πώς να εγγραφείτε σε αυτήν την υπηρεσία).

Μεταβείτε στην ενότητα Ρυθμίσεις ευρετηρίου –> Ανάλυση Robots.txt:

Ήδη εκεί, κάντε κλικ στο κουμπί «Φόρτωση robots.txt από τον ιστότοπο» και, στη συνέχεια, κάντε κλικ στο κουμπί «Έλεγχος»:

Αν δείτε κάτι σαν το ακόλουθο μήνυμα, σημαίνει ότι έχετε το σωστό robots.txt για το Yandex:

Χαιρετισμούς, αγαπητοί αναγνώστες του ιστολογίου Pingo SEO. Σε αυτό το άρθρο θέλω να περιγράψω την ιδέα μου για το πώς να συνθέσω σωστά το robots.txt για έναν ιστότοπο. Κάποτε, με ενόχλησε πολύ που οι πληροφορίες στο Διαδίκτυο για αυτό το θέμα ήταν μάλλον αποσπασματικές. Εξαιτίας αυτού, έπρεπε να ανιχνεύσω έναν μεγάλο αριθμό πόρων, φιλτράροντας συνεχώς επαναλαμβανόμενες πληροφορίες και εντοπίζοντας νέες.

Έτσι, εδώ θα προσπαθήσω να απαντήσω στις περισσότερες ερωτήσεις, ξεκινώντας από τον ορισμό και τελειώνοντας με παραδείγματα πραγματικών προβλημάτων που επιλύονται από αυτό το εργαλείο. Αν ξεχάσω κάτι, γράψτε για αυτό στα σχόλια - θα ερευνήσω το θέμα και θα προσθέσω στο υλικό.

Robots.txt - τι είναι, γιατί χρειάζεται και πού ζει;

Λοιπόν, πρώτα, ένα εκπαιδευτικό πρόγραμμα για όσους δεν είναι εξοικειωμένοι με αυτό το θέμα.

Το Robots.txt είναι ένα αρχείο κειμένου που περιέχει οδηγίες για την ευρετηρίαση ενός ιστότοπου για ρομπότ μηχανών αναζήτησης. Σε αυτό το αρχείο, ο webmaster μπορεί να ορίσει τις παραμέτρους ευρετηρίασης του ιστότοπού του τόσο για όλα τα ρομπότ ταυτόχρονα όσο και για κάθε μηχανή αναζήτησης ξεχωριστά (για παράδειγμα, για το Google).

Πού βρίσκεται το robots.txt;Βρίσκεται στον ριζικό φάκελο του ιστότοπου FTP και, στην πραγματικότητα, είναι ένα κανονικό έγγραφο σε μορφή txt, το οποίο μπορεί να επεξεργαστεί χρησιμοποιώντας οποιοδήποτε πρόγραμμα επεξεργασίας κειμένου (προσωπικά, προτιμώ το Notepad++). Μπορείτε να δείτε τα περιεχόμενα του αρχείου ρομπότ πληκτρολογώντας http://www.your-site.ru/robots.txt στη γραμμή διευθύνσεων του προγράμματος περιήγησής σας. Αν βέβαια υπάρχει.

Πώς να δημιουργήσετε το robots.txt για έναν ιστότοπο;Αρκεί να φτιάξετε ένα κανονικό αρχείο κειμένου με το ίδιο όνομα και να το ανεβάσετε στον ιστότοπο. Ο τρόπος σωστής διαμόρφωσης και σύνθεσής του θα συζητηθεί παρακάτω.

Δομή και σωστή διαμόρφωση του αρχείου robots.txt

Πώς πρέπει να μοιάζει το σωστό αρχείο txt robots για έναν ιστότοπο; Η δομή μπορεί να περιγραφεί ως εξής:

1. Οδηγία χρήστη-πράκτορα

Τι να γράψετε σε αυτή την ενότητα; Αυτή η οδηγία καθορίζει για ποιο ρομπότ προορίζονται οι ακόλουθες οδηγίες. Για παράδειγμα, εάν προορίζονται για όλα τα ρομπότ, τότε αρκεί η ακόλουθη σχεδίαση:

Στη σύνταξη του αρχείου robots.txt, το σύμβολο "*" είναι ισοδύναμο με τη φράση "οτιδήποτε". Εάν πρέπει να καθορίσετε οδηγίες για μια συγκεκριμένη μηχανή αναζήτησης ή ρομπότ, τότε το όνομά της γράφεται στη θέση του αστερίσκου από το προηγούμενο παράδειγμα, για παράδειγμα:

Χρήστης-πράκτορας: YandexBot

Κάθε μηχανή αναζήτησης έχει ένα ολόκληρο σύνολο ρομπότ που εκτελούν ορισμένες λειτουργίες. Περιγράφονται τα ρομπότ της μηχανής αναζήτησης Yandex. Σε γενικές γραμμές, υπάρχουν τα εξής:

Yandex - αναφορά σε ρομπότ Yandex.
Το GoogleBot είναι το κύριο ρομπότ ευρετηρίου.
Το MSNBot είναι το κύριο ρομπότ ευρετηρίου της Bing.
Aport - Ρομπότ Aport.
Mail.Ru - Ρομπότ αλληλογραφίας PS.

Αν υπάρχει οδηγία για συγκεκριμένη μηχανή αναζήτησης ή ρομπότ, τότε αγνοούνται οι γενικές.

2. Να επιτρέπεται η οδηγία

Επιτρέπει μεμονωμένες σελίδες μιας ενότητας εάν, ας πούμε, προηγουμένως είχε κλείσει εντελώς από την ευρετηρίαση. Για παράδειγμα:

Πράκτορας χρήστη: *
Απαγόρευση: /
Να επιτρέπεται: /open-page.html

Σε αυτό το παράδειγμα, απαγορεύουμε τη δημιουργία ευρετηρίου σε ολόκληρο τον ιστότοπο, εκτός από τη σελίδα poni.html

Αυτή η οδηγία χρησιμεύει σε κάποιο βαθμό για να υποδείξει εξαιρέσεις από τους κανόνες που καθορίζονται από την οδηγία για την απαγόρευση. Εάν δεν υπάρχουν τέτοιες καταστάσεις, τότε η οδηγία μπορεί να μην χρησιμοποιηθεί καθόλου. Δεν σας επιτρέπει να ανοίξετε έναν ιστότοπο για ευρετηρίαση, όπως πιστεύουν πολλοί, αφού αν δεν υπάρχει απαγόρευση όπως Disallow: /, τότε είναι ανοιχτό από προεπιλογή.

2. Απαγόρευση της οδηγίας

Είναι ο αντίποδας της οδηγίας Allow και αποκλείει μεμονωμένες σελίδες, ενότητες ή ολόκληρο τον ιστότοπο από την ευρετηρίαση. Είναι ανάλογο με την ετικέτα noindex. Για παράδειγμα:

Πράκτορας χρήστη: *
Απαγόρευση: /closed-page.html

3. Οδηγία υποδοχής

Χρησιμοποιείται μόνο για το Yandex και οδηγεί στον κύριο καθρέφτη του ιστότοπου. Μοιάζει με αυτό.

Κύριος καθρέφτης χωρίς www:

Κύριος καθρέφτης από το www:

Διοργανωτής: www.site.ru

Ιστοσελίδα στο https:

Διοργανωτής: https://site.ru

Δεν μπορείτε να γράψετε την οδηγία κεντρικού υπολογιστή σε ένα αρχείο δύο φορές. Εάν αυτό συμβεί λόγω κάποιου σφάλματος, τότε η οδηγία που έρχεται πρώτη υποβάλλεται σε επεξεργασία και η δεύτερη αγνοείται.

4. Οδηγία για τον χάρτη ιστότοπου

Χρησιμοποιείται για τον καθορισμό της διαδρομής προς τον χάρτη ιστοτόπου XML sitemap.xml (αν υπάρχει). Η σύνταξη έχει ως εξής:

Χάρτης ιστότοπου: http://www.site.ru/sitemap.xml

5. Οδηγία Clean-param

Χρησιμοποιείται για τον αποκλεισμό σελίδων με παραμέτρους που μπορεί να είναι διπλότυπες από την ευρετηρίαση. Μια πολύ χρήσιμη οδηγία, κατά τη γνώμη μου, που κόβει την παραμετρική ουρά των URL, αφήνοντας μόνο το backbone, που είναι η αρχική διεύθυνση της σελίδας.

Αυτό το πρόβλημα είναι ιδιαίτερα κοινό όταν εργάζεστε με καταλόγους και ηλεκτρονικά καταστήματα.

Ας πούμε ότι έχουμε μια σελίδα:

http://www.site.ru/index.php

Και αυτή η σελίδα στη διαδικασία της εργασίας μπορεί να γίνει κατάφυτη από κλώνους του είδους.

http://www.site.ru/index.php?option=com_user_view=remind
http://www.site.ru/index.php?option=com_user_view=reset
http://www.site.ru/index.php?option=com_user_view=login

Για να απαλλαγείτε από όλες τις πιθανές παραλλαγές αυτού του spam, αρκεί να υποδείξετε την ακόλουθη κατασκευή:

Clean-param: επιλογή /index.php

Νομίζω ότι η σύνταξη από το παράδειγμα είναι σαφής:

Clean-param: # προσδιορίστε την οδηγία
επιλογή # καθορίστε την παράμετρο ανεπιθύμητης αλληλογραφίας
/index.php # καθορίστε τον κορμό της διεύθυνσης URL με την παράμετρο ανεπιθύμητης αλληλογραφίας

Εάν υπάρχουν πολλές παράμετροι, τότε απλώς τις απαριθμούμε χρησιμοποιώντας ένα συμπλεκτικό σύμβολο (&):

http://www.site.ru/index.php?option=com_user_view=remind&size=big # URL με δύο παραμέτρους
Clean-param: option&big /index.php # καθορίζονται δύο παράμετροι χρησιμοποιώντας ένα συμπλεκτικό σύμβολο

Λαμβάνεται ένα απλό παράδειγμα που εξηγεί την ουσία. Θα ήθελα να πω ιδιαίτερα χάρη σε αυτήν την παράμετρο όταν εργάζεστε με το CMS Bitrix.

Οδηγία Crawl-Delay

Σας επιτρέπει να ορίσετε ένα χρονικό όριο για τη φόρτωση σελίδων ιστότοπου από το ρομπότ Yandex. Χρησιμοποιείται όταν ο διακομιστής είναι πολύ φορτωμένος και απλά δεν έχει χρόνο να επιστρέψει γρήγορα το περιεχόμενο. Κατά τη γνώμη μου, πρόκειται για έναν αναχρονισμό που δεν λαμβάνεται πλέον υπόψη και δεν μπορεί να χρησιμοποιηθεί.

Καθυστέρηση ανίχνευσης: 3,5 #timeout 3,5 δευτερόλεπτα

Σύνταξη

# - χρησιμοποιείται για τη σύνταξη σχολίων:

User-agent: * Η οδηγία # ισχύει για όλα τα ρομπότ

* - σημαίνει οποιαδήποτε ακολουθία χαρακτήρων, που σημαίνει:

Disallow: /page* # απαγόρευση όλων των σελίδων που ξεκινούν με σελίδα

Disallow: /*page # απαγόρευση όλων των σελίδων που τελειώνουν με σελίδα

Disallow: /cgi-bin/*.aspx # απαγόρευση όλων των σελίδων aspx στον φάκελο cgi-bin

$ - περικοπή κανόνα, αντίποδας του αστερίσκου:

Απαγόρευση: /page$ # μόνο /page θα κλείσει, όχι /page.html ή pageline.html

Παράδειγμα αρχείου robots.txt

Προκειμένου να εδραιωθεί η κατανόηση της δομής και των κανόνων που περιγράφηκαν παραπάνω, παρουσιάζουμε τα τυπικά robots txt για το CMS Data Life Engine.

User-agent: *# οδηγίες προορίζονται για όλες τις μηχανές αναζήτησης
Disallow: /engine/go.php # απενεργοποιήστε ορισμένες ενότητες και σελίδες
Απαγόρευση: /engine/download.php #
Απαγόρευση: /user/ #
Απαγόρευση: /newposts/ #
Disallow: /*subaction=userinfo # κλείσιμο σελίδων με μεμονωμένες παραμέτρους
Απαγόρευση: /*subaction=newposts #
Disallow: /*do=lastcomments #
Απαγόρευση: /*do=feedback #
Disallow: /*do=register #
Απαγόρευση: /*do=lostpassword #
Κεντρικός υπολογιστής: www.site # υποδεικνύουν τον κύριο καθρέφτη του ιστότοπου
Χάρτης ιστότοπου: https://site/sitemap.xml # υποδεικνύει τη διαδρομή προς τον χάρτη ιστότοπου
User-agent: Το Aport # υποδεικνύει την κατεύθυνση των κανόνων στο PS Aport
Disallow: / # ας υποθέσουμε ότι δεν θέλουμε να είμαστε φίλοι μαζί τους

Έλεγχος robots.txt

Πώς να ελέγξετε την ορθότητα του robots txt; Η τυπική επιλογή είναι το πρόγραμμα επικύρωσης Yandex - http://webmaster.yandex.ru/robots.xml. Εισαγάγετε τη διαδρομή προς το αρχείο robots ή επικολλήστε αμέσως τα περιεχόμενά του στο πεδίο κειμένου. Εισάγουμε μια λίστα με διευθύνσεις URL που θέλουμε να ελέγξουμε - είτε είναι κλειστές είτε ανοιχτές σύμφωνα με τις οδηγίες - κάντε κλικ στο "Έλεγχος" και voila! Κέρδος.

Εμφανίζεται η κατάσταση της σελίδας - είτε είναι ανοιχτή για ευρετηρίαση είτε κλειστή. Αν είναι κλειστό, τότε υποδεικνύεται από ποιον κανόνα. Για να επιτρέψετε την ευρετηρίαση μιας τέτοιας σελίδας, πρέπει να τροποποιήσετε τον κανόνα στον οποίο επισημαίνεται ο επικυρωτής. Εάν υπάρχουν συντακτικά σφάλματα στο αρχείο, το πρόγραμμα επικύρωσης θα το αναφέρει επίσης.

Γεννήτρια Robots.txt - διαδικτυακή δημιουργία

Εάν δεν έχετε την επιθυμία ή το χρόνο να μελετήσετε τη σύνταξη, αλλά υπάρχει ανάγκη να κλείσετε σελίδες ανεπιθύμητης αλληλογραφίας στον ιστότοπο, τότε μπορείτε να χρησιμοποιήσετε οποιαδήποτε δωρεάν ηλεκτρονική γεννήτρια που θα σας επιτρέψει να δημιουργήσετε robots txt για τον ιστότοπο σε μόλις ένα δύο κλικ. Στη συνέχεια, το μόνο που έχετε να κάνετε είναι να κατεβάσετε το αρχείο και να το ανεβάσετε στον ιστότοπό σας. Όταν εργάζεστε με αυτό, πρέπει απλώς να ελέγξετε τις προφανείς ρυθμίσεις και επίσης να υποδείξετε τις σελίδες που θέλετε να αποκλείσετε από την ευρετηρίαση. Η γεννήτρια θα κάνει τα υπόλοιπα για εσάς.

Έτοιμα αρχεία για δημοφιλή CMS

Αρχείο Robots.txt για έναν ιστότοπο στο 1C Bitrix

User-Agent: *
Απαγόρευση: /bitrix/
Απαγόρευση: /personal/
Απαγόρευση: /upload/
Απαγόρευση: /*σύνδεση*
Απαγόρευση: /*auth*
Απαγόρευση: /*αναζήτηση
Απαγόρευση: /*?sort=
Απαγόρευση: /*gclid=
Απαγόρευση: /*register=
Απαγόρευση: /*?per_count=
Απαγόρευση: /*forgot_password=
Απαγόρευση: /*change_password=
Απαγόρευση: /*logout=
Απαγόρευση: /*back_url_admin=
Απαγόρευση: /*print=
Απαγόρευση: /*backurl=
Απαγόρευση: /*BACKURL=
Απαγόρευση: /*back_url=
Απαγόρευση: /*BACK_URL=
Απαγόρευση: /*ADD2BASKET
Απαγόρευση: /*ADD_TO_COMPARE_LIST
Απαγόρευση: /*DELETE_FROM_COMPARE_LIST
Απαγόρευση: /*action=BUY
Απαγόρευση: /*set_filter=y
Απαγόρευση: /*?mode=matrix
Απαγόρευση: /*?mode=listitems
Disallow: /*openstat
Απαγόρευση: /*from=adwords
Disallow: /*utm_source
Διοργανωτής: www.site.ru

Robots.txt για DataLife Engine (DLE)

Πράκτορας χρήστη: *
Απαγόρευση: /engine/go.php
Απαγόρευση: /engine/download.php
Απαγόρευση: /engine/classes/highslide/
Απαγόρευση: /user/
Απαγόρευση: /tags/
Απαγόρευση: /newposts/
Απαγόρευση: /statistics.html
Απαγόρευση: /*subaction=userinfo
Απαγόρευση: /*subaction=newposts
Disallow: /*do=lastcomments
Απαγόρευση: /*do=feedback
Disallow: /*do=register
Απαγόρευση: /*do=lostpassword
Απαγόρευση: /*do=addnews
Απαγόρευση: /*do=stats
Απαγόρευση: /*do=pm
Disallow: /*do=search
Διοργανωτής: www.site.ru
Χάρτης ιστότοπου: http://www.site.ru/sitemap.xml

Robots.txt για Joomla

Πράκτορας χρήστη: *
Απαγόρευση: /administrator/
Απαγόρευση: /cache/
Απαγόρευση: /περιλαμβάνει/
Απαγόρευση: /εγκατάσταση/
Απαγόρευση: /language/
Απαγόρευση: /libraries/
Απαγόρευση: /media/
Απαγόρευση: /modules/
Απαγόρευση: /plugins/
Απαγόρευση: /templates/
Απαγόρευση: /tmp/
Απαγόρευση: /xmlrpc/
Απαγόρευση: *εκτύπωση
Disallow: /*utm_source
Απαγόρευση: /*mailto*
Απαγόρευση: /*start*
Απαγόρευση: /*feed*
Απαγόρευση: /*αναζήτηση*
Απαγόρευση: /*χρήστες*
Διοργανωτής: www.site.ru
Χάρτης ιστότοπου: http://www.site.ru/sitemap.xml

Robots.txt για Wordpress

Πράκτορας χρήστη: *
Απαγόρευση: /cgi-bin
Απαγόρευση: /wp-admin
Disallow: /wp-includes
Απαγόρευση: /wp-content/plugins
Απαγόρευση: /wp-content/cache
Απαγόρευση: /wp-content/themes
Απαγόρευση: */trackback
Απαγόρευση: */ροή
Απαγόρευση: /wp-login.php
Απαγόρευση: /wp-register.php
Διοργανωτής: www.site.ru
Χάρτης ιστότοπου: http://www.site.ru/sitemap.xml

Robots.txt για Ucoz

Πράκτορας χρήστη: *
Απαγόρευση: /a/
Απαγόρευση: /stat/
Απαγόρευση: /index/1
Απαγόρευση: /index/2
Απαγόρευση: /index/3
Απαγόρευση: /index/5
Απαγόρευση: /index/7
Απαγόρευση: /index/8
Απαγόρευση: /index/9
Απαγόρευση: /panel/
Απαγόρευση: /admin/
Απαγόρευση: /secure/
Απαγόρευση: /informer/
Απαγόρευση: /mchat
Απαγόρευση: /αναζήτηση
Απαγόρευση: /shop/order/
Απαγόρευση: /?ssid=
Απαγόρευση: /google
Απαγόρευση: /

Μορφή αρχείου Robots.txt

Πρόσθετες Οδηγίες

Κανονικές εκφράσεις στο robots.txt

Χάρτης τοποθεσίας

Καθρέφτες τοποθεσίας

Σχόλια στο robots.txt

Παραδείγματα αρχείων robots.txt

Συνήθη λάθη

Έλεγχος του αρχείου robots.txt για σφάλματα

Επιλογή 1: Βέλτιστος κώδικας robots.txt για WordPress

Η οδηγία Host δεν χρειάζεται πλέον για το Yandex

Αυτό είναι σημαντικό: κανόνες ταξινόμησης πριν από την επεξεργασία

Επιλογή 2: Τυπικό robots.txt για WordPress

Με βάση αυτές τις τροπολογίες, ο σωστός κωδικός θα πρέπει να μοιάζει με αυτό:

Ας το προσθέσουμε μόνοι μας

Έλεγχος και τεκμηρίωση του Robots.txt

Ρώτησα την Yandex...

Ερώτηση:

Απάντηση:

συμπέρασμα

Dynamic robots.txt

Καθυστέρηση ανίχνευσης - timeout για τρελά ρομπότ (δεν λαμβάνεται υπόψη από το 2018)

Yandex

Google

Τι είναι ένα αρχείορομπότ κείμενο,γιατί χρειάζεται και σε τι ευθύνεται

Που είναιρομπότ κείμενοπως να το δεις

Πώς να δημιουργήσετε το σωστόρομπότ κείμενο για το site

Γεννήτριες

ΠρόσθεταΓια WordPress

Δημιουργώρομπότ κείμενοχειροκίνητα

Χρησιμοποιήστε το σωστόρομπότ κείμενο από τον ιστότοπο κάποιου άλλου

Πώς να ανεβάσετε ένα αρχείο στον ιστότοπορομπότ κείμενο στον ριζικό φάκελο του ιστότοπου

Έλεγχος του αρχείου txt του robots

συμπέρασμα

Robots.txt για WordPress

Σωστό Robots.txt για WordPress

Πιθανά προβλήματα

Robots.txt - τι είναι, γιατί χρειάζεται και πού ζει;

Δομή και σωστή διαμόρφωση του αρχείου robots.txt

1. Οδηγία χρήστη-πράκτορα

2. Να επιτρέπεται η οδηγία

2. Απαγόρευση της οδηγίας

3. Οδηγία υποδοχής

4. Οδηγία για τον χάρτη ιστότοπου

5. Οδηγία Clean-param

Οδηγία Crawl-Delay

Σύνταξη

Παράδειγμα αρχείου robots.txt

Έλεγχος robots.txt

Γεννήτρια Robots.txt - διαδικτυακή δημιουργία

Έτοιμα αρχεία για δημοφιλή CMS

Αρχείο Robots.txt για έναν ιστότοπο στο 1C Bitrix

Robots.txt για DataLife Engine (DLE)

Robots.txt για Joomla

Robots.txt για Wordpress

Robots.txt για Ucoz

Αναφέρετε ένα τυπογραφικό λάθος

Κείμενο που θα σταλεί στους συντάκτες μας:

Το σχόλιό σας (προαιρετικό):