Πώς να βρείτε κρυφές σελίδες σε ιστότοπους

Το 2016, η Google χειρίστηκε περισσότερα από 3,2 τρισεκατομμύρια ερωτήματα αναζήτησης, ωστόσο τα αποτελέσματα που παρείχε η μηχανή αναζήτησης αντιπροσώπευαν μόνο ένα κλάσμα του διαθέσιμου περιεχομένου στο διαδίκτυο. Πολλές από τις διαθέσιμες πληροφορίες στο διαδίκτυο δεν είναι προσβάσιμες από μηχανές αναζήτησης, επομένως πρέπει να χρησιμοποιήσετε ειδικά εργαλεία ή να ερευνήσετε μόνοι σας ιστότοπους, για να βρείτε αυτές τις κρυφές σελίδες. Γνωστή ως ο βαθύς ιστός, αυτές οι κρυφές πληροφορίες αντιπροσωπεύουν έως και 5.000 φορές τις διαθέσιμες χρησιμοποιώντας τυπικές τεχνικές αναζήτησης.

Τύποι κρυμμένου περιεχομένου

Οι κρυφές σελίδες των ιστότοπων εμπίπτουν σε κατηγορίες που περιγράφουν γιατί παραμένουν αόρατες στις μηχανές αναζήτησης.

Ορισμένα αποτελούν δυναμικό περιεχόμενο, το οποίο προβάλλεται μόνο όταν ένας επισκέπτης εκδίδει ένα συγκεκριμένο αίτημα σε έναν ιστότοπο που χρησιμοποιεί κώδικα βάσει βάσης δεδομένων για την παρουσίαση στοχευμένων αποτελεσμάτων. Για παράδειγμα, αυτές οι σελίδες θα μπορούσαν να περιλαμβάνουν αποτελέσματα αγορών βάσει συγκεκριμένων συνδυασμών κριτηρίων προϊόντος. Οι μηχανές αναζήτησης δεν έχουν σχεδιαστεί για την παρακολούθηση και αποθήκευση πληροφοριών που είναι αποθηκευμένες σε αυτές τις βάσεις δεδομένων. Για να βρείτε αυτές τις σελίδες, θα πρέπει να μεταβείτε στον ιστότοπο και να αναζητήσετε τις συγκεκριμένες πληροφορίες που αναζητάτε ή να χρησιμοποιήσετε μια υπηρεσία αναζήτησης με βάση τη βάση δεδομένων, όπως το Bright Planet.

Ορισμένες σελίδες δεν διαθέτουν συνδέσμους που τους συνδέουν σε πηγές με δυνατότητα αναζήτησης. Οι προσωρινοί πόροι, όπως πολλές εκδόσεις ιστότοπων υπό ανάπτυξη, μπορούν να ενταχθούν σε αυτήν την κατηγορία, όπως και οι ιστότοποι με κακή σχεδίαση. Για παράδειγμα, εάν κάποιος δημιούργησε μια ιστοσελίδα και την ανέβαζε στον διακομιστή του ιστότοπου, αλλά απέτυχε να προσθέσει έναν σύνδεσμο σε αυτήν στις τρέχουσες σελίδες του ιστότοπου, κανείς δεν θα ήξερε ότι ήταν εκεί, συμπεριλαμβανομένων των μηχανών αναζήτησης.

Ακόμα περισσότερες σελίδες απαιτούν διαπιστευτήρια σύνδεσης για προβολή ή πρόσβαση σε αυτά, όπως ιστότοποι συνδρομών. Οι σχεδιαστές ιστοσελίδων ορίζουν σελίδες και τμήματα ιστότοπων ως όρια για τις μηχανές αναζήτησης, εξαλείφοντας αποτελεσματικά από το να βρεθούν με συμβατικά μέσα. Για να αποκτήσετε πρόσβαση σε αυτές τις σελίδες, συνήθως πρέπει να δημιουργήσετε έναν λογαριασμό προτού σας δοθεί άδεια πρόσβασης σε αυτές.

Χρήση αρχείων Robots.txt

Οι μηχανές αναζήτησης ανιχνεύουν τις σελίδες σε έναν ιστότοπο και ευρετηριάζουν το περιεχόμενό του, ώστε να μπορεί να εμφανίζεται ως απάντηση σε ερωτήματα. Όταν ένας κάτοχος ιστότοπου θέλει να εξαιρέσει ορισμένα τμήματα του τομέα της από αυτές τις διαδικασίες ευρετηρίασης, προσθέτει τις διευθύνσεις αυτών των καταλόγων ή σελίδων σε ένα ειδικό αρχείο κειμένου με το όνομα robots.txt, αποθηκευμένο στη ρίζα του ιστότοπού της. Επειδή οι περισσότεροι ιστότοποι περιλαμβάνουν ένα αρχείο ρομπότ ανεξάρτητα από το αν προσθέτουν τυχόν εξαιρέσεις σε αυτό, μπορείτε να χρησιμοποιήσετε το προβλέψιμο όνομα του εγγράφου για να εμφανίσετε τα περιεχόμενά του.

Εάν πληκτρολογήσετε "[domain name] /robots.txt" χωρίς τα εισαγωγικά στη γραμμή τοποθεσίας του προγράμματος περιήγησής σας, αντικαθιστώντας το "[domain name]" με τη διεύθυνση του ιστότοπου, το περιεχόμενο του αρχείου ρομπότ εμφανίζεται συχνά στο παράθυρο του προγράμματος περιήγησης μετά πατάτε το πλήκτρο "Enter". Οι καταχωρήσεις που έχουν προταθεί με το "disallow" ή "nofollow" αντιπροσωπεύουν τμήματα του ιστότοπου που παραμένουν απρόσιτα μέσω μιας μηχανής αναζήτησης.

Παραβίαση ιστοτόπου Do-It-Yourself

Εκτός από τα αρχεία robot.txt, μπορείτε συχνά να βρείτε διαφορετικά κρυμμένο περιεχόμενο πληκτρολογώντας διευθύνσεις ιστού για συγκεκριμένες σελίδες και φακέλους στο πρόγραμμα περιήγησης ιστού. Για παράδειγμα, αν κοιτάζατε έναν ιστότοπο καλλιτέχνη και παρατηρήσατε ότι κάθε σελίδα χρησιμοποιούσε την ίδια σύμβαση ονομασίας - όπως gallery1.html, gallery2.html, gallery4.html - τότε ενδέχεται να μπορείτε να βρείτε μια κρυφή συλλογή πληκτρολογώντας τη σελίδα " gallery3.html. " στο πρόγραμμα περιήγησής σας.

Ομοίως, εάν δείτε ότι ο ιστότοπος χρησιμοποιεί φακέλους για την οργάνωση σελίδων - όπως το example.com/content/page1.html, με το φάκελο "/ content" - τότε ίσως μπορείτε να δείτε τον ίδιο τον φάκελο πληκτρολογώντας τον ιστότοπο και τον φάκελο , χωρίς σελίδα, όπως "example.com/content/" στο πρόγραμμα περιήγησης ιστού. Εάν η πρόσβαση στον φάκελο δεν έχει απενεργοποιηθεί, τότε ενδέχεται να μπορείτε να πλοηγηθείτε στις σελίδες που περιέχει, καθώς και σε σελίδες σε οποιονδήποτε υποφάκελο, για να βρείτε κρυφό περιεχόμενο.