Keeping Google Out avec robots.txt

Cet article a établi un partenariat avec Google à propos: entrer dans l'indice, l'amélioration de votre PageRank, la publicité sur Google, de distribuer les annonces Google des autres sur votre site, et d'autres modes de construction de votre business en ligne par Google. Ainsi, une section sur les repousser Google pourrait sembler contre-productif . Mais dans l'intérêt de couvrir toutes les bases, c'est ici. Parfois, même la publicité-faim Webmasters souhaitez conserver Google loin de certaines parties de leur entreprise. Pages privées destinées à des amies et des pages avec deux lits créés pour les visiteurs sélectionnez doit pas être indexé pour le monde en général. Sites complets qui sont encore en cours de développement tout en existant sur le Web à l'état vivant pourraient mieux être exclus de Google. Il est assez facile d'empêcher Google d'indexer un site entier ou certaines pages d'un site, même si l'araignée exploration de votre URL.

Vous pouvez également empêcher Google de caching pages de votre site, un processus par lequel Google stocke chaque page indexée sur ses serveurs. Cette section explique comment faire pour empêcher Google d'exploration et de mise en cache de votre site. Déviation vers l'exploration La clé de la déviation d'araignée de Google est la fichier robots.txt, aussi connu comme le protocole d'exclusion des robots. Spider de Google comprend et obéit à ce protocole. Le fichier robots.txt est un court, simple fichier texte que vous placez dans le répertoire racine (répertoire racine) de votre serveur de domaine. (Si vous louez votre espace Web de votre fournisseur d'accès, pas d'un serveur dédié Web, vous avez probablement besoin d'une aide administrative en plaçant le fichier robots.txt.) Créer le fichier robots.txt dans Notepad ou un autre éditeur de texte, et de la transférer en tant que fichier de texte ASCII. Il est préférable de ne pas utiliser Microsoft Word ou autre traitement de texte pour créer le fichier robots.txt. Mais si vous le faites, pensez à l'enregistrer comme un fichier texte avec le . txt extension de fichier. Ensuite, assurez-vous de le transférer sur votre serveur en tant que fichier binaire, qui est le réglage par défaut de nombreux FTP (file transfer protocol) des programmes. Le fichier robots.txt contient deux instructions:

--User-agent. Cette instruction spécifie le crawler moteur de recherche doit suivre les instructions du fichier robots.txt. Vous spécifiez mai spider de Google, plusieurs araignées spécifique, ou toutes les araignées. (La commande fonctionne pour toutes les araignées qui cherchent et reconnaissent le fichier robots.txt.)

--Disallow. Cette ligne spécifie quels répertoires (dossiers page Web) ou des pages spécifiques de votre site sont interdites au moteur de recherche. Vous devez inclure une ligne Disallow distinct pour chaque répertoire exclus.

Le site de ressources robots.txt

  

Les informations contenues dans cet article vous donne tout que vous devez construire un fichier robots.txt efficace. Si vous voulez en savoir plus, comme une liste de noms des spiders et des informations générales sur les robots, allez à la page Web Robots ici:

www.robotstxt.org

La FAQ (Frequently Asked Questions) sur ce site est particulièrement utile: www.robotstxt.org / WC / faq.html

Un fichier robots.txt extrait ressemble à ceci:

User-agent: *
Disallow: /

Cet exemple est le plus commun et plus simple des fichiers robots.txt. L'astérisque après User-agent: toutes les araignées sont exclus. La barre oblique après Disallow: tous les répertoires de sites sont hors limites. Le nom de l'araignée de Google est Googlebot. (J'aurais préféré Charlotte.) Si vous voulez exclure seulement Google et aucune autres moteurs de recherche utilisent ce fichier robots.txt: User-agent: Googlebot Disallow: / Vous mai identifier certains répertoires comme étant hors des limites du terrain, soit pour Google ou toutes les araignées.

Par exemple:

User-agent: *
Disallow: / cgi-bin /
Disallow: / famille /
Disallow: / photos /

Remarquez les barres obliques aux deux extrémités des cordes répertoire dans l'exemple précédent. Google comprend que la barre oblique première implique votre adresse de domaine dont il dispose. Ainsi, sur la première ligne Disallow, si cette ligne ont été trouvés sur le site bradhill.com, serait un raccourci pour http://www.bradhill.com/cgi-bin/

et Google saurait exclure ce répertoire à partir de l'exploration. La seconde barre oblique signifie que vous décidiez d'exclure un répertoire entier. Pour exclure les pages individuelles, tapez l'adresse de la page suite à la première barre oblique, et laissez tout le deuxième barre oblique, comme ceci :

User-agent: *
Disallow: / famille / reunion-notes.htm
Disallow: / blog/archive00082.htm

Chaque répertoire exclus et la page doit être inscrit sur une ligne Disallow propres. Ne pas regrouper les éléments multiples sur une seule ligne. Pour exclure un certain type de fichier, utilisez l'astérisque suivi par l'extension du fichier sur la ligne Disallow, comme ceci:

User-agent: *
Disallow: / famille / *. jpg

Cet exemple indique toutes les araignées à exclure . jpg fichiers (un certain type de fichier image) de l'indexation. Dans le cas de Google, ce genre de commande est apte parce que Google consacre un moteur de recherche à l'ensemble des images (www.google.com / images ). Si vous voulez exclure tous des images sur votre site à partir de l'index Google Images, utilisez un fichier robots.txt avec le nom d'araignée Image de Google, qui est le robot Googlebot-Image:

User-agent: Googlebot-Image Disallow: /

Rappelez-vous que vos logos graphiques sont également inclus dans cette exclusion globale, et donc ne viendra pas à la recherche d'images de Google. Cette omission n'est normalement pas un problème et n'affecte pas l'affichage de vos images lorsque les gens visitent votre site. Utilisez l'astérisque-technique de plus l'extension d'exclure tout type de fichier à partir de l'exploration, tels que . doc et . pdf fichiers. Effets du fichier robots.txt ne sont pas immédiats dans de nombreux cas, surtout lorsque vous essayez d'exclure une page qui est actuellement inclus. Tout d'abord, vous devez attendre que l'araignée à l'exploration de votre site à nouveau, et le cycle de l'exploration de votre site pourrait être quotidienne, mensuelle, ou quelque temps entre les deux, en fonction de son PageRank. Deuxièmement, la page que vous voulez exclure, si elle a déjà compris, vivront dans le cache de Google pour un certain temps. (Voir la section suivante pour plus d'informations sur la demande de suppression du cache et d'éviter le cache depuis le début de la vie d'une page.)

Vous mai adapter le fichier robots.txt aussi souvent que vous le souhaitez. C'est un bon outil pour construire de nouvelles pages que vous ne souhaitez pas voir indexées alors qu'il était encore en construction. Quand ils ont terminé, prenez-les hors de fichier robots.txt. Exclusion de pages avec la balise META dans certaines situations, l'aide d'une balise META pour détourner des araignées est plus facile que de construire un fichier robots.txt. Si vous avez votre code HTML à la main, par opposition à la conception graphique en utilisant des programmes comme Dreamweaver ou Front Page, jetant dans la balise meta est un morceau de gâteau. Aussi, si vous voulez exclure une seule page, ou la page occasionnellement ici et là, l'option de balise META pourrait être plus facile. En utilisant les deux balises META et le fichier robots.txt est fine. Pas toutes les araignées comprendre la balise META décrits ici, mais Google ne. Note: Voir l'article 3 pour l'utilisation efficace des meta tags autres qui font partie du processus d'optimisation de site.

Vous placez balises META après la tag au dessus d'un document HTML. (Notez que les balises META peuvent être en majuscules ou en minuscules.) pour dissuader l'araignée de Google d'indexer toutes les pages individuelles de votre site, placez cette balise parmi vos autres méta tags HTML de cette page: Remarquez les deux commandes, noindex et nofollow. Le premier empêche Google d'indexer votre page, et le second empêche Google de suivre les liens vers cette page. Si vous souhaitez que la page doit être exclu de l'index Google mais que vous aimeriez suivre ses liens sortants, lâchez la commande nofollow, comme ceci:

Faites votre commande Google-spécifique en utilisant le nom de l'araignée de Google, Googlebot:

Eviter les commandes méta le cache de prévenir d'autres pages d'être copiés dans le cache de Google. Le cache est un entrepôt de pages Web copiées par Google. En cliquant sur le lien en cache d'une page de résultats de recherche apporte rapidement la page, comme il est apparu lors de la dernière exploration, qui pourrait être différent de ce qu'il apparaît maintenant, en direct sur le Web. Cette fonctionnalité est idéale pour les utilisateurs grand public de Google. Je l'ai utilisé récemment, après avoir vu David Letterman se plaignent à propos du site CBS.com, qui a accueilli une photo du grand rival Jay Leno. Au moment où Rant Letterman diffusée, tard dans la nuit, CBS avait déjà modifié le site en remplaçant l'image Leno avec Letterman. Je voulais voir la gaffe originale, si je frappe le lien en cache dans Google, et il était là. Fréquemment exploré les sites qui font de mises à jour majeures au quotidien, comme Slate.com, sont généralement d'environ un jour en retard dans le cache Google. Les propriétaires du site ne sont pas universellement heureux sur le cache de Google. D'une part, le cache de marche sur une zone grise de l'infraction de copyright, puisque Google n'obtient pas l'autorisation de faire des copies des sites qu'elle explorations. (Google ne supprimera le lien en cache sur demande.) Deuxièmement, lorsque Webmasters modifier une page, ils le veulent changé! Souvent, comme dans l'exemple de CBS, le propriétaire du site ne veut pas des gens comme moi de dragage en place les erreurs du passé. Empêcher une page d'entrer dans les archives de Google avec la balise META suivante:

Elargir la commande à toutes les araignées couramment dans les commandes de balise META en remplaçant googlebot avec des robots:

Le problème de l'invisibilité Déviation spider de Google quand il atteint votre site est assez facile, comme l'expliquent les sections précédentes. Un problème plus important, c'est quand Google est votre site, mais ne peut pas le voir. L'araignée est bien équipé pour faire des distinctions subtiles au sujet de votre contenu, les balises HTML, et le réseau de liens, mais il est une créature de goûts simples. Création d'un site à l'aide de certaines technologies moignons l'arachnide Google et l'envoie se précipiter les mains vides. En particulier, trois facteurs sont de nature à entraver ou déplaire à Google:

--Frames. Images ont été généralement détesté depuis leur introduction dans la spécification HTML tôt dans l'histoire du Web. Ils ravages avec le bouton Back, et ils confondent le format fondamentaux des adresses Web (une page par adresse) en divisant une adresse de la page en portions multiples qui fonctionnent comme des petits, des pages Web indépendants. Cependant, les cadres n'ont utilisations légitimes. Google lui-même utilise des cadres pour afficher les threads, dans les Groupes Google (voir article 4). Mais l'araignée Google tourne son nez quand elle rencontre les cadres. Pages composées de cadres ne sont pas nécessairement exclus de l'indice. Mais des erreurs peuvent s'ensuivre nuisent à la fois l'indice et vos visiteurs, soit vos pages encadrées ne sera pas inclus, ou les chercheurs sont envoyés à la mauvaise page parce que d'aborder la confusion. Si vous n'êtes utilise des cadres, rendre votre site par Google (et humain-Friendly) en fournissant des liens vers des versions sans cadre d'un même contenu, comme Google le fait dans Google Groupes. Ces liens donnent araignée diligente de Google un autre itinéraire vers votre contenu intéressant, et vos visiteurs obtenir un choix de modes de visualisation gagne tout le monde.

--Splash pages. Splash pages (à ne pas confondre avec les pages satellites) se contentent-pages d'entrée vide pour les sites Web. Vous avez probablement déjà vus. Certaines pages de garde emploient cool présentations multimédia pour le contenu au sein inutile et invisible à Google. D'autres sont de simples statiques paillassons qui forcent les utilisateurs à cliquer de nouveau avant d'entrer dans le site. Google n'aime pas pointait son chercheurs to splash pages. En fait, ces tapis de bienvenue sont fastidieuses mauvaise conception du site par toute norme, même si vous ne vous souciez pas sur l'indexation de Google, et je recommande de se débarrasser d'eux. Donnez à vos visiteurs, et Google, un contenu significatif à partir du premier clic, et vous 'll être récompensés avec les visiteurs plus heureux et un meilleur placement dans l'index de Google.

--Pages générées dynamiquement. Un page dynamique est celui qui est créé à la volée en fonction des choix faits par le visiteur du site. Les sites qui tirent leur contenu de bases de données (sites XML offrent un bon exemple) générer des pages dynamiques. Lorsque Google explore un tel site, il peut générer un très grand nombre de pages, parfois planter le site ou son serveur. L'araignée Google ramasse des pages générées dynamiquement, mais généralement le dos large quand il rencontre le contenu dynamique. En conséquence, le contenu du site, caché dans sa base de données, reste invisible à Google. L'araignée ne peut pas collecter, évaluer, elle index, ou appliquer PageRank pour elle. (Pages Weblog ne tombent pas dans cette catégorie, ils sont générés dynamiquement par tu, le webmaster, mais pas par vos visiteurs.) invisibilité involontaire est un bon segue à l'article suivant, qui traite des problèmes de conception de toutes sortes dans la quête visant à optimiser les pages pour spider de Google.

un article présenté par Carlos Torres


Disclaimer:Notre site n'est pas responsable du contenu de cet article. Webarticles est une ressource d'information gratuite.
Important: Cet article «Keeping Google Out avec robots.txt" a été traduit par un logiciel automatique. Nous nous sentons désolés pour les fautes d'orthographe que mai ont eu lieu. Nous vous remercions de votre compréhension.


Online: 289 users browsing the articles directory