Keeping Out Google mit robots.txt

Dieser Artikel ist über die Partnerschaft mit Google: Einstieg in den Index, die Verbesserung des PageRank, Werbung auf Google, die Verteilung von Google anderer Leute Anzeigen auf Ihrer Website, und andere Arten der Aufbau Ihres Online-Business durch Google. So einen Abschnitt über abblitzend Google mag kontraproduktiv . Aber im Interesse der Erfassung aller Basen, hier ist sie. Manchmal sogar Publicity-hungrigen Webmaster behalten wollen weg von Google bestimmte Teile ihres Geschäfts. Private Seiten ausgelegt für Freunde und halbprivaten Seiten für die Besucher wählen, sollten nicht für die Welt im Allgemeinen indiziert werden. Ganze Websites, die noch in der Entwicklung, während auf der anderen Web in einem Staat leben, vielleicht am besten von Google ausgeschlossen werden. Es ist ziemlich einfach zu Google von der Indizierung einer gesamten Website oder ausgewählte Seiten einer Website zu verhindern, selbst wenn die Spinne kriecht Ihre URL.

Sie können verhindern, dass Google auch aus Caching Seiten Ihrer Website, ein Prozess, bei dem Google speichert jede indizierte Seite auf ihren Servern. In diesem Abschnitt wird erläutert, wie Google-Crawler und Caching Ihrer Website zu verhindern. Deflecting das Crawling Der Schlüssel zum Ablenken der Spider von Google ist die "robots.txt"-Datei, auch bekannt als die Robots Exclusion Protocol. Google-Spinne versteht und gehorcht dieses Protokolls. Die "robots.txt"-Datei ist eine kurze, einfache Textdatei, welche Sie im Hauptverzeichnis (Root-Verzeichnis) Ihrer Domain-Server. (Wenn Sie Ihren Web-Space Leasing von Ihrem ISP, nicht von einer dedizierten Web-Host, müssen Sie wahrscheinlich administrative Hilfe bei der Überführung der robots.txt-Datei.) Erzeugen Sie die robots.txt-Datei in Notepad oder einen anderen Texteditor, und übertragen Sie sie als ASCII-Text Datei. Am besten ist es nicht die Verwendung von Microsoft Word oder einem anderen Textverarbeitungsprogramm, die robots.txt-Datei zu erstellen. Aber wenn Sie das tun, denken Sie daran, speichern Sie es als Nur-Text-Datei mit dem . txt Dateiendung. Dann stellen Sie sicher übertragen Sie sie auf Ihren Server als Binär-Datei, die die Default-Einstellung vieler FTP (File Transfer Protocol)-Programmen. Die "robots.txt"-Datei enthält zwei Anweisungen:

--User-agent. Diese Anweisung gibt an, welche Suchmaschinen-Crawler muss die robots.txt-Anweisungen folgen. Sie können angeben, der Spider von Google, mehrere spezifische Spinnen, oder alle Spinnen. (Der Befehl funktioniert für alle Spinnen, und suchen Sie erkennen die Datei "robots.txt".)

--Disallow. Diese Zeile legt fest, welche Verzeichnisse (Ordner Web-Seite) oder auf bestimmte Seiten Ihrer Website sind off-limits, um die Suchmaschine. Sie müssen eine separate Zeile "Disallow" für jedes Verzeichnis ausgeschlossen.

Die robots.txt-Ressourcen-Site

  

Die Informationen in diesem Artikel gibt Ihnen alles, was Sie brauchen, um eine effektive robots.txt-Datei erstellen. Wenn Sie mehr wissen wollen, wie eine Liste der Spinne Namen und allgemeine Informationen zu den Crawlern, gehen Sie zur Web Robots Page hier:

www.robotstxt.org

Die FAQ (frequently asked questions) Abschnitt an dieser Stelle ist besonders nützlich: www.robotstxt.org / WC / faq.html

Eine Probe "robots.txt"-Datei sieht wie folgt aus:

User-agent: *
Disallow: /

Dieses Beispiel ist die am weitesten verbreitete und einfachste robots.txt-Datei. Das Sternchen am Ende User-agent: alle Spinnen sind ausgeschlossen. Der Schrägstrich nach Disallow bedeutet, dass alle Website-Verzeichnisse sind tabu. Der Name der Spider von Google heißt Googlebot. (Ich hätte es vorgezogen, Charlotte.) Wenn Sie schließt nicht nur Google und andere Suchmaschinen, verwenden Sie diese robots.txt-Datei: User-agent: Googlebot Disallow: / Sie können bestimmte Verzeichnisse als Out-of-Grenzen zu identifizieren, sei es zu wollen Google oder alle Spinnen.

Zum Beispiel:

User-agent: *
Disallow: / cgi-bin /
Disallow: / Familie /
Disallow: / photos /

Beachten Sie die Schrägstriche an beiden Enden des Verzeichnisses Strings im obigen Beispiel. Google erkennt an, dass der erste Schrägstrich Ihre Domain-Adresse impliziert, bevor es. Also, auf der ersten Zeile "Disallow", wenn dieser Linie wurden auf der Website bradhill.com gefunden, wäre die Abkürzung für http://www.bradhill.com/cgi-bin/

und Google wäre zu wissen, dass Verzeichnis aus dem Crawling auszuschließen. Die zweite Schrägstrich bedeutet, dass Sie ohne ein ganzes Verzeichnis. Um einzelne Seiten auszuschließen, geben Sie die Adresse der Seite nach dem ersten Schrägstrich, und lassen Sie den zweiten Schrägstrich, wie diese :

User-agent: *
Disallow: / Familie / reunion-notes.htm
Disallow: / blog/archive00082.htm

Jede Seite ausgeschlossen Verzeichnis und muss nach seinen eigenen Zeile "Disallow" aufgeführt werden. Don't Gruppe mehrere Objekte in einer Zeile. Um eine bestimmte Art von Datei auszuschließen, verwenden Sie das Sternchen durch die Erweiterung auf die Zeile "Disallow" gefolgt, wie folgt aus:

User-agent: *
Disallow: / Familie / *. jpg

Dieses Beispiel zeigt alle Spinnen auszuschließen . jpg Dateien (eine bestimmte Art von Bild-Datei) zu indizieren. Bei Google wird diese Art von apt, da Google eine ganze Suchmaschine widmet Bilder (www.google.com / images ). Wenn Sie ausschließen möchten alle Bilder auf Ihrer Website aus dem Google-Index Bilder, verwenden Sie eine robots.txt-Datei mit dem Namen der Bildersuche von Google Spinne, die Googlebot-Image:

User-agent: Googlebot-Image Disallow: /

Beachten Sie, dass Ihre Grafik Logos auch in diesem breiten Ausgrenzung enthalten sind, und werden daher nicht tauchen in Google Bildsuche. Diese Unterlassung ist in der Regel kein Problem und hat keinen Einfluss auf die Anzeige der Bilder, wenn die Leute Ihre Website besuchen. Der Stern-plus-Erweiterung anwenden, um jede Art von Dateien aus dem Crawling ausschließen wie . doc und . pdf Dateien. Auswirkungen der robots.txt-Datei sind nicht unmittelbar in vielen Fällen, vor allem wenn Sie versuchen, eine Seite, die derzeit auszuschließen. Zunächst müssen Sie für die Spinne warten auf Ihre Website erneut crawlen, und auf Ihrer Website gecrawlt Zyklus könnte täglich, monatlich, oder irgendwann dazwischen, je nach PageRank. Zweitens, die gewünschte Seite ausgeschlossen, wenn er zuvor aufgenommen, wird leben in den Google-Cache für einige Zeit. (Siehe den nächsten Abschnitt für Informationen über die Anfrage zum Entfernen aus dem Cache und der Vermeidung der Cache aus dem Anfang des Lebens einer Seite.)

Sie können die Datei "robots.txt" so oft anpassen, wie Sie möchten. Es ist ein gutes Werkzeug, wenn Gebäude frisch Seiten, die Sie nicht, während sich noch im Aufbau indiziert werden soll. Als sie fertig sind, nehmen sie aus der Datei "robots.txt". Ausschließen von Seiten mit dem Meta-Tag In einigen Situationen, mit einem Meta-Tag Spinnen zu lenken ist einfacher als der Bau einer "robots.txt"-Datei. Wenn Sie Ihre HTML-Code von Hand, um mit Grafik-Design-Programme wie Dreamweaver oder Front Page Gegensatz zu werfen in den Meta-Tag ist ein Stück Kuchen. Auch, wenn Sie nur eine Seite oder die Seite gelegentlich hier und da auszuschließen, könnte das Meta-Tag-Option erleichtert werden. Basierend auf diesen beiden Meta-Tags und die robots.txt-Datei ist in Ordnung. Nicht alle Spinnen das Meta-Tag verstehen, die hier beschrieben, aber Google tut. Hinweis: Siehe Artikel 3 für den wirksamen Einsatz von anderen Meta-Tags, dass ein Teil der Website Optimierung sind.

Sie stellen Meta-Tags nach der tag an der Spitze eines HTML-Dokuments. (Beachten Sie, dass Meta-Tags Groß-oder Kleinbuchstaben werden kann.) Um die Google-Spider von der Indizierung jeder einzelnen Seite Ihrer Website abzuhalten, stellte dieser Tag bei Ihren anderen Meta-Tags in HTML, die Seite ist: Beachten Sie die beiden Befehle, noindex und nofollow. Die erste verhindert, dass Google von der Indizierung Ihrer Seite, und der zweite verhindert, dass Google aus folgenden Links auf dieser Seite. Wenn Sie die Seite wollen aus dem Index ausgeschlossen werden, aber die Google auf seine ausgehenden Links zu folgen, lassen Sie das "nofollow"-Befehl wie folgt aus:

Buchen Sie Ihr Google-spezifischen Befehl, indem Sie den Namen der Spider von Google, Googlebot:

Vermeiden der Cache Andere Meta-Befehle verhindern, dass Seiten nicht kopiert, in den Cache von Google. Die Cache ist ein Magazin von Web-Seiten von Google übernommen. Ein Klick auf die Cache-Link auf einer Seite mit Suchergebnissen führt schnell auf die Seite, wie es schien, als zuletzt, kroch, die anders sein, als es scheint jetzt live im Internet könnten. Diese Funktion ist für Verbraucher Google-Nutzern groß. Ich habe sie vor kurzem nach Beobachtung David Letterman CBS.com beschweren sich über die Website, die ein Bild von dem Erzrivalen Jay Leno gehostet. Zu dem Zeitpunkt, zu wettern Letterman ausgestrahlt, spät in der Nacht hatte CBS bereits geändert der Website durch Ersetzen Bild Leno mit Letterman's. Ich wollte den ursprünglichen Ausrutscher sehen, so dass ich auf den Link im Google-Cache, und da war es. Häufig kroch Websites, die wichtigsten Updates täglich, machen wie Slate.com, in der Regel über einen Tag hinter der Google-Cache laufen. Website-Inhaber sind nicht überall glücklich über die Google-Cache. Zum einen tritt die Cache auf einen grauen Bereich der Urheberrechtsverletzung, da Google keine Genehmigung zu erhalten, um Kopien der Seiten, sie kriecht zu machen. (Google nicht zwischengespeichert Links auf Anfrage zu entfernen.) Zweitens, wenn Webmaster einer Seite zu ändern, wollen sie es verändert! Oft, wie in der CBS-Beispiel wird die Website-Eigentümer nicht wollen Leute wie mich Baggerarbeiten alte Fehler. Verhindern Sie eine beliebige Seite in die Google-Archiv mit dem folgenden Meta-Tag:

Verlängern Sie den Befehl, alle Spinnen fließend in Meta-Befehle ersetzen googlebot mit Robotern:

Die Unsichtbarkeit Problem Ablenkung der Spider von Google, wenn sie Ihre Website gelangt ist leicht genug, wie die vorangegangenen Abschnitte erklären. Ein größeres Problem ist, wenn Google Ihre Website gelangt, kann aber nicht sehen. Die Spinne ist gut gerüstet, um feine Unterschiede zu Ihrem Content, HTML-Tags zu machen, und Link-Netz, aber es ist ein Geschöpf der einfachen Geschmack. Erstellen einer Website mit bestimmten Technologien Stümpfe der Google-Spinne und sendet sie huschen mit leeren Händen. Insbesondere sind drei Faktoren leicht zu vereiteln oder Google mißfallen:

--Frames. Frames waren in der Regel seit ihrer Einführung in der HTML-Spezifikation in der Frühgeschichte des Web verachtet. Sie großen Schaden anrichten, mit dem Zurück-Button, und sie verwechseln die grundlegende Form der Web-Adressen (eine Seite pro Adresse) berechnet, indem eine Adresse der Seite in mehrere Teile, die wie kleine, unabhängige Webseiten betreiben. Jedoch Frames nicht rechtmäßige Nutzung haben. Google selbst verwendet Frames um Threads in Google Groups zu sehen (siehe Artikel 4). Aber die Google-Spider taucht die Nase, wenn es auf Frames. Frame-Seiten sind nicht unbedingt aus dem Index ausgeschlossen. Aber Fehler können eintreten verletzen den Index und Ihre Besucher entweder Ihre Frame-Seiten nicht mit aufgenommen werden, oder die Suchenden zur falschen Seite, weil der Adressierung Verwirrung geschickt. Wenn Sie Frames verwenden tun, machen Sie Ihre Website Google-freundlich (und Mensch-friendly), indem sie Links zu ungerahmt Versionen des gleichen Inhalts, wie Google nicht in Google Groups. Diese Links geben Google fleißig Spinne einen anderen Weg, um Ihre wertvollen Inhalte und Ihre Besucher erhalten eine Auswahl von Ansichtsmodi jeder gewinnt.

--Splash-Seiten. Splash-Seiten (nicht zu verwechseln Doorway Pages) sind Content-Seiten leeren Eintrag auf Websites. Wahrscheinlich haben Sie schon gesehen. Einige Splash-Seiten beschäftigen cool Einführungen in die Multimedia-Inhalte in nutzlose und unsichtbar für Google. Andere sind nur statische erlaubt Matten, die Benutzer zwingen, klicken Sie erneut, bevor Sie in die Website. Google nicht gern zeigen die Forscher auf Seiten spritzen. In der Tat sind diese langweiligen erlaubt Matten schlechten Website-Design in jeder Hinsicht, auch wenn Sie nicht über Google Indizierung kalt, und ich empfehlen, sich von ihnen zu befreien. Geben Sie Ihren Besuchern und Google, sinnvolle Inhalte aus dem ersten Klick, und Sie 'll mit glücklicher Besucher und eine bessere Platzierung in den Google-Index belohnt werden.

--Dynamisch generierte Seiten. A dynamische Seite ist eine, die "on the fly auf Entscheidungen, die der Besucher der Website beruhen erstellt wird. Websites, die ziehen ihre Inhalte aus Datenbanken (XML-Seiten bieten ein gutes Beispiel) zu erzeugen dynamische Seiten. Wenn Google ein solches Gebiet kriecht, kann es die riesige Anzahl von Seiten, manchmal stürzt der Website oder deren Server. Der Google-Spider greift einige dynamisch generierte Seiten, aber in der Regel zieht sich zurück, wenn es dynamische Inhalte Begegnungen. Als Ergebnis bleibt die Inhalte der Seite, in seiner Datenbank verborgen, unsichtbar für Google. Die Spinne kann sie nicht sammeln, auszuwerten, Index, oder sie gelten PageRank. (Weblog-Seiten fallen nicht in diese Kategorie sind sie dynamisch generiert durch du, an den Webmaster, aber nicht von Ihren Besuchern.) Unbeabsichtigte Unsichtbarkeit ist ein guter segue zum nächsten Artikel, die mit Design-Probleme aller Art in die Suche Angebote, die Seiten für die Spider von Google zu optimieren.

Ein Artikel eingereicht von Carlos Torres


Disclaimer:Unsere Website ist nicht verantwortlich für den Inhalt dieses Artikels. Webarticles ist eine kostenlose Informationsquelle.
Wichtig: Dieser Artikel "Keeping Google-Out mit robots.txt" wurde durch ein automatisches Software übersetzt. Wir fühlen uns leid für alle Rechtschreibfehler, die möglicherweise aufgetreten sind. Vielen Dank für Ihr Verständnis.


Online: 271 users browsing the articles directory