維持Googleのアウトでのrobots.txt

この記事について、Googleと提携しています:インデックスに入ると、PageRankは、Googleでの広告は、サイト上の他の人々のGoogleの広告を配布すると、Googleを通して、あなたのオンラインビジネスの建物の他の方法を改善します。したがって、Google rebuffingについてのセクションでは逆に思えるかもしれない。しかし、全拠点をカバーする利益のために、ここにある。時にはも宣伝に飢えたウェブマスターGoogleは自社のビジネスの特定の部分から維持したい。プライベートページを友達や半民間のページを選択し訪問者のために作成された世界のために大規模でインデックスされないよう設計した。はまだ開発中ですサイト全体がWeb上でのライブ状態で、既存の最高のGoogleから除外されることがあります。これはかなり全体のサイトまたはサイトの選択ページをインデックスからの場合でも、クモのURLをクロールするGoogleのを防ぐためには簡単だ。

は、Googleからも防ぐことができます キャッシング あなたのサイトに、これはGoogleのサーバー上の各インデックスページを格納するプロセスのページ。このセクションでどのようにクロールしてあなたのサイトのキャッシュからGoogleを防ぐために説明します。Googleのスパイダー偏向キーをクロール偏光され robots.txtファイルは、 また、Robots Exclusion Protocolに呼ばれます。 Googleのスパイダーを理解し、このプロトコルに従う。robots.txtファイルの短い、単純なテキストファイルのトップレベルディレクトリのドメインサーバー(ルートディレクトリ)に配置されます。もしあなたのISPからではなく、専用のWebホストからあなたのWebスペースのリース(おそらくrobots.txtファイルを配置することで管理者の助けが必要)をメモ帳では、robots.txtファイルまたは別のテキストエディタを作成し、それを転送ASCIIテキストファイルです。これは、robots.txtファイルを作成するMicrosoft Wordまたはほかのワードプロセッサを使用するのが最善ではない。しかし、もし、覚えていると、プレーンテキストファイルとして保存する 。txtの ファイル拡張子。それからあなたのサーバーには、デフォルトの多くのFTPの設定()プログラムのファイル転送プロトコルはバイナリファイルとして転送してください。robots.txtファイルを2つの命令が含まれて:

-user - agentが。 この命令は、検索エンジンのクローラはrobots.txtの指示に従う必要がありますを指定します。 Googleのスパイダーは、複数の特定のスパイダー、またはすべてのクモを指定することがあります。 (コマンドはすべてのスパイダーが求めると、robots.txtファイルを認めるための動作します。)

-不許可。 この行は、消灯しているどのディレクトリ(Webページのフォルダ)、またはお客様のサイトでは、特定のページを検索エンジンへの制限を指定します。各除外するディレクトリを別のDisallow行を含める必要があります。

robots.txtのリソースサイト

  

この記事の情報は、あなたが効果的なrobots.txtファイルを作成するに必要なすべてを提供します。場合は、詳細を知るには、クモの名前やクローラに関する一般的な情報のリストなどは、Webロボットのページにここにしたい:

www.robotstxt.org

よくあるご質問(頻繁に)このサイトではセクションの質問に特に便利です: www.robotstxt.org /トイレ/ faq.html

サンプルのrobots.txtファイルでこのようになります:

ユーザーエージェント:*
を禁止:/

この例では、最も単純なrobots.txtファイルが一般的です。ユーザーの後にアスタリスクエージェントのすべてのスパイダーは除外されるということです。後に禁止するすべてのサイトのディレクトリをオフにされて限界を意味するスラッシュGoogleのスパイダーの名はGooglebotです。 (私はシャーロットが望んでいた。)場合、エージェント:Googlebotのを許可しない:/あなたがアウトなどの特定のディレクトリの境界を識別するかもしれないが、どちらかだけに、Googleや他の検索エンジンは、このrobots.txtファイル:ユーザ使用を除外するGoogleまたはGoogleのスパイダー。

例えば:

ユーザーエージェント:*
許可しない:/のcgi - bin /
許可しない:/ファミリー/
許可しない:/写真/

前述の例では、ディレクトリ文字列の両端に注意してスラッシュ。 Googleは、最初のスラッシュを前に、あなたのドメインのアドレスを意味を理解します。だから、最初のDisallow行でいれば、その行bradhill.comサイトでは、速記のためになるが発見された http://www.bradhill.com/cgi-bin/

とGoogleのクロールの対象からそのディレクトリを除外するために知っているだろう。進む場合は、ディレクトリ全体を除外していることを意味スラッシュ2番目の、スラッシュを最初に、次のページのアドレスタイプの個々のページを除外するには、今後、このようにスラッシュ2番目のオフのままに:

ユーザーエージェント:*
許可しない:/ファミリー/再会- notes.htm
許可しない:/ blog/archive00082.htm

各除外するディレクトリやページを、独自のDisallow行に表示される必要があります。1行上にないグループに複数のアイテムをしないでください。ファイルの特定の種類を除外するには、次のようにアスタリスクDisallow行には、ファイルの拡張子を使用します:

ユーザーエージェント:*
許可しない:/ファミリー/ *. jpgの

この例では除外するために、すべてのスパイダーに指示 は、。jpg ファイル(画像ファイルの特定のタイプ)のインデックスから。なぜなら、Googleイメージに全体の検索エンジンを捧げる、Googleの場合は、コマンドのこの種のaptがあります(www.google.com /画像 )。場合を除外する すべての Googleのイメージインデックスからサイト上の画像は、GooglebotではGoogleのイメージクモ、-イメージの名前には、robots.txtファイルを使用する:

ユーザーエージェント:Googlebot - Imageのを禁止:/

は、お使いのグラフィックのロゴも、この広範な除外に含まれているので、覚えGoogleのイメージ検索で有効にされません。つまり漏れのようなクロールから、任意のファイルタイプを除外するには、アスタリスクプラス拡張手法を使用し、通常ではない問題であり、人々があなたのサイトにアクセスし、画像の表示には影響しません。 。docの および PDFファイル ファイルの効果は、robots.txtファイルの多くのケースでは、特に場合は、現在含まれるページを除外しようとしてすぐにされていません。まず、スパイダーが再びサイトをクロールし、あなたのサイトのクロールサイクル、毎月、またはいつかの間毎日のかもしれない、そのランクに応じて待つ必要があります。第二に、除外するページの場合は、以前は含まれて、しばらくの間、Googleのキャッシュ上に生きるのです。については、キャッシュからの削除を要求し、ページの人生のスタートから、キャッシュを回避する(詳細については、次のセクションを参照)。

好きなようにしたい場合が多いように、robots.txtファイルを調整することがあります。それは良いツールは、新鮮なページを構築しながら、下にインデックスに登録したくない建物のときにして、robots.txtファイルに搬出を終えた。いくつかの状況では、メタタグを含むページを除けば、メタタグを使用してクモをかわすため、より簡単にrobots.txtファイルを建設中です。場合は、手作業でのHTMLコードは、グラフィックデザインのプログラムを使用してDreamweaverやフロントページなどのメタタグを投げるはなく、ケーキの一部です。また、必要に応じて、1ページのみ、または臨時のページはこことそこを除外するには、メタタグのオプションを容易にすることができます。両方のメタタグやrobots.txtファイルを使用して結構です。すべてのスパイダーは、メタタグを理解し、ここで説明が、Googleはありません。 注: は、サイトの最適化プロセスの一部である他のメタタグの効果的な利用第3条参照してください。

あなたの後にメタタグの場所 HTMLドキュメントの上部にあるタグ(メタタグを大文字または小文字にすることはできません。)あなたのサイトのすべての個別のページをインデックスからは、Googleのスパイダーを説得するために、そのページのHTMLに、他のメタタグの間でこのタグを入れる: 2つのコマンド、NOINDEXとnofollowを注意してください。最初にページをインデックスから、2番目のGoogleの防止、そのページ上のリンクを次の中からGoogleのを防ぎます。場合は、ページをインデックスからは除外されるため、その発信リンクをたどって、Googleのようだが、このようにnofollowコマンドをオフのままに:

確認あなたのコマンドGoogle固有のGoogleのスパイダーは、Googlebotの名前を使用して:

キャッシュを他のメタコマンドからのページのを防ぐための回避、Googleのキャッシュにコピーされます。 キャッシュ のWebページがGoogleによってコピーされるの宝庫です。検索結果ページ上の[キャッシュ]リンクをクリックすると、すぐにページとしてときに最後には、今よりは、Web上でのライブが表示されます異なることがありますがクロールさをもたらします。この機能はGoogleの消費者ユーザーに最適です。私は最近、デビッドレターマンを見た後、使用される最大のライバルであるジェイレノの写真をホストCBS.comサイトは、文句を言う。深夜レターの暴言放送時間では、CBSのすでにレノの画像を置き換えることにより、サイトに変わっていたレターマンだ。私は、元の失言を参照しているので、私はGoogleのキャッシュリンクを叩くだけで、そこにはいました。よくあるサイトでは、Slate.comなど、一般的には約1日の背後にあるGoogleのキャッシュで実行される主要なアップデート、毎日をクロールさサイトの所有者普遍的にGoogleのキャッシュについては満足していないです。以来、Googleがクロールするサイトのコピーを作成する認可を取得しない場合1つの事については、キャッシュは著作権侵害の灰色の領域に、階段の段数。 (Googleの要望に応じて、キャッシュされたリンクを削除しません。)第二に、ウェブマスターのページを変更、彼らはそれを 変更された! 多くの場合、CBSの例のように、サイトの所有者は私のような人々が古い間違いを浚渫望んでいません。次のメタタグには、Googleのアーカイブに入るから、任意のページ予防:

すべてのスパイダーは、メタタグのコマンドで堪能するロボットのGooglebotで置き換えることにより、コマンドの拡張:

目に見えない問題をGoogleのスパイダー偏ときには十分に容易あなたのサイトに到達するように、前のセクションで説明します。大きな問題は、Googleがお客様のサイトに到達ですが、それを見ることはできません。クモだけでなく、コンテンツ、HTMLタグについての細かい区別をすること、およびリンクのネットワーク装備されて、それは単純な味の生き物です。サイトの特定の技術を使用して作成すると、Googleのクモ形類の切り株と手ぶらで走り回る左利きを送信します。特に、3つの要因挫折したり、Googleの気を悪くする傾向がある:

-フレーム。 フレームは一般的にWebの歴史の初期には、HTMLの仕様での導入以来、嫌われている。彼らは、[戻る]ボタンをめちゃくちゃにする、彼らのWebアドレスの基本的な形式を混乱させる(アドレスごとに1ページ)は、複数の部分には、少々の独立したWebページのように動作する1つのページのアドレスを割った。合法的に使っているが、フレームがありません。 Google自身がGoogleグループのスレッドを表示します(第4条)を参照してフレームを使用します。しかし、Googleのスパイダーが、フレームを検出、その鼻になります。フレーム構成のページは、必ずしもインデックスから除外されていません。しかし、エラーの両方のインデックスとあなたの訪問者のいずれかのフレームページ、または含まれていないが検索ユーザーに間違ったページには混乱に対処するに送信されます傷つける結果として起きることができます。場合は、フレームを使用しないことをあなたのサイトのGoogleに優しい(と人間に優しい)は、同じコンテンツのアンフレームドバージョンへのリンクを提供することとして、Googleは、Googleグループではありません。これらのリンクは、Googleの勤勉なクモあなたの貴重なコンテンツを、別のルートを与えるあなたの訪問者モードで、みんなが勝ち視聴の選択肢がある。

-スプラッシュページ。 スプラッシュページ(入り口ページで)満足しているのWebサイトへの空のエントリがページを混同することはありません。おそらくそれらを見てきました。いくつかのスプラッシュページ内のコンテンツにクールなマルチメディアの紹介採用役に立たないとGoogleには見えない。その他、単なる静的な歓迎畳のサイトにGoogleはしないページのスプラッシュには、検索ユーザーを指すように取得する前に、強制的にユーザーに再度クリックしている。実際には、これらの面倒を歓迎マットは標準で、不適切なサイトのデザイン、いる場合でも、Googleのインデックスについては気にしない、と私を得るそれらの除去、あなたの訪問者聞かをお勧めしますとGoogleは、意味のあるコンテンツを最初にクリックしてから、あなた'北韓幸せな訪問者とGoogleのインデックスに良い配置には報われる。

-動的に生成されたページ。 動的ページ 1つは、その場の選択肢は、サイトの訪問者によって作らに基づいて作成されます。サイトでは、データベースからコンテンツをプル(XMLサイト)の動的ページを生成する良い例を提供します。 Googleがこのようなサイトをクロールすると、ページの膨大な数の、時にはサイトやサーバのクラッシュを生成することができます。 Googleのスパイダーが、いくつかを動的に生成されるページをピックアップ一般的には、動的なコンテンツを検出するオフにバックアップします。結果として、サイトのコンテンツは、そのデータベース内の非表示は、Googleには見えないままです。スパイダー、それを評価し、インデックスが、それを収集することができない、またはそれにランクを適用します。 (ウェブログページには、動的に生成され、このカテゴリーに該当しない あなた、 ウェブマスターのではなく、あなたの訪問者が。)不慮の不可視性を追求する、あらゆる種類の設計上の問題でGoogleのスパイダーのページを最適化する契約を、次の記事への良い滑らかに移行されます。

記事は、カルロストーレスが提出


免責事項:弊社のウェブサイトは、この資料の内容については責任を負いません。 Webarticles無料の情報リソースです。
重要: この記事の"robots.txtをGoogleにアウト維持"自動ソフトウェアによって翻訳された。大変申し訳ございませんが発生した可能性があります任意のスペルミスを感じている。お客様のご理解いただき、ありがとうございます。


Online: 243 users browsing the articles directory