Robots.txt Manter fora com o Google

Este artigo é sobre a parceria com o Google: entrar no índice, melhorar o seu PageRank, publicidade no Google, a distribuição de anúncios de outras pessoas do Google no seu site, e outras formas de construir o seu negócio on-line através do Google. Então, uma seção sobre rebuffing Google pode parecer contraproducente . Mas no interesse de cobrir todas as bases, aqui está. Às vezes, a publicidade, mesmo com fome-Webmasters quer manter o Google longe de certas partes de seus negócios. Páginas privadas projetado para os amigos e páginas semiprivate criado para selecionar os visitantes não devem ser indexados para o mundo em geral. Sites inteiros que ainda estão em desenvolvimento, enquanto existentes na Web em um estado vivo poderia ser melhor excluídos do Google. É bastante fácil de evitar que o Google faça a indexação de um site inteiro ou algumas páginas de um site, mesmo que a aranha rastrear a sua URL.

Você pode impedir que o Google também em cache páginas do seu site, um processo pelo qual o Google armazena todas as páginas indexadas em seus servidores. Esta seção explica como evitar o Google de indexar e cache de seu site. Desviando o crawl A chave para desviar a aranha do Google é a arquivo robots.txt, também conhecido como o Robots Exclusion Protocol. Aranha do Google entende e obedece a este protocolo. O arquivo robots.txt é um pequeno arquivo de texto simples que você coloca no directório raiz (diretório raiz) do seu servidor de domínio. (Se você alugar o seu espaço Web do ISP, não de um host da Web dedicado, você provavelmente precisará de ajuda administrativa em colocar o arquivo robots.txt.) Crie o arquivo robots.txt no Bloco de Notas ou outro editor de texto, e transferi-lo como um ASCII arquivo de texto. É melhor não usar o Microsoft Word ou outro processador de texto para criar o arquivo robots.txt. Mas se você fizer isso, lembre-se de salvá-lo como um arquivo de texto com o . txt extensão de arquivo. Em seguida, certifique-se de transferi-lo para o servidor como um arquivo binário, que é a configuração padrão de muitos FTP (File Transfer Protocol) programas. O arquivo robots.txt contém duas instruções:

--User-agent. Esta instrução especifica qual rastreador motor de busca devem seguir as instruções robots.txt. Você pode especificar a aranha de Google, várias aranhas específica, ou todas as aranhas. (O comando funciona para todas as aranhas que buscar e reconhecer o arquivo robots.txt.)

--Disallow. Esta linha especifica quais os diretórios (pastas Web page) ou páginas específicas em seu site estão fora dos limites para o motor de busca. Você deve incluir uma linha separada para cada diretório Disallow excluídos.

O local do recurso robots.txt

  

A informação contida neste artigo dá-lhe tudo que você precisa para construir um arquivo robots.txt eficaz. Se você quiser saber mais, como uma lista de nomes de aranha e informações gerais sobre as esteiras rolantes, vá até a página da Web Robots aqui:

www.robotstxt.org

O FAQ (Frequently Asked Questions) neste local é particularmente útil: www.robotstxt.org / wc / faq.html

Um arquivo robots.txt exemplo parecido com este:

User-agent: *
Disallow: /

Este exemplo é o mais comum e mais simples arquivo robots.txt. O asterisco após o Usuário-agente, todas as aranhas são excluídos. A barra após Disallow: todos os diretórios do site estão fora dos limites. O nome da aranha do Google é o Googlebot. (Eu teria preferido Charlotte.) Se você quiser excluir apenas o Google e outros motores de busca não, usar esse arquivo robots.txt: User-agent: Googlebot Disallow: / Você pode identificar alguns diretórios como fora da quadra, seja para Google ou de todas as aranhas.

Por exemplo:

User-agent: *
Disallow: / cgi-bin /
Disallow: / família /
Disallow: / fotos /

Observe as barras em ambas as extremidades das cordas diretório no exemplo anterior. O Google entende que a barra primeiro implica o seu endereço de domínio antes dele. Assim, na linha Disallow primeiro, se essa linha foram encontrados no local bradhill.com, seria abreviada para http://www.bradhill.com/cgi-bin/

eo Google iria saber para excluir esse diretório a partir do rastreamento. A segunda barra significa que você está excluindo um diretório inteiro. Para excluir páginas individuais, digite o endereço da página após a primeira barra, e deixe fora da segunda barra, como este :

User-agent: *
Disallow: / família / Reunião-notes.htm
Disallow: / blog/archive00082.htm

Cada diretório excluídos e página deverão ser listados em sua própria linha Disallow. Do grupo de itens não múltiplas em uma linha. Para excluir um determinado tipo de arquivo, use o asterisco seguido pela extensão do arquivo na linha de não permitir, como este:

User-agent: *
Disallow: / família / *. jpg

Este exemplo informa todas as aranhas para excluir . jpg (arquivos de um determinado tipo de arquivo de imagem) de indexação. No caso do Google, este tipo de comando é apt porque o Google dedica todo um motor de busca de imagens (www.google.com / images ). Se você quiser excluir todos imagens em seu site a partir do índice de Imagens do Google, usar um arquivo robots.txt com o nome de aranha do Google Image, que é o Googlebot-Image:

User-agent: Googlebot-Image Disallow: /

Lembre-se que o seu grafismo também estão incluídos nesta ampla exclusão e, portanto, não irá transformar-se em busca de imagens do Google. Esta omissão é normalmente não um problema e não afeta a exibição de suas imagens quando as pessoas visitam seu site. Use o asterisco-plus técnica de extensão de excluir qualquer tipo de arquivo a partir do rastreamento, tais como . doc e . pdf arquivos. Efeitos do arquivo robots.txt não são imediatos, em muitos casos, especialmente quando você está tentando excluir uma página que está actualmente incluído. Primeiro, você deve aguardar a aranha para rastrear o seu site novamente, eo ciclo do seu site de rastreamento pode ser diária, mensal ou algures no meio, dependendo de seu PageRank. Segundo, a página que você deseja excluir, se previamente incluídos, viverá no cache do Google há algum tempo. (Veja a próxima seção para obter informações sobre como solicitar a remoção do cache e evitando o cache a partir do início da vida de uma página.)

Você pode ajustar o arquivo robots.txt tão frequentemente como você gostaria. É uma boa ferramenta na construção de novas páginas que você não deseja indexar, enquanto ainda em construção. Quando terminar, tirá-las do arquivo robots.txt. Excluindo páginas com a tag meta Em algumas situações, usando uma meta tag para desviar aranhas é mais fácil do que construir um arquivo robots.txt. Se seu código HTML à mão, em vez de usar programas de desenho gráfico como Dreamweaver ou Front Page, jogando na metatag é um pedaço de bolo. Além disso, se você quiser excluir apenas uma página, ou a página ocasional aqui e ali, a opção meta tag poderia ser mais fácil. Utilizando ambas as meta-tags e do arquivo robots.txt é ótimo. Nem todas as aranhas compreender a meta tag aqui descrito, mas o Google faz. Nota: Ver artigo 3 º para o uso efetivo de meta tags outras que fazem parte do processo de otimização do site.

Você coloca metatags após a tag no topo de um documento HTML. (Note que meta tags podem ser maiúsculas ou minúsculas.) para dissuadir a aranha do Google de indexar qualquer página individual de seu site, coloque essa tag entre outras sua meta tags em HTML que página: Observe os dois comandos, e nofollow noindex. O primeiro impede que o Google faça a indexação de sua página, ea segunda impede que o Google siga os links na página. Se você quiser que a página seja excluído do índice do Google, mas gostaria de seguir os seus links de saída, sair fora do comando "nofollow", como este:

Faça o seu comando específico do Google usando o nome de aranha do Google, Googlebot:

Evitando o cache de comandos de outros meta evitar páginas seja copiado para o cache do Google. O cache é um celeiro de páginas da Web copiada pelo Google. Clicar no link em cache em uma página de resultados rapidamente abre a página como ela apareceu quando última varredura, que pode ser diferente do que parece agora, ao vivo na web. Este recurso é ótimo para usuários do Google consumidor. Usei-o recentemente, depois de ver David Letterman queixar-se do local CBS.com, que recebeu uma foto do arqui-rival Jay Leno. Até o momento rant Letterman foi ao ar, à noite, a CBS já tinha mudado o site através da substituição do Leno com Letterman. Eu queria ver a gafe original, assim que eu acertar o link em cache no Google, e lá estava ele. Freqüentes crawled sites que fazem grandes atualizações diárias, como Slate.com, geralmente executados cerca de um dia para trás no cache do Google. Os proprietários do site não são universalmente feliz com o cache do Google. Por um lado, o cache pisa em cima de uma área cinzenta de violação de direitos autorais, já que o Google não obter autorização para fazer cópias dos sites que indexa. (Google não remover os links em cache a pedido.) Segundo, quando Webmasters mudar a página, eles querem mudou! Muitas vezes, como no exemplo a CBS, o proprietário do local não quer que pessoas como eu dragagem de velhos erros. Impedir qualquer página de entrar no arquivo do Google com a seguinte meta tag:

Estender o comando para todas as aranhas fluentes em comandos metatag substituindo googlebot com robôs:

O problema da invisibilidade Desviar aranha do Google quando ele atinge o seu site é fácil, como as seções anteriores explicar. O maior problema é quando o Google chega a seu site, mas não pode vê-lo. A aranha está bem equipada para fazer distinções sobre o seu conteúdo, as tags HTML, e ligação de rede, mas é uma criatura de gostos simples. Criando um site usando tecnologias certas cepas do aracnídeo Google e envia-lo correndo de mãos vazias. Em particular, três fatores são capazes de frustrar ou desagradar Google:

--Frames. Quadros têm sido geralmente detestado desde a sua introdução na especificação HTML no início da história da web. Eles estragos com o botão Voltar e confundem o formato fundamental dos endereços Web (uma página por endereço), dividindo um endereço de página em várias porções que funcionam como pequenos, páginas da Web independentes. No entanto, os quadros não têm usos legítimos. O próprio Google utiliza frames para mostrar as postagens no Google Groups (ver artigo 4). Mas a aranha do Google transforma o nariz quando ele encontra quadros. Framed páginas não são necessariamente excluídas do índice. Mas os erros podem acontecer prejudicando tanto o índice e seus visitantes, quer as suas páginas enquadradas não serão incluídos, ou os pesquisadores são enviadas para a página errada, porque de abordar a confusão. Se você não usam frames, tornar seu site amigável ao Google (e humano-friendly), fornecendo links para as versões sem moldura do mesmo conteúdo, como o Google faz no Google Groups. Estas ligações dão aranha diligente Google é uma outra rota para o seu valioso conteúdo, e os visitantes podem escolher entre os modos de visualização ganha todo mundo.

--As páginas do respingo. Splash páginas (não confundir com páginas de entrada) são páginas de conteúdo de entrada vazia para sites. Você provavelmente já viu. Algumas páginas splash empregar apresentações multimídia para arrefecer o conteúdo dentro inútil e invisível para o Google. Outros são mera estática esteiras bem-vindo que forçar os usuários a clicar novamente antes de entrar no site. Google não gosta de apontar seus pesquisadores a splash pages. Na verdade, esses tapetes são bem vindas tedioso site design ruim por qualquer padrão, mesmo se você não se importa com a indexação do Google, e eu recomendo se livrar deles. Dar a seus visitantes, eo Google, os conteúdos significativos a partir do primeiro clique, e você 'll ser recompensado com os visitantes mais felizes e melhor posicionamento no índice do Google.

--Geradas dinamicamente páginas. A página dinâmica é aquele que é criado na mosca com base nas escolhas feitas pelos visitantes do site. Sites que puxar seu conteúdo a partir de bases de dados (XML sites são um bom exemplo) geram páginas dinâmicas. Quando o Google rastreia tal local, que pode gerar um grande número de páginas, por vezes, batendo o site ou o seu servidor. A aranha Google pega algumas páginas geradas dinamicamente, mas geralmente se afasta quando ele encontra um conteúdo dinâmico. Como resultado, o conteúdo do site, escondido em seu banco de dados, permanece invisível para o Google. A aranha não pode cobrá-lo, avaliá-lo, o índice, ou aplicar o PageRank para ele. (Páginas Weblog não se enquadram nesta categoria são geradas dinamicamente por você, o webmaster, mas não por seus visitantes.) invisibilidade involuntária segue um bom para o próximo artigo, que trata de questões de design de todos os tipos na busca de otimizar suas páginas para a aranha do Google.

um artigo apresentado por Carlos Torres


Isenção de responsabilidade:O nosso site não se responsabiliza pelo conteúdo deste artigo. Webarticles é uma fonte de informação livre.
Importante: Este artigo "Manter fora com o Google robots.txt" foi traduzida por um software automático. Nós sentimos muito por quaisquer erros de ortografia que pode ter ocorrido. Obrigado pela sua compreensão.


Online: 333 users browsing the articles directory