Mantenere Google Out con robots.txt

Questo articolo è di collaborare con Google: entrando l'indice, migliorando il tuo PageRank, la pubblicità su Google, distribuendo gli annunci di Google di altre persone sul tuo sito, e altri modi di costruire il vostro business online attraverso Google. Quindi una sezione su respingendo Google potrebbe sembrare controproducente . Ma nell'interesse di coprire tutte le basi, here it is. A volte anche la pubblicità-Webmaster fame Google vuole tenere lontano da alcune parti del loro business. Pagine private progettata per le amicizie e le pagine semiprivate creato per i visitatori selezionare non dovrebbe essere indicizzati per il mondo in generale. Interi siti che sono ancora in fase di sviluppo, mentre esistenti sul Web in uno stato migliore dal vivo potrebbe essere escluso da Google. E 'abbastanza facile impedire a Google di indicizzare un intero sito o le pagine selezionate di un sito anche se il ragno scansione del tuo URL.

È possibile impedire a Google anche da caching le pagine del tuo sito, un processo attraverso il quale Google memorizza ogni pagina indicizzata sui propri server. Questa sezione spiega come impedire a Google di eseguire la scansione e il caching del tuo sito. Deflettore la scansione La chiave per allontanare lo spider di Google è il file robots.txt, noto anche come il protocollo di esclusione dei robot. Spider di Google capisce e obbedisce a questo protocollo. Il file robots.txt è un breve, semplice file di testo che si inserisce nella directory principale (root directory) del server di dominio. (Se leasing tuo spazio web dal proprio ISP, non da un host Web dedicato, probabilmente avete bisogno di aiuto amministrativa nel porre il file robots.txt.) Creare il file robots.txt in Blocco note o un altro editor di testo, e il trasferimento come un file di testo ASCII. E 'meglio non usare Microsoft Word o un altro elaboratore di testi per creare il file robots.txt. Ma se lo fate, ricordatevi di salvare come un file di testo con il . txt file con estensione. Quindi assicuratevi di trasferire sul vostro server come un file binario, che è l'impostazione predefinita di molti FTP (File transfer protocol) programmi. Il file robots.txt contiene due istruzioni:

--User-agent. Questa istruzione specifica quale crawler dei motori di ricerca devono seguire le istruzioni robots.txt. Si può specificare lo spider di Google, ragni più specifiche, o tutti i ragni. (Il comando funziona per tutti i ragni che cercare e riconoscere il file robots.txt.)

--Disallow. Questa linea specifica che le directory (cartelle pagina Web) o pagine specifiche sul vostro sito sono off-limits al motore di ricerca. È necessario includere una riga separata Disallow per ogni directory escluse.

Il sito di risorse robots.txt

  

Le informazioni contenute in questo articolo vi offre tutto il necessario per costruire un file robots.txt efficace. Se volete saperne di più, come ad esempio un elenco di nomi di ragno e informazioni generali su cingoli, vai alla pagina Web Robots qui:

www.robotstxt.org

Le FAQ (Frequently Asked Questions) sezione in questo sito è particolarmente utile: www.robotstxt.org / wc / faq.html

Un file robots.txt campione simile al seguente:

User-agent: *
Disallow: /

Questo esempio è la più comune e più semplice file robots.txt. L'asterisco dopo User-agent: tutti i ragni sono esclusi. La barra dopo Disallow: tutte le directory del sito sono off-limits. Il nome della spider di Google è Googlebot. (Avrei preferito Charlotte.) Se si desidera escludere solo Google e non altri motori di ricerca, utilizzare questo file robots.txt: User-agent: Googlebot Disallow: / Si possono identificare alcune directory come out-of-limiti, sia per Google o tutti i ragni.

Ad esempio:

User-agent: *
Disallow: / cgi-bin /
Disallow: / famiglia /
Disallow: / photos /

Si noti la slash ad entrambe le estremità delle stringhe directory nell'esempio precedente. Google rende conto che la prima barra implica l'indirizzo del dominio prima di esso. Così, sulla linea Disallow in primo luogo, se questa linea sono stati trovati presso il sito bradhill.com, sarebbe una scorciatoia per http://www.bradhill.com/cgi-bin/

e Google avrebbe saputo di escludere che la directory dalla scansione. Il secondo slash significa che lei escluda una directory intera. Per escludere singole pagine, digitare l'indirizzo della pagina dopo la prima barra, e lasciare fuori il secondo slash, come questo :

User-agent: *
Disallow: / famiglia / ricongiungimento-notes.htm
Disallow: / blog/archive00082.htm

Ogni directory escluse e la pagina deve essere elencato sulla propria riga Disallow. Non raggruppare gli elementi in più su una sola riga. Per escludere un certo tipo di file, utilizzare l'asterisco seguito dalla estensione del file sulla riga Disallow, come questo:

User-agent: *
Disallow: / famiglia / *. jpg

Questo esempio ci dice tutti gli spider di escludere . jpg file (un certo tipo di file immagine) di indicizzazione. In caso di Google, questo tipo di comando apt perché Google dedica un intero motore di ricerca per immagini (www.google.com / images ). Se si desidera escludere tutto immagini sul vostro sito dall'indice di Google Images, utilizzare un file "robots.txt" con il nome di Spider immagini di Google, che è Googlebot-Image:

User-agent: Googlebot-Image Disallow: /

Ricordate che il vostro logo grafico sono inoltre inclusi in questa esclusione ampio, e quindi non si trasformerà in ricerca immagini di Google. Tale omissione è normalmente non è un problema e non pregiudica la visualizzazione delle immagini quando la gente visita il tuo sito. Utilizzare l'asterisco-tecnica con un'estensione di escludere qualsiasi tipo di file dalla scansione, come ad esempio . doc e . pdf file. Effetti del file robots.txt non sono immediati, in molti casi, soprattutto quando si sta cercando di escludere una pagina che è attualmente inclusa. In primo luogo, è necessario attendere il ragno di eseguire la scansione nuovamente il tuo sito, e del ciclo di scansione del tuo sito può essere giornaliera, mensile, o talvolta in mezzo, a seconda del suo PageRank. In secondo luogo, la pagina che si vuole escludere, se precedentemente inserito, continuerà a vivere nella cache di Google per qualche tempo. (Consultare la sezione successiva per informazioni su richiesta di rimozione dalla cache ed evitando la cache fin dall'inizio della vita di una pagina.)

Si può modificare il file robots.txt le volte che desideri. E 'un ottimo strumento per la costruzione di pagine fresca che non si desidera indicizzati, mentre ancora in costruzione. Quando sono finiti, li tolga il file robots.txt. Escludendo le pagine con i meta tag In alcune situazioni, utilizzando un meta tag di deviare ragni è più facile che costruire un file robots.txt. Se il vostro codice HTML a mano, al contrario di utilizzare programmi di grafica come ad esempio Dreamweaver o Front Page, gettando nel meta-tag è un pezzo di torta. Inoltre, se si desidera escludere una sola pagina, o la pagina occasionali qua e là, l'opzione di meta tag potrebbe essere più facile. Utilizzo di entrambe le meta-tag e il file robots.txt va bene. Non tutti i ragni capire il meta tag descritto qui, ma non di Google. Nota: Cfr. l'articolo 3 per l'uso efficace di meta-tag di altri che fanno parte del processo di ottimizzazione del sito.

Si inserisce meta tag dopo l' tag nella parte superiore di un documento HTML. (Si noti che i meta tag può essere maiuscolo o minuscolo.) per dissuadere la spider di Google di indicizzare ogni singola pagina del tuo sito, mettere questa tag tra i vostri meta tag HTML che in altre pagina: Nota: i due comandi, e noindex nofollow. Il primo impedisce a Google di indicizzare la tua pagina, e il secondo Google impedisce di seguire i link sulla pagina. Se si desidera che la pagina da escludere dall'indice di Google, ma vorrei seguire i suoi collegamenti in uscita, lasciare fuori il comando nofollow, come questo:

Fai la tua comando di Google specifico utilizzando il nome di spider di Google, Googlebot:

Evitare la cache dei comandi meta Altre pagine evitare di essere copiati nella cache di Google. L' cache è un magazzino di pagine Web copiato da Google. Facendo clic sul link Copia cache su una pagina dei risultati di ricerca porta rapidamente alla pagina come si presentava l'ultima volta eseguita la scansione, che potrebbe essere diverso da quello che appare oggi, in diretta sul web. Questa funzione è ideale per utenti di Google consumatori. L'ho usato di recente, dopo aver visto David Letterman si lamentano del sito CBS.com, che ha ospitato una foto del rivale Jay Leno. Con il tempo rant Letterman in onda, a tarda notte, CBS aveva già cambiato il sito sostituendo la foto di Leno con Letterman. Volevo vedere la gaffe iniziale, così ho colpito il link Copia cache di Google, ed era lì. Frequenti scansione siti che fanno gli aggiornamenti principali quotidiani, come ad esempio Slate.com, in genere gestiti circa un giorno dietro nella cache di Google. Proprietari del sito non sono universalmente contento della cache di Google. Per una cosa, la cache di battistrada su una zona grigia di violazione del copyright, dal momento che Google non ottenere l'autorizzazione ad effettuare copie dei siti sottoposti a scansione. (Google non rimuovere i collegamenti nella cache su richiesta.) In secondo luogo, quando Webmasters modificare una pagina, lo vogliono cambiato! Spesso, come nell'esempio CBS, il proprietario del sito non vuole che la gente come me di dragaggio fino vecchi errori. Prevenire qualsiasi pagina di entrare nell'archivio di Google con il seguente meta tag:

Estendere il comando a tutti i ragni fluente in comandi meta-tag, sostituendo Googlebot con i robot:

Il problema dell'invisibilità deflettore spider di Google quando si raggiunge il sito è abbastanza facile, come le sezioni precedenti spiegare. Un problema più grande è quando Google raggiunge il tuo sito, ma non può vederla. Il ragno è ben attrezzato per fare sottili distinzioni circa il contenuto, tag HTML, e la rete di collegamento, ma è una creatura di gusti semplici. La creazione di un sito che utilizza alcune tecnologie monconi il ragno di Google e lo invia correvano via a mani vuote. In particolare, tre fattori sono idonei a vanificare o dispiacere Google:

--Frames. Frame sono stati generalmente detestato fin dalla loro introduzione nelle specifiche HTML presto nella storia del web. Essi devastare con il tasto Back, e confondono il formato fondamentali degli indirizzi web (una pagina per ogni indirizzo) dividendo uno indirizzo della pagina in porzioni più che funzionano come piccoli, indipendenti pagine web. Tuttavia, i frame hanno usi legittimi. Google si utilizza i frame per visualizzare le discussioni nei gruppi di Google (vedi articolo 4). Ma la spider di Google alza il naso quando incontra i frame. Pagine con frame non sono necessariamente escluse dall'indice. Ma gli errori possono derivare male, sia l'indice, i visitatori o le pagine incorniciate non sarà incluso, o ricercatori vengono inviati alla pagina sbagliata a causa di affrontare confusione. Se si utilizza i frame, rendere il tuo sito Google-friendly (e umano-friendly), fornendo link alle versioni senza cornice del contenuto stesso, come fa Google in Google Gruppi. Questi collegamenti dare diligente spider di Google è un altro percorso per i contenuti di valore, e di ottenere i tuoi visitatori una vasta scelta di modalità di visione vince tutti.

--Splash pages. Pagine Splash (da non confondere con le doorway page) sono i contenuti delle pagine voce vuota a siti web. Avete probabilmente visto loro. Alcune pagine splash impiegano cool presentazioni multimediali per il contenuto all'interno di inutile e invisibili a Google. Altri sono semplici stuoie statici di benvenuto che gli utenti la forza per fare di nuovo clic prima di entrare nel sito. Google non piace che punta le sue ricerche a splash pages. In realtà, questi tappeti sono noiose benvenuti site design cattivi da qualsiasi standard, anche se non si preoccupano di indicizzazione di Google, e mi consiglia di sbarazzarsi di loro. Lascia la tua visitatori, e Google, i contenuti significativi dal primo clic, e si 'll essere ricompensati con i visitatori più felice e migliore inserimento nell'indice di Google.

--Pagine generate dinamicamente. Un Pagina dinamica è uno che viene creato al volo in base alle scelte fatte dal visitatore del sito. Siti che tirare il loro contenuto di basi di dati (XML siti forniscono un buon esempio) di generare pagine dinamiche. Quando Google esegue la scansione ad un sito, si può generare un enorme numero di pagine, a volte blocca il sito o il suo server. La spider di Google raccoglie alcune pagine generate dinamicamente, ma appoggia in generale off quando incontra contenuti dinamici. Come risultato, il contenuto del sito, nascosto nella sua banca dati, rimane invisibile a Google. Il ragno non può ritirarlo, valutarla, indice, o applicare PageRank ad esso. (Pagine Weblog non rientrano in questa categoria sono generati dinamicamente da tu, il webmaster, ma non dai tuoi visitatori.) invisibilità involontario è un segue bene l'articolo successivo, che si occupa di problemi di progettazione di ogni tipo nel tentativo di ottimizzare le pagine per lo spider di Google.

un articolo presentato da Carlos Torres


Disclaimer:Il nostro sito non è responsabile per il contenuto di questo articolo. Webarticles è una risorsa gratuita di informazioni.
Importante: Questo articolo "Keeping Google Out con robots.txt" è stato tradotto da un software automatico. Ci dispiace per eventuali errori di ortografia che possono essersi verificati. Grazie per la vostra comprensione.


Online: 263 users browsing the articles directory