Fuera de mantenimiento de Google con robots.txtEste artículo trata sobre la asociación con Google: entrar en el índice, la mejora de su PageRank, la publicidad en Google, la distribución de anuncios de Google de otras personas en su sitio, y otras maneras de construir su negocio en línea a través de Google. Así, una sección sobre rechazando Google puede parecer contraproducente . Sin embargo, en el interés de cubrir todas las bases, aquí está. A veces, incluso la publicidad-Webmasters hambre desea que Google fuera de determinadas partes de su negocio. Páginas privadas diseñadas para los amigos y las páginas semiprivadas creado para los visitantes de selección no deberá estar indicado para el mundo en general. Todo los sitios que aún están en desarrollo, mientras que existe en la red en un estado de vivir mejor podrían quedar excluidos de Google. Es bastante fácil de evitar que Google indexe un sitio completo o páginas seleccionadas de un lugar, aunque la araña rastree su dirección URL. Puede evitar que Google también de almacenamiento en caché las páginas de su sitio, un proceso por el que Google almacena todas las páginas indexadas en sus servidores. Esta sección explica cómo evitar que Google rastree su sitio y el almacenamiento en caché. Desviar el rastreo de la clave para desviar la araña de Google es la archivo robots.txt, también conocido como el Protocolo de Exclusión de Robots. La araña de Google comprende y obedece a este protocolo. El archivo robots.txt es un corto, simple archivo de texto que se coloca en el directorio de nivel superior (directorio raíz) de su servidor de dominio. (Si usted alquila su espacio Web de su ISP, no de un host dedicado, probablemente necesita ayuda administrativa en colocar el archivo robots.txt.) Crear el archivo robots.txt en el Bloc de notas u otro editor de texto, y la transferencia como un archivo de texto ASCII. Es mejor no usar Microsoft Word u otro procesador de textos para crear el archivo robots.txt. Pero si lo haces, recuerda que debes guardar como un archivo de texto plano con la . txt extensión de archivo. Luego, asegúrese de que la transferencia a su servidor como un archivo binario, que es la configuración predeterminada de muchos FTP (file transfer protocol) programas. El archivo robots.txt contiene dos instrucciones: --User-agent. Esta instrucción se especifica que rastreador motor de búsqueda debe seguir las instrucciones de robots.txt. Usted puede especificar la araña de Google, varias arañas específicos, o todas las arañas. (El comando funciona para todas las arañas que buscan y reconocen el archivo robots.txt.) --Disallow. Esta línea especifica que los directorios (carpetas página web) o de páginas específicas en su sitio fuera de los límites del motor de búsqueda. Usted debe incluir una línea Disallow separado para cada directorio excluidos. El sitio de recursos de robots.txt
La información de este artículo le ofrece todo lo necesario para construir un archivo robots.txt efectivo. Si desea saber más, como una lista de nombres de la araña y la información general acerca de los rastreadores, ir a la página Web Robots aquí: Las FAQ (preguntas frecuentes) de sección en este sitio es especialmente útil: www.robotstxt.org / WC / faq.html Un archivo robots.txt de la muestra es el siguiente: User-agent: * Este ejemplo es el más común y más simple de archivo robots.txt. El asterisco después de User-agent: todas las arañas son excluidos. La barra que aparece después Disallow: todos los directorios del sitio están fuera de los límites. El nombre de la araña de Google es Googlebot. (Yo hubiera preferido Charlotte.) Si usted desea excluir no sólo de Google y otros motores de búsqueda, utiliza este archivo robots.txt: User-agent: Googlebot Disallow: / Se pueden identificar ciertos directorios como fuera de la cancha, ya sea para Google o todas las arañas. Por ejemplo: User-agent: * Observe las barras diagonales en ambos extremos de las cadenas de directorio en el ejemplo anterior. Google entiende que la primera barra, indica su dirección de dominio antes de que. Así, en la línea "Disallow" en primer lugar, si esa línea se encontraron en el sitio bradhill.com, sería la abreviatura de http://www.bradhill.com/cgi-bin/ y Google se sabe que el directorio de excluir del rastreo. La segunda barra significa que está excluyendo un directorio completo. Para excluir páginas individuales, escriba la dirección de la página siguiente a la primera diagonal, y dejar fuera de la segunda barra, como este : User-agent: * Cada directorio excluidos y la página debe estar incluido en su línea Disallow propia. No agrupar varios elementos en una línea. Para excluir un determinado tipo de archivo, utilice el asterisco seguido por la extensión de archivo en la línea "Disallow", así: User-agent: * Este ejemplo le dice a todas las arañas de excluir a . jpg archivos (un cierto tipo de archivo de imagen) de la indexación. En el caso de Google, este tipo de comando es apto porque Google dedica un motor de búsqueda de todo a las imágenes (www.google.com / imágenes ). Si usted desea excluir todo imágenes en su sitio del índice de Imágenes de Google, utilice un archivo robots.txt con el nombre de la imagen de la araña de Google, que es Googlebot-Image: User-agent: Googlebot-Image Disallow: / Recuerde que sus logotipos gráficos se incluyen también en esta amplia exclusión, y por lo tanto no aparecerá en la búsqueda de imágenes de Google. Esta omisión no es normalmente un problema y no afecta a la visualización de las imágenes cuando la gente visita su sitio web. Utilice el asterisco-técnica más la extensión de excluir cualquier tipo de archivo del rastreo, tales como . doc y . pdf archivos. Efectos del archivo robots.txt no son inmediatos, en muchos casos, especialmente cuando usted está tratando de excluir a una página que está incluido. En primer lugar, debe esperar a que la araña para rastrear su sitio de nuevo, y el ciclo de rastreo de su sitio web pueden ser diarias, mensuales, o en algún momento en el medio, dependiendo de su PageRank. En segundo lugar, la página que desea excluir, si incluido previamente, permanecerá en la caché de Google por algún tiempo. (Véase la siguiente sección para información acerca de solicitar la eliminación de la caché y evitar la caché desde el inicio de la vida de una página.) Usted puede ajustar el archivo robots.txt con tanta frecuencia como le gustaría. Es una buena herramienta al crear nuevas páginas que no desea indexados, mientras que todavía en construcción. Cuando termine, los saca del archivo robots.txt. Excluyendo las páginas con la etiqueta META en algunas situaciones, mediante una metaetiqueta para desviar las arañas es más fácil que la construcción de un archivo robots.txt. Si su código HTML a mano, en lugar de utilizar programas de diseño gráfico como Dreamweaver o Front Page, tirando en la etiqueta meta es un pedazo de pastel. Además, si desea excluir una sola página o la página de vez en cuando aquí y allá, la opción de etiqueta meta podría ser más sencillo. Con las dos etiquetas del meta y el archivo robots.txt está bien. No todas las arañas de entender la etiqueta meta se describe aquí, pero que hace Google. Nota: Véase el artículo 3 para el uso eficaz de los meta tags de otros que son parte del proceso de optimización de su sitio. Se coloca etiquetas meta después de la etiqueta en la parte superior de un documento HTML. (Tenga en cuenta que los meta tags pueden ser mayúsculas o minúsculas.) Para disuadir a la araña de Google indexe cualquier página individual de su sitio, poner este código entre las etiquetas meta otros en HTML de esa página: Tenga en cuenta los dos comandos, noindex y nofollow. El primero impide que Google indexe tu página, y la segunda evita que Google rastree vínculos de esa página. Si desea que la página se excluye del índice de Google, pero le gustaría seguir sus enlaces salientes, dejar fuera del comando nofollow, como este:Haga su comando de Google específico utilizando el nombre de la araña de Google, Googlebot: Evitando la caché de los comandos de otros meta evitar que las páginas de la copia en la caché de Google. La caché es un almacén de páginas Web copiado por Google. Haciendo clic en el vínculo en caché en una página de resultados de búsqueda rápida trae a colación la página tal y como apareció la última vez que se arrastró, que podría ser diferente de lo que parece ahora, en vivo por la Web. Esta característica es ideal para usuarios de consumo de Google. Yo recientemente después de ver a David Letterman se quejan del sitio CBS.com, que fue sede de una foto de su rival Jay Leno. En el momento en despotricar Letterman al aire, a altas horas de la noche, la CBS ya había cambiado el sitio mediante la sustitución de foto Leno con Letterman. Quería ver la metedura de pata original, así que me golpeó el vínculo en caché en Google, y allí estaba. Rastrear los sitios más frecuentes que hacen las actualizaciones diarias más importantes, como Slate.com, en general, correr un día de retraso en la caché de Google. Propietarios del sitio no son universalmente feliz por la caché de Google. Por un lado, la memoria caché de bandas de rodadura en una zona gris de la infracción de copyright, ya que Google no obtiene la autorización para hacer copias de los sitios que rastrea. (Google no elimina los vínculos en caché a petición.) En segundo lugar, cuando Webmasters cambiar una página, lo quieren cambiado! A menudo, como en el ejemplo de la CBS, el propietario del sitio no quiere que gente como yo desenterrar viejos errores. Prevenir cualquier página de la entrada en el archivo de Google con la etiqueta meta siguiente: Ampliar el mandato para todas las arañas de fluidez en los comandos de metaetiqueta sustituyendo googlebot con robots:
El problema de la invisibilidad Desviando la araña de Google cuando llega a su sitio es bastante fácil, como las secciones anteriores explicar. Un gran problema es cuando Google llega a su sitio, pero no puede ver. La araña está bien equipada para hacer distinciones sutiles acerca de su contenido, etiquetas de HTML, y una red de enlace, pero es una criatura de gustos sencillos. Creación de un sitio web utilizando tecnologías de determinadas cepas del arácnido Google y lo envía corriendo con las manos vacías. En particular, tres factores que son capaces de frustrar o disgustar a Google: --Marcos. Marcos han sido en general detestaba desde su introducción en la especificación HTML temprano en la historia de la Web. Que causan estragos en el botón Atrás, y confunden el formato fundamental de las direcciones Web (una página por cada dirección) dividiendo la dirección de la página en múltiples porciones que funcionan como pequeños, independientes las páginas Web. Sin embargo, los marcos tienen usos legítimos. Google se usa marcos para mostrar las discusiones en Grupos de Google (véase el artículo 4). Pero la araña de Google menosprecia cuando se encuentra con marcos. Páginas con frames no son necesariamente excluidos del índice. Sin embargo, los errores pueden producirse efectos tanto para el índice y sus visitantes ya sea su páginas con frames no será incluido, o buscadores se envían a la página equivocada, porque de hacer frente a la confusión. Si usted utiliza marcos, hacer que su sitio de Google-friendly (amigable y humano), proporcionando enlaces a las versiones sin marco de un mismo contenido, como Google hace en Grupos de Google. Estos enlaces dan diligente araña de Google otra ruta a su valioso contenido, y recibe a sus visitantes una selección de modos de visualización todos ganan. --Páginas de bienvenida. Páginas de bienvenida (que no debe confundirse con las páginas del umbral) son páginas de contenido entrada vacía a los sitios Web. Es probable que hayas visto. Algunas páginas de bienvenida emplear cool presentaciones multimedia para el contenido dentro de inútil e invisible para Google. Otras son simples colchonetas estáticas de bienvenida que los usuarios de la fuerza para hacer clic de nuevo antes de entrar en el sitio. Google no le gusta señalar sus usuarios a las páginas de bienvenida. De hecho, estas alfombras de bienvenida son tediosos mal diseño del sitio por cualquier norma, incluso si no se preocupan por la indexación de Google, y recomiendo deshacerse de ellos. Proporcione a sus visitantes, y Google, de contenido significativo desde el primer clic, y usted 'll ser recompensado con los visitantes más feliz y mejor posición en el índice de Google. --Páginas generadas dinámicamente. Un página dinámica es el que se crea sobre la marcha sobre la base de decisiones tomadas por el visitante del sitio. Los sitios que tirar de su contenido de bases de datos (sitios de XML proporcionan un buen ejemplo) generar páginas dinámicas. Cuando Google rastrea tal sitio, puede generar un gran número de páginas, a veces se bloquee el sitio o su servidor. La araña de Google recoge algunas páginas generadas dinámicamente, pero por lo general retrocede cuando se encuentra con contenido dinámico. Como resultado, el contenido del sitio, oculto en su base de datos, sigue siendo invisible para Google. La araña no puede recoger, evaluarla, el índice, o aplicar PageRank a ella. (Páginas Weblog no entran en esta categoría son generadas dinámicamente por tú, el Webmaster, pero no por sus visitantes.) invisibilidad accidental es una buena segue el próximo artículo, que se ocupa de cuestiones de diseño de todo tipo en la búsqueda de la optimización de páginas para la araña de Google. un artículo presentado por Carlos Torres Descargo de responsabilidad:Nuestro sitio web no es responsable por el contenido de este artículo. Webarticles es un recurso de información gratuito. Importante: Este artículo "Mantener fuera con Google robots.txt" fue traducida por un software automático. Sentimos pena por los errores de ortografía que pueda haber ocurrido. Gracias por su comprensión.
|
|||||
| Online: 471 users browsing the articles directory |
|
|