Robots.txt optimizado para Blogger

crawl spider index
Crawl Spider
Las arañas web se encargan de indexar todo el contenido de una dominio, esta sigue todos los enlaces que encuentre y arma un mapa de sitio que envía a la cola de indexado. Un archivo nombrado robots.txt le indica a una araña con exactitud que indexar, que enlaces no debe seguir, por ejemplo.

Introducción al uso del archivo

Su edición debe hacerse con certeza ya que si tenemos errores de sintaxis podemos tener como consecuencia que la(s) araña(s) no indexen nuestro contenido. A pesar de que Blogger tiene un archivo predeterminado para el blog, al buscar nuestro contenido indexado podemos encontrar enlaces con la dirección /search/ y etiquetas /label/ las cuales son irrelevantes como páginas únicas para su indexado, además de que se puede entender como contenido duplicado y detener nuestro crecimiento en el PageRank.

Sintaxis

La sintaxis del archivo es simple, su contenido más básico consta de 2 líneas:
User-agent: *
Disallow:

  • "User-agent" hace referencia a la araña web a la que se dirigen esos parámetros, por ejemplo, la araña de Yahoo!.
  • "Disallow" nos indica en que enlace no debe entrar, pero en este caso como no hay nada seguido de los 2 puntos, indicamos que tiene acceso a todo el contenido.
  • "*" es un comodín para referirse a cualquier bot que visite nuestra página.

Visita la página http://www.robotstxt.org/robotstxt.html la cual contiene una completa documentación oficial de sintaxis, factores y variables en la creación - modificación de un archivo robots.txt.

Código optimizado

El siguiente archivo es el que uso en este blog. Su contenido es el siguiente:
User-agent: *
Disallow: /search?q=*
Disallow: /*?updated-max=*
Allow: / 
Sitemap: http://aemulatrix.blogspot.com/feeds/posts/default?orderby=UPDATED

Con estos parámetros le indicamos a los bots que no indexen /search/ y cualquier enlace que incluya direcciones del archivo (/*?updated-max=*), esto lo indica el asterisco previo y el que hasta al final.

Nuestro feed sirve de Sitemap (debemos colocar la dirección original y no la de FeedBurner).

Para ver que ha sido indexado de nuestro blog, buscamos en Google sitemap:nombre_del_blog.blogspot.com ó si tenemos dominio propio sitemap:nombre_del_blog.com


Editando el archivo de Blogger

En nuestro panel de control nos dirigimos a Configuración >> Preferencias de búsqueda, en Rastreadores e indexación podemos observar Archivo robots.txt personalizado, damos click en editar, seleccionamos y llenamos con el nuevo contenido.


Configurar robots.txt en Blogger
Robots Personalizados

Share this:

8 comentarios :

  1. hola, si le pongo esto funcionará bien para quitar el contenido duplicado? Disallow: /*/*/*.html?*=*

    Entre otros evito que aparezca las dichosas urls como esta /2008/07/*.html?showComment=*

    Un saludo.

    ResponderEliminar
  2. hola, crees que será suficiente una única línea para las páginas de búsquedas?

    he visto algo así:

    Disallow: /search?
    Disallow: /search/label/
    Disallow: /search/label?/

    pero creo que debería ser así:

    Disallow: /search/label/*
    Disallow: /search/*
    Disallow: /search*

    tu que crees? un saludo y gracias de antemano.

    ResponderEliminar
  3. Siguiendo la taxonoimía de robots con:

    Disallow: /search/

    es suficiente, no necesitas especificar niveles inferiores o dentro de search.

    Este también funciona perfecto:

    Disallow: /search/*

    --------------

    Estoy de seguro de que

    Disallow: /*/*/*.html?*=*

    no funciona para lo que buscas

    Blogger de repente hace cambios a la plataforma y surgen este tipo de problemas, apenas acaba de suceder hacer 2-3meses, pero despues todo sigue su curso normal. Aún así no deberías tener mucho contenido duplicado, da de alta tu blog en Google Herramientas para webmasters y allí puedes pedir que den de baja enlaces especificos de tu blog o página del índice.

    ResponderEliminar
  4. Hola es la primera vez que visito tu blog y bueno mi consulta es la siguiente:

    En Páginas con etiquetas de título duplicadas

    Tengo 43 como estas que te expongo:

    /2011_01_23_archive.html
    /2011_01_24_archive.html
    /2011_01_25_archive.html

    He añadido en: Archivo robots.txt personalizado la condicional como describes mas arriba:
    Disallow: /*archive

    Crees que será sufuciente para que se eliminen las etiquetas duplicadas?

    Un saludo y gracias de antemano.-

    ResponderEliminar
  5. El signo de asterisco es un comodín. Lo que esa línea hace consiste en, no indexar (disallow) toda página que contenga la palabra archive (*archive) después de la diagonal (/).

    En este caso las siguientes páginas cumplen con lo anterior:
    /2011_01_23_archive.html
    /2011_01_24_archive.html
    /2011_01_25_archive.html
    Por lo tanto no serán indexadas.

    Saludos.

    ResponderEliminar
  6. Esto si que es rapidez.
    Otra consulta yo en mi plantilla puse esta condicional: <b:if cond='data:blog.pageType == "archive"'><meta content='noindex,noarchive' name='robots'/></b:if> pensando que este problema se me solucionaria, pero he visto que no, asi que al añadir la tuya esta la elimine, no se si tendran algo que ver o no.

    ResponderEliminar
  7. Está bien que elimines esa condicional. Eso lo puedes manejar desde el panel de Blogger. En la sección 'Configuración' -> 'Preferencias para motores de búsqueda', en 'Etiquetas de encabezado de robots personalizadas'. Lo habilitas y debe quedar así:

    Página de inicio: all
    Archivo y páginas de búsqueda: noindex, nofollow
    Valor predeterminado para Publicaciones y Páginas: all

    Y guardas los cambios.

    ResponderEliminar
  8. Eternamente agradecido, segui todos tus pasos y a ver que resulta.
    Un saludo

    ResponderEliminar

 
Copyright © Aemulatrix. Designed by OddThemes