Tutorial sobre el archivo robots.txt

Qué es y cómo funciona el archivo Robots.txt

En varios artículos he mencionado que la correcta configuración del archivo robots.txt es muy importante para el funcionamiento del sitio y para el SEO. Este fichero es consultado por todos los bots que rastrean incansablemente internet actualizando y descubriendo nuevos contenidos. Su función primordial consiste en indicar a las arañas que páginas se pueden rastrear y cuáles no. Aparte de dejar claras nuestras intenciones de no duplicar contenido. Así priorizamos la información de nuestro sitio en importante y no relevante. Hay que tener en cuenta que no siempre seguirán las reglas que indiquemos para nuestro sitio. Como curiosidad una de las instrucciones que podemos indicar la ruta hacia el sitemap de la web.

Nociones básicas sobre robots.txt

Este archivo se coloca en la carpeta raíz de nuestra página. Al ser de tipo txt se puede editar con el editor de notas de windows. Los comandos más importantes que existen para controlar la indexación en nuestra web son dos:

  • User-agent: como un agente de tráfico controlando a los coches, el user-agent se encarga de dirigir a todos los bots que existen. Google tiene los suyos, al igual que Bing y otros buscadores. Las órdenes son selectivas o pueden ir para todos por igual, en este último caso se utiliza un asterisco.
  • Disallow: esta orden sirve para seleccionar lo que queremos que no sea indexado en nuestro sitio. Además, podemos afinar lo que deseamos que se salte: un directorio completo con todos sus carpetas y subdirectorios, un fichero, una url o una imagen, por ejemplo. Para generalizar el comando con atributos comunes y no tener que escribir todos y cada uno de ellos, tenemos el asterisco para aplicar la regla a todos ahorrándonos trabajo y tiempo. Asimismo, diferencia entre mayúsculas y minúsculas.
  • Allow: este comando es justo el opuesto al anterior, para los casos que sí queremos que indexen los bots. Funciona incluso si seleccionamos que no indexe una carpeta pero una subcarpeta dentro de ella sí nos interesa. Por ejemplo, en wp-contents y dentro de ellas uploads.
  • Sitemap: en muchos casos el mapa del sitio web no está en la carpeta raíz ni se llama sitemap.xmp por lo que a los robots les cuesta encontrarlo. Este caso se soluciona con el comando sitemap ya que indicamos la ruta completa del mapa web a las arañas para buscarlo.

Ejemplos con los comandos descritos antes. Las anotaciones a la derecha no irían en el fichero, sólo son explicaciones:

User-agent: *                              Se aplican las reglas a todas las arañas.
User-agent: Googlebot           Sólo afecta a un bot de Google.
Disallow: /                                    No se indexa nada del sitio.
Disallow: /privado/                 Impedimos la indexación de la carpeta y todo lo que esté dentro.
Disallow: /legal.html               No se pasan por la parte legal del sitio.
Disallow: /*.gif$                        Los archivos gifs del sitio no se indexaran.

Podemos realizar bloques para diferenciar varios tipos de robots si se diera el caso para nuestra web, pero normalmente no hace falta a la mayoría de los sitios. Asimismo, no se recomienda incluir más de 200 líneas en el fichero.

Comprobación de robots.txt

Una vez creado el fichero robots.txt ya sea manualmente ya sea con la ayuda de un programa o plugin, tenemos que comprobar su correcto funcionamiento. Para ello podemos ir a la herramienta de webmasters de Google o emplear otras aplicaciones como Woorank (entre otras cosas, nos ofrece la información de si detecta un robot pero no si está bien configurado). Una vez dentro de nuestra cuenta de webmaster y del sitio web en cuestión, nos dirigimos al menú de la izquierda “Rastreo” y como submenú, seleccionamos “URL bloqueadas”. Una vez dentro, dependiendo si ya ha reconocido o no nuestro archivo robots.txt, podemos hacer que examine el texto que hemos creado en el recuadro “Contenido”. Hacemos clic en el botón «Probar» abajo del todo y Google nos dirá si está bien o mal configurado.

Robots.txt en WordPress

Para una correcta optimización de WordPress cada experto piensa que la suya es la mejor posible y hay multitud de opiniones al respecto. Para acceder al fichero podemos acceder de dos formas: directamente a través del cliente FTP o, si no sabemos bien como acceder ahí y manejarlo, podemos usar plugins para ello. Por ejemplo, WP Robots Txt nos permite manipular el archivo desde el administrador del WordPress.

Una vez con pleno control sobre robots.txt, es la hora de configurar. En esta parte hay gran variedad de opiniones y todas pueden ser tan buenas unas de otras. El objetivo principal es proteger nuestra privacidad y evitar contenido duplicado. Para llegar a la meta hay diversas formas, yo pondré el código que tengo en mi archivo robots.txt.

Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /*/trackback/
Disallow: /*/attachment/
Disallow: /category/*/page/
Disallow: /category/*/feed/
Disallow: /tag/*/page/
Disallow: /tag/*/feed/

Hago los comentarios después para que podáis cogiar limpiamente el código si lo deseáis. Los archivos de la carpeta de administrador, includes, plugins y temas no tiene sentido que Google los indexe. ¿Para qué si son de ámbito privado o semiprivado? Las búsquedas realizadas (representadas por ‘?’) pienso que no aportan nada al buscador para que merezca la pena indexarlo ni aporta valor a los usuarios. Lo mismo pasa con los trackback son comunicaciones con entre los blogs, dejémosles la privadad que necesitan. Por otra parte, los feed y comentarios hay disparidad de opiniones sobre si duplica contenido o no. Yo, personalmente los feed los tengo semi-disallow y los comentarios permito que los indexen libremente los robots ya que una opinión puede ser una entrada para nuestro blog y no veo gran duplicidad. Con las etiquetas pasa otro tanto de lo mismo. Yo, las tengo disallow porque pienso que puede generar duplicidad con las categorías y la propia página, están muy bien para relacionar contenido pero con cuidado. Asimismo, si tuviera una parte de derecho legal o aviso de cookies diría a los robots que no las indexaran ya que no aporta gran valor a nuestra web siendo todas tan similares.

Conclusión

El social media, a diferencia de las matemáticas, no es una ciencia exacta como podéis ir descubriendo. Las hipótesis que requieren elaborarse muchas veces sin conocer todos los datos provoca que nos arriesguemos y tiremos por un camino. Creo que la lógica puede ser buena consejera para dedicir que elegimos indexar o no de antemano con las arañas para evitar duplicar contenido y preservar los archivos privados. Aunque luego los bots pueden hacer lo que quieran, nosotros como somos muy formales, cumplimos las reglas para que no quejen. ¿Qué opináis sobre el tema? ¿Elegís otros contenidos para ser o no indexados? Compartir vuestras experiencias.

Responder a Pedro Pérez Cancelar respuesta

Política de Comentarios de Santi Limonche

Responsable: Santiago Limonche | Finalidad: Gestión de comentarios | Legitimación: Tu consentimiento.

  1. Hola, Santiago! Muy interesante tu post sobre los robots. Me ha sido de gran ayuda.

    Tengo una duda. Los user-agent para Bing y Yahoo cómo serían?

    1. Santiago Limonche García

      Hola, Pedro.

      Gracias por leerte el post y encantando de resolver tu duda. El user agent para Bing es msnbot y para Yahoo, slurp.

      Un saludo.

Cumplir con la legalidad es peor que luchar contra Sauron.
Necesito tu consentimiento para las cookies.