Si alguna vez te has preguntado qué es y qué hace el archivo Robots.txt, has llegado al lugar adecuado. Esta completa guía te enseñará la importancia del archivo robots, qué poner en él y cómo utilizar las directivas Allow y Disallow. También aprenderás sobre los comodines y lo que hacen.
Tabla de Contenidos
Toggle¿Qué es Robots.txt?
Robots.txt es el nombre abreviado de la norma de exclusión de robots, que es una norma común que los sitios web utilizan para informar a los rastreadores web y a otros robots web del contenido a indexar de sus páginas web. Esto es importante porque impide que los robots web accedan a cualquier página de tu sitio web que no interese.
También puedes especificar a qué páginas quieres que puedan acceder los robots. Al desactivar el rastreo en fill contents (páginas vacías) para los robots web, puedes mejorar tu posicionamiento SEO. Para no permitir que los robots accedan a determinadas páginas web, simplemente utiliza el comando “Disallow”.
La directiva Disallow y Allow
La directiva Disallow indica a los motores de búsqueda que no accedan a una determinada URL o directorio. Puedes bloquear directorios enteros o sólo subcarpetas específicas con una directiva de agente de usuario. Asegúrate de colocar la directiva Disallow antes de la directiva Allow. De este modo, Googlebot anulará la directiva disallow si la carpeta está bajo una directiva allow.
Lo primero que debes tener en cuenta es a qué robots está destinado tu sitio. Si no estás seguro de a qué tipo de robot dirigirte, puedes especificar el agente de usuario de cada robot por separado. La directiva Disallow es útil si no quieres que todos los robots rastreen todas las páginas de tu sitio. Sin embargo, no es necesaria en la mayoría de las situaciones.
La directiva Allow es similar a la directiva disallow, pero especifica excepciones a la directiva disallow. Normalmente, la directiva disallow bloquea todo un directorio, mientras que la directiva allow desbloquea una ruta concreta. Si la misma URL coincide con ambas reglas, el rastreador decide cuál es la mejor coincidencia en función de la longitud de cada ruta. Por ejemplo, una ruta de 16 caracteres será elegida por la directiva disallow en lugar de la directiva allow.
- Disallow: /wp-admin/
- Disallow: /privado/
- Disallow: /autor/
- Disallow: /oculto/file.html
En algunos casos, es posible que sólo quieras desautorizar ciertas páginas de los motores de búsqueda (file.html), pero indicando una carpeta puede ser útil si quieres excluir todo un nodo de los resultados de las búsquedas.
El archivo Robots.txt suele estar situado en la raíz de tu sitio web. Puedes acceder en Contiene una lista de directorios que quieres que los robots no indexen. También contiene una lista de navegadores web y su versión. Es esencial que te asegures de incluir este archivo cuando construyas tu sitio web. Esto se debe a que los bots a menudo pasan por alto contenido importante o lo ocultan de los resultados de búsqueda debido a errores en el archivo robots.txt.
Directiva de permisos
La directiva Allow (Pormitir) especifica las excepciones a la directiva disallow (Bloquear). Mientras que la directiva disallow bloquea todo un directorio, la directiva Allow sólo permite URLs específicas dentro de un directorio. Si una determinada URL coincide con ambas reglas, el rastreador elegirá la que tenga la ruta más corta. Por ejemplo, si la URL es “/Directorio-bloqueado/página-permitida”, se ejecutará la regla disallow, ya que la ruta tiene 20 caracteres, mientras que la ruta de la directiva allow tiene 16 caracteres.
Cuando un sitio web tiene mucho contenido, como la página de un producto, es útil añadir una directiva de retraso de rastreo para permitir que los robots rastreen un sitio web en varias partes. Esta directiva se añade a la directiva Allow, para que los robots esperen 10 segundos antes de rastrear cada página individual. Aunque la directiva Retraso de rastreo nunca ha sido apoyada oficialmente por Google, puedes utilizarla si es apropiada para tu sitio web. Como alternativa, Google ofrece una función conocida como Índice de rastreo en Search Console.
User-agent: Googlebot Crawl-delay: 5
Otra directiva útil es la directiva nofollow y NoIndex, que indica a los motores de búsqueda que ignoren la meta descripción de la página. Noindex impide que Googlebot indexe la página, y Nofollow que rastree los enlaces. Los robots de los motores de búsqueda deben respetar estas directivas, pero no impide que el rastreador no haga su lectura.
Comodines (Wildcards)
Los comodines son una herramienta útil para simplificar tu archivo robots.txt. Pueden ayudar a los motores de búsqueda a encontrar tu sitio utilizando las palabras clave adecuadas. También puedes utilizar los comodines para bloquear ciertas URLs. Sólo asegúrate de utilizarlos correctamente. Pueden provocar resultados inesperados. Por ejemplo, si utilizas un signo de interrogación como comodín, se bloquearán todas las URL que empiecen por un signo de interrogación. También debes añadir un “$” al final de cada URL para indicar que es el final de la misma.
Los agentes de usuario más comunes para los buscadores
Los agentes de usuario son cadenas de datos que utilizan los servidores web para identificar el tipo de navegador que utiliza un usuario. Cada agente de usuario indica qué sistema operativo y qué navegador se utiliza para ver un sitio web. Los motores de búsqueda pueden utilizar el agente de usuario para detectar qué página web mostrar a un usuario.
Los agentes de usuario también se utilizan en la analítica web. Los distintos navegadores admiten diferentes tecnologías web, lo que significa que el contenido que se muestra en un sitio web concreto variará. Los operadores de sitios web quieren que sus sitios web sean atractivos para el mayor número de personas posible sin ahuyentarlas. Utilizar las cadenas de agentes de usuario para determinar qué navegadores se utilizan para acceder a un sitio web es una forma eficaz de saber más sobre estos usuarios.
Los agentes de usuario son cadenas cortas de datos que se envían junto con las peticiones HTTP. Las envían los clientes a los servidores, permitiéndoles conocer el tipo de navegador y la versión del mismo. El servidor puede entonces enviar datos específicos al navegador para mostrar las páginas web.
Ejemplo, esta linea impide que los motores de búsqueda accedan a cualquier URL que tenga un “?”:
User-agent: * Disallow: /*?
Este linea Bloquea a los motores de búsqueda rastrear cualquier URL de una página de resultados de búsqueda con (query?kw=)
User-agent: * Disallow: /query?kw=*
Puede ser útil para bloquear la indexación de taxonomías de una tienda online:
User-agent: * Disallow: /*?color Allow: /*?color=azul
O los comentarios del blog:
User-agent: * Disallow: /comments/feed/
También se pueden bloquear tipos de archivo:
User-agent: * Disallow: /*.pdf$
Mejores prácticas de Robots.txt
Los archivos Robots.txt se utilizan para indicar a los motores de búsqueda qué contenidos deben indexar y cuáles no. Suelen crearse en la sección del encabezamiento de un sitio web. La etiqueta meta debe dirigirse al rastreador concreto al que va dirigido. También puedes añadir una directiva no-index para páginas específicas, para evitar que sean indexadas por los motores de búsqueda. En algunos casos, también puedes añadir una etiqueta X-Robots a la cabecera de respuesta HTTP. Esta directiva sustituirá a cualquier directiva de metaetiqueta robots existente. Esta herramienta ha de usarse con cautela o puede producir graves problemas de indexación. Si se optimiza el rendimiento del rastreador de google o otros buscadores mejorará la indexación de contenidos por Google. Por ello es conveniente revisar periódicamente y actualizar el archivo robot.txt