robotstxt

¿Qué es y cómo crear el archivo Robots.txt?

¿Estás familiarizado con los términos “indexación” “rastreo” “bots” y similares? Si es así, posiblemente ya conozcas de qué va este tema del archivo robots.txt pues tiene mucho que ver con todo lo anterior. Pero si aún no los conoces, intentaremos explicarlo de una forma simple, para que puedas comenzar a utilizarlo en tus sitios web.

¿Qué es robots.txt?

El archivo “robots.txt” es un archivo de texto utilizado en los sitios web para comunicarse con los robots de los motores de búsqueda y otros rastreadores web. Su nombre completo es “Protocolo de exclusión de robots” (Robots Exclusion Protocol, en inglés).

El archivo robots.txt se encuentra en la raíz del dominio de un sitio web y contiene instrucciones para los robots de búsqueda sobre qué partes del sitio pueden o no pueden rastrear e indexar. Estas instrucciones ayudan a controlar el acceso de los robots a determinadas secciones del sitio web.

¿Cómo funciona?

Cuando un robot de búsqueda accede a un sitio web, lo primero que hace es buscar el archivo robots.txt en la raíz del dominio. Si encuentra el archivo, lee las instrucciones y las sigue en consecuencia. Si no encuentra el archivo, el robot asume que puede rastrear e indexar todas las páginas del sitio web.

El archivo robots.txt utiliza una sintaxis específica para definir las reglas de exclusión o permiso para los robots. El archivo robots.txt es una herramienta de orientación para los robots de búsqueda, pero no todos los robots cumplen estrictamente sus instrucciones. 

Algunos robots maliciosos pueden ignorar el archivo y acceder a contenido restringido. Además, el archivo robots.txt no impide que otros sitios web enlacen a las páginas excluidas, por lo que no garantiza la privacidad de las páginas web.

Diferencia con el sitemap

Se trata de dos elementos diferentes dentro del funcionamiento de un sitio web, pero desempeñan roles complementarios. El archivo robots.txt se utiliza para indicar a los robots de búsqueda qué partes del sitio web pueden rastrear e indexar, mientras que el sitemap se utiliza para proporcionar un mapa completo de todas las páginas del sitio web para facilitar su descubrimiento y rastreo por parte de los motores de búsqueda.

El archivo robots.txt, como se mencionó anteriormente, es un archivo de texto que se coloca en la raíz del dominio de un sitio web. Su objetivo principal es proporcionar instrucciones a los robots de los motores de búsqueda sobre qué partes del sitio web pueden rastrear e indexar. Algunos de los comandos en el archivo robots.txt permiten o niegan el acceso a ciertas páginas o directorios para los robots de búsqueda. Es una forma de controlar el acceso de los robots a contenido específico del sitio web. Sin embargo, es importante tener en cuenta que el archivo robots.txt no es obligatorio y algunos robots pueden optar por ignorarlo.

Un sitemap o mapa del sitio, por su parte, es un archivo XML que enumera todas las páginas de un sitio web y proporciona información adicional sobre ellas, como la fecha de la última modificación, la frecuencia de actualización y la prioridad de indexación. El sitemap ayuda a los motores de búsqueda a comprender y rastrear la estructura del sitio web de manera más eficiente. Proporciona un mapa completo de todas las páginas disponibles en el sitio, lo que puede facilitar la indexación de contenido relevante. El sitemap se envía a los motores de búsqueda para que puedan descubrir y rastrear todas las páginas de un sitio web de manera más completa.

Comandos más comunes del archivo robots.txt

Algunos de los comandos más comunes que se pueden incluir en el archivo son:

  • User-agent: Este comando indica a qué robot de búsqueda se aplican las siguientes reglas. Por ejemplo, “User-agent: Googlebot” se aplica al robot de Google.
  • Allow: Permite el acceso a una página o directorio específico para un robot determinado.
  • Disallow: Niega el acceso a una página o directorio específico para un robot determinado.
  • Sitemap: Especifica la ubicación del archivo de mapa del sitio XML para ayudar a los robots a encontrar las páginas del sitio web.

Pasos para crear un archivo robots.txt

Para crear un archivo robots.txt, sigue estos pasos:

  1. Abre un editor de texto o cualquier programa que te permita crear y editar archivos de texto.
  2. Crea un nuevo archivo y guárdalo con el nombre “robots.txt”.
  3. Abre el archivo y comienza a escribir las reglas que deseas establecer para los robots de búsqueda. Aquí tienes algunos ejemplos de comandos que puedes utilizar:
    • Para permitir que todos los robots accedan a todas las partes del sitio web, puedes incluir lo siguiente:

User-agent: * 

Disallow: 

  • Para bloquear todos los robots de acceder a todo el sitio web, puedes incluir lo siguiente:

User-agent: * 

Disallow: / 

  • Para bloquear un directorio específico, por ejemplo, “/admin/”:

User-agent: * 

Disallow: /admin/ 

  • Para permitir el acceso a un solo archivo específico, por ejemplo, “/archivo.html”:

User-agent: *

Allow: /archivo.html 

  1. Recuerda que puedes personalizar las reglas según tus necesidades y la estructura de tu sitio web. Puedes agregar múltiples líneas con diferentes comandos para establecer reglas específicas para diferentes robots de búsqueda.
  2. Guarda el archivo robots.txt en la raíz del directorio de tu sitio web. Asegúrate de que esté en el directorio principal del dominio, por ejemplo, www.ejemplo.com/robots.txt.
  3. Verifica que el archivo robots.txt esté correctamente configurado utilizando herramientas en línea como la herramienta de prueba de robots.txt de Google. Esta herramienta te permitirá verificar si hay errores en tu archivo y si las reglas se están aplicando correctamente.

¿Qué te pareció este artículo? ¿Ya estás utilizando robots.txt en tus sitios web? 

Si deseas más información sobre nuestros planes de hosting para WordPress puedes contactarte con nosotros o escribirnos tu consulta en los comentarios de este artículo.

Imagen de Fikret Tozak vía Unsplash.com bajo licencia creative commons.