Piensa en un archivo robots.txt como un letrero de “Código de Conducta” publicado en la pared de un gimnasio, un bar o un centro comunitario: El letrero en sí no tiene poder para hacer cumplir las reglas enumeradas, pero los usuarios “buenos” seguirán las reglas, mientras que los “malos” probablemente las rompan y se prohíban.
Un bot es un programa informático automatizado que interactúa con sitios web y aplicaciones. Hay buenos bots y malos bots, y un tipo de bot bueno se llama bot de rastreo web. Estos bots “arrastran” páginas web e indexan el contenido para que pueda aparecer en los resultados de los motores de búsqueda. Un archivo robots.txt ayuda a administrar las actividades de estos rastreadores web para que no sobreimpongan el servidor web que aloja el sitio web, o indexen las páginas que no están destinadas a la vista pública.
¿Cómo funciona un archivo robots.txt?
Un archivo robots.txt es solo un archivo de texto sin código de marcado HTML (de ahí la extensión .txt). El archivo robots.txt está alojado en el servidor web como cualquier otro archivo en el sitio web. De hecho, el archivo robots.txt para cualquier sitio web dado normalmente se puede ver escribiendo la URL completa de la página de inicio y luego agregando /robots.txt, El archivo no está vinculado a ningún otro lugar del sitio, por lo que es probable que los usuarios tropiecen con él, pero la mayoría de los bots rastreadores web buscarán este archivo primero antes de rastrear el resto del sitio.
Mientras que un archivo robots.txt proporciona instrucciones para los bots, en realidad no puede hacer cumplir las instrucciones. Un buen bot, como un rastreador web o un bot de fuente de noticias, intentará visitar el archivo robots.txt primero antes de ver cualquier otra página en un dominio, y seguirá las instrucciones. Un bot malo ignorará el archivo robots.txt o lo procesará para encontrar las páginas web que están prohibidas.
Un bot rastreador web seguirá el conjunto más específico de instrucciones en el archivo robots.txt. Si hay comandos contradictorios en el archivo, el bot seguirá el comando más granular.
Una cosa importante a tener en cuenta es que todos los subdominios necesitan su propio archivo robots.txt. Por ejemplo, mientras que www.cloudflare.com tiene su propio archivo, todos los subdominios de Cloudflare (blog.cloudflare.com, community.cloudflare.com, etc.) también necesitan los suyos propios.
¿Qué protocolos se utilizan en un archivo robots.txt?
En redes, un protocolo es un formato para proporcionar instrucciones o comandos. Los archivos Robots.txt utilizan un par de protocolos diferentes. El protocolo principal se llama Protocolo de Exclusión de Robots. Esta es una manera de decirle a los bots qué páginas web y recursos evitar. Las instrucciones formateadas para este protocolo se incluyen en el archivo robots.txt.
El otro protocolo utilizado para los archivos robots.txt es el protocolo Sitemaps. Esto se puede considerar un protocolo de inclusión de robots. Los mapas del sitio muestran un rastreador web qué páginas pueden rastrear. Esto ayuda a asegurar que un robot rastreador no se pierda ninguna página importante.