El archivo robots.txt que bloquea los motores de búsqueda del rastreo para ciertas URLs o partes de un sitio, tiene más de 20 años: Se creó el 30 de de junio de de 1994 por Martijn Koster.
El estándar de exclusión de robots fue creado para evitar que los rastreadores consumieran demasiados recursos del servidor y hacer caer un sitio web. Hay que decir que, en 1994, el ancho de banda era muy limitado.
Lista de información, asesoramiento y errores más comunes del robots.txt:
- Google descarga el archivo robots.txt, una vez cada 24 horas. A veces se cambia esta frecuencia pero rara vez. Esto significa que si deseas bloquear una URL, es prudente añadirla en el archivo robots.txt al menos 24 horas antes.
- Si una URL ha sido indexada por Google, el bloquearla en el archivo robots.txt no va a desindexar, en cualquier caso se mantendrá la URL indexada. Lo único que le indicas a Google es que ya no tiene permiso para rastrear la página. Para anular esa indexación, debes permitir su rastreo y utilizar una etiqueta de robots noindex o una cabecera HTTP X-Robots-Tag o ir a una solicitud de eliminación de URL en Google Webmaster Tools).
- En 2008, Google añade nuevas directrices adicionales, como los comodines y $ *, el comando Permitir y declaración de ficheros Sitemaps.
- No bloquear las direcciones URL de rastreo que son redirigidas, de lo contrario el motor no puede estar al tanto de esta redirección.
- Los comentarios están permitidos (la línea debe comenzar con #) pero son completamente ignorados.
- El archivo robots.txt no se utiliza para proteger el acceso a una URL o categoría.
- El tamaño máximo de un archivo robots.txt es de 500 Kb si es superior será ignorado por Google.
- En algunos casos, Google dice que Google Webmaster se encuentra con problemas de exploración del robots.txt. Google debe obtener un código 200 (el archivo existe y que está disponible) o el código 403 o 404 (el archivo no es accesible, pero el código HTTP devuelto es consistente).
- El archivo robots.txt puede ser encontrado en indexados en Google. Para dar de baja el índice, debes utilizar X-Robots-Tag o prohibir el rastreo de archivos y, a continuación eliminar el índice en Google Webmaster Tools.
- Directiva del arrastre de retardo es administrado por Bing, pero ignorado por Google (para este último, se debe configurar este ajuste en GSC).
- Si está todo el sitio como(Disallow: /), no será nunca rastreado por Google, no olvides quitar esta Directiva antes de publicar tu sitio.
- La URL debe siempre comenzar con una barra.
- Prestar mucha atención a la orden de las directivas Allow: y Disallow:
- El nombre del archivo debe ser llamado robots.txt
- Debe haber un archivo robots.txt para cada
- Debe haber un archivo robots.txt para cada protocolo (HTTP y HTTPS).
- A diferencia de los otros, Google acepta el archivo robots.txt en el protocolo FTP
- Este archivo de texto de preferencia debe ser codificado en UTF-8.
- Los espacios son opcionales (pero se recomienda para mejorar la legibilidad del archivo).
- Sólo 4 directrices son tomadas en cuenta por Google: user-agent , disallow, allow,