Qué es y para qué sirve un archivo robots.txt
Crear una buena estrategia de SEO es fundamental para hacer crecer tu negocio y llevarlo a tener un buen posicionamiento y otorgarle la visibilidad que se merece. En ocasiones, creemos (equivocadamente) que para ello solo basta con una estrategia de SEO Content atractiva y bien redactada. Lo cierto es que solo con esto no vale y por ello es importante conocer qué es un robot txt.
Con esta herramienta tan importante dentro del mundo del SEO, le vamos a indicar a esas arañas que pueblan la red, a qué URL pueden acceder y a cuáles no.
Nota: realizar esta técnica no asegura al 100% no aparecer en la lista de resultados de Google.
En la siguiente entrada, vamos a explicarte en profundidad todo lo relacionado con los archivos robot txt, indagando en su significado, en qué nos puede ayudar y cuáles son todos y cada uno de ellos.
¿Estás preparado para convertirte en un auténtico especialista en SEO? ¡Vamos a ello!.
¿Qué es un archivo robot txt?
Los archivos robot txt son una especie de documento/archivo que utilizan los especialistas en SEO.
A la hora de crear una nueva web, necesitamos que Google pase por ella, y rastree el contenido que estamos ofreciendo. Gracias a estos ficheros le vamos a indicar a las famosas arañas a qué contenido queremos que accedan y a cuáles no.
Este tipo de archivos utilizan el EER (Estándar de exclusión de robots). Para emplearlo correctamente, debes saber qué es un robot txt añadir una serie de pequeños comandos que sirven para indicar a qué secciones de la web queremos que acceda Google.
Por otro lado, este tipo de archivos no son de obligado uso pero, te van a ayudar mucho a la hora de posicionar tu sitio web.
En resumen, podríamos decir que el proceso es el siguiente:
- El robot de Google decide darse un paseo por la red a ver que encuentra y llega a nuestro sitio web.
- Este robot va a intentar obtener información del archivo robot txt para conocer de primera mano si ese sitio puede ser rastreado o no.
- En los sitios web que no tengan este tipo de ficheros, suelen ser indexados con total normalidad.
También te recomendamos: La guía definitiva de SEO técnico para “dummies”.
¿Para qué sirven los robots txt?
Los robots nos ayudan a dar órdenes detalladas para buscar otros robots.
Para que puedas entenderlo con mayor claridad, te vamos a especificar para qué sirven.
1. Control de acceso a los archivos de imagen
Conocer qué es un robot txt pueden evitar que los archivos de imagen del sitio web puedan aparecer en los resultados de búsqueda.
Con ello, podemos controlar la entrada a determinada información, como por ejemplo las infografías o detalles específicos de productos.
Al no mostrarse este tipo de imágenes en los resultados de búsqueda, el usuario se verá obligado a acceder a tu sitio web, lo que puede ser una práctica muy interesante para favorecer el posicionamiento de la misma.
2. Control de acceso a los sitios web
Dentro de una web, además de imágenes, también podemos encontrarnos con otras páginas web del propio dominio.
Los robots no solo se encargan de evitar que las arañas no puedan acceder a las páginas irrelevantes o restringidas por tu parte, también se encargan de evitar que el servidor donde se aloja tu sitio web, se vea sobrepasado por los resultados arrojados en los motores de búsqueda.
3. Bloqueo de acceso a archivos de recursos
No solo se pueden bloquear imágenes y webs, también son útiles para acceder a otros comandos o archivos de estilo menos importantes, saltándose tus servidores.
Nota: debes saber que esta acción debe desarrollarse con especial cuidado. La razón es porque si estas acciones son indispensables para la carga correcta de tu web, puede dificultar el trabajo de los rastreadores e interponerse en el análisis de la página.
Diferentes tipos de robots txt
Debes saber que los robots txt funcionan de manera bastante similar al HTML y los cientos de lenguajes de programación que podemos encontrarnos en la red.
Como verás a continuación, existen varios tipos de ficheros dependiendo de las acciones que queramos llevar a cabo.
1. Comando User-Agent
Se pueden añadir órdenes más específicas para cada robot en el archivo txt gracias a los comandos User-Agent. De esta manera, vas a poder determinar a qué rebotó de búsqueda se refiere.
Uno de los principales robots de búsqueda de Google es Googlebot.
Si quieres darle órdenes a este robot, lo puedes hacerse la siguiente manera:
- User-Agent: Googlebot.
Sí, por el contrario, quieres ordenar al robot de búsquedas de Bing, el comando de búsquedas es:
- User-Agent: Bingbot.
Como has podido ver, solo tienes que cambiar el nombre del buscador y añadir User-Agent.
2. Comando Disallow
Este tipo de comando es el responsable de describir cuáles son las páginas de directorio o del sitio web que no deben incluirse en los resultados de búsqueda.
Lo mismo que sucede con el User-Agent, con el Disallow solo hay que añadir la dirección de la página y luego el comando.
Ahora que empiezas saber qué es un robot txt, vas a poder guiarlos a que no entren en tu web, escribe el siguiente comando:
- Disallow:/beta-php.
Con el comando, conseguirás que no se accedan a carpetas específicas.
Sí, por el contrario, quieres ejercer un bloqueo al acceso de carpeta “archivos”, utiliza este comando:
- Disallow: /archivo/.
Bloquear el acceso a todas las carpetas y archivos que empiecen con la letra “a”, ingresa el siguiente comando:
- Disallow: / a.
Lectura recomendada: 5 herramientas SEO para aumentar tu productividad.
3. Comando Allow
Con el comando allow, vamos a decirle a los robots de Google que nuestro sitio web está preparado para ser indexado.
El comando allow es interesante cuando queremos bloquear una carpeta determinada del directorio, pero, a su vez, nos hubiera gustado realizar una indexación de un archivo o carpeta específica que se encuentra en un directorio bloqueado.
Si quieres realizar esta acción, puedes añadir:
- Disallow: /archivos/
- Allow: /archivos/proyectos/.
4. Comando sitemap
Por último, vamos a hablar de un comando bastante útil dentro de los robots txt, el sitemap. Indicar el sitemap de tu web, permite que los robots de búsqueda identifiquen con mayor facilidad todas las páginas del sitio.
Ingresar la dirección de un sistema no es nada complicado. Solo tienes que haber guardado un archivo sitemap en la carpeta de raíz del sitio web. El comando que debes escribir es:
Sitemap: https://tusitioweb.com.mx/sitemap.xml
Conclusión: ¿Estamos obligados a introducir los robots txt?
El uso de este tipo de ficheros en una estrategia de SEO no es obligatorio. Lo cierto es que se trata de una práctica bastante útil y que, en cierto modo, cuenta con algunas limitaciones.
Utilizarlos no va a asegurarte al 100% que una página se indexe con mayor rapidez, solo le estás diciéndole a Google donde debe pasar y donde no.
Por lo tanto, ahora que conoces qué es un robot txt, sabes para qué sirve, cómo utilizarlo y las ventajas que te reporta la introducción de estos códigos en tu nueva web. En Coco Solution seguimos poniendote al día de todo lo que sucede dentro del apasionante mundo del SEO.