El archivo robots.txt es uno de los olvidados dentro de las páginas web en general, tanto en ecommerce como en blogs o en landing pages. Pero este archivo bien optimizado puede ayudarte mucho en el SEO, es decir, el escalado de posiciones en Google.
En este artículo os voy a enseñar a crear y optimizar un archivo robots.txt perfecto el cual espero que os ayude en vuestro posicionamiento web.
¡Ojo! No os voy a dar una plantilla para que copiéis y peguéis en un archivo .txt ya que cada página tiene es única y tiene sus entresijos.
Lo que yo os voy a enseñar es a optimizar y conocer este archivo para que vosotros adecuéis estos consejos de forma que, seáis unos expertos en la optimización del robots.txt en tu sitio.
Así que vamos a ello, empecemos a optimizar este archivo tan olvidado e importante a la vez.
Índice ¿Qué vamos a ver?
¿Qué es robots.txt?
El archivo robots.txt es el encargado de impedir el rastreo e indexación de ciertas páginas de tu web a Google.
Y os preguntaréis ¿y por qué debería impedir que Google entre en alguna de mis páginas? Pues muy fácil, porque o bien no poseen contenido suficiente para obtener un buen posicionamiento o porque es parte del panel de administración o por algún follón de programación.
Sabiendo esto, deberíais hacer un análisis de vuestra página web y elegir qué páginas queréis que sean indexadas y cuales no.
En el caso de que estés perdido y no tengas idea de por dónde empezar a impedir el acceso a Google en tu ecommerce, presta atención al siguiente punto.
Páginas que Normalmente se Añaden en robots.txt
En este punto del artículo te voy a enseñar las principales páginas a las que todo el mundo suele impedir el acceso a Google.
Páginas de Administración: Ya sea que utilices WordPress, Magento, Prestashop o una plataforma propia, es altamente recomendable que bloquees en el archivo robots.txt el panel de administración del mismo. Un ejemplo sería el /wp-admin/ de un WordPress.
Páginas de Login o Registro: En el caso de que las páginas de acceso de personas registradas esté nulo de contenido, recomiendo también su bloqueo en el archivo robots.txt.
Páginas «Puente»: En mi caso, en muchas webs en las que he trabajado habían páginas puentes que simplemente ejecutaban un script de código para hacer alguna acción dentro de la web. Estas páginas también deberían ser denegadas por nuestro archivo robots.txt.
Páginas sin Apenas Contenido: Todos los ecommerce tienen ciertas páginas las cuales carecen de contenido, estás páginas pueden afectarte negativamente en el posicionamiento, por lo que te recomiendo que las añadas también al archivo robots.txt de tu sitio.
Estas serían para mí las principales páginas a las cuales denegaría el acceso a Google para que las rastree e indexe.
A continuación te explicaré cómo configurar el archivo robots.txt para que puedas empezar a trabajar sobre él.
Cómo Configurar el Archivo robots.txt
Para configurar el archivo robots.txt de nuestra web, primero tendremos que crearlo, esto se hace a partir de un bloc de notas, lo abrimos y en él empezamos a escribir lo siguiente.
User-agent: *
En los archivos robots.txt que creemos ésta debe ser siempre nuestra primera línea.
Lo que pretendemos añadiendo esta línea es decirle a Google que queremos que todos sus robots rastreen nuestra web.
Es bueno tener en cuenta los tipos de robots rastreadores que hay en Google para que si queremos bloquear el acceso a alguno, sepamos su nombre y cómo hacerlo. En este enlace podrás ver los nombres de todos nuestros amigos de hojalata provenientes de Google.
Tras esta línea empezaremos a colocar las paginas que queremos que Google no indexe ni rastree.
Para ello colocaremos una línea con el código.
Disallow: /
Como bien dice la palabra «Disallow» con este comando deshabilitaremos el acceso a los robots de Google a las páginas que pongamos tras el Disallow.
En el caso de poner como en el ejemplo «Disallow: /» haremos que Google no rastree ninguna de las páginas internas de nuestro ecommerce.
Si queremos denegar el acceso a ciertas páginas, por ejemplo wp-admin como dije anteriormente, pondremos «Disallow: /wp-admin/». Este formato lo utilizaremos con todas las páginas a las que queramos deshabilitar.
¡Cuidado! Al poner una ruta, vas a capar tanto la página de esa ruta como todas las subpáginas que cuelgan de ella, por lo que si por ejemplo solo queremos denegar el acceso a la pagina-1 dentro de la pagina-master, pondremos: «Disallow /pagina-master/pagina-1».
En el caso de que queramos prohibir el acceso a todas las páginas excepto una con un Disallow, tenemos la opción de poner Allow para permitir a esa página ser indexada.
Allow: /wp-admin/pagina-1/
De esta forma permitiremos a Google rastrear la página-1 dentro de /wp-admin/. Para tener un seguimiento de cómo quedaría un archivo robots.txt completo con esta opción os lo facilito a continuación:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/pagina-1/
Con este robots.txt no se indexará ninguna página de /wp-admin/ excepto /pagina-1/.
Es recomendable adjuntar el sitemap.xml de nuestro ecommerce en el archivo robots.txt.
Para ello utilizaremos el código:
Sitemap: http://midominio.com/sitemap.xml
De esta forma ayudaremos a Google a conocer un poco más la estructura de nuestra web.
Para crear un sitemap en WordPress podemos utilizar plugins como «XML Sitemap» o «Yoast SEO» aunque yo recomiendo utilizar el primero.
Hay otras opciones como las de «nofollow» y «noindex» que también podemos añadirlas a nuestro archivo robots.txt. Sin embargo, estas opciones recomiendo ponerlas en nuestro archivo html dentro de la etiqueta <head>.
Lo haremos de la siguiente forma:
<meta name=»robots» content=»noindex,nofollow»>
Ojo con esto, ya que impediríamos a Google rastrear e indexar todo nuestro sitio, por lo que si lo pones por alguna razón acuérdate de quitarlo luego (que ya me he encontrado alguna web con esta etiquetita puesta).
Si simplemente queremos que Google no nos indexe pondremos:
<meta name=»robots» content=»noindex»>
En el caso de que no queramos que nos rastree lo que colocaríamos sería:
<meta name=»robots» content=»nofollow»>
Con esto deberíais saber crear un robots.txt perfecto en vuestra web, por lo que os animo a poneros a ello.
Lo que nos faltaría por saber es cómo subirlo para que Google lo tenga en cuenta.
Cómo Enviar el Archivo robots.txt
Para subirlo y que Google nos tenga en cuenta, deberemos ir a nuestra Search Console de Google, dentro de la opción Rastreo > Probador de robots.txt y copiar todo en la caja de texto y darle a enviar.
También recomiendo ponerlo en el directorio raíz de nuestra web, esto lo podremos hacer con un cliente de FTP como Filezilla.
Pero ojo, con un archivo robots.txt perfecto no posicionarás como un Dios por lo que te recomiendo que eches un ojo a nuestros Másters en Ecommerce y Marketing Digital, tanto en su versión presencial como en la online.