Blog de Marketing Digital

Aprende sobre SEO, Marketing Digital, y Social Media

Cómo crear y configurar el archivo robots.txt

Los navegadores no son brujos o adivinos, por lo que necesitamos decirles qué nos interesa que rastreen y qué es lo que no queremos. Para esto, tenemos la herramienta meta etiqueta robots, pero también la más básica: el archivo robots.txt.

A continuación, te explicamos cómo crear y configurar el robots.txt para tu web. Recuerda que si tienes alguna duda puedes dejarla en los comentarios o consultar con nuestra agencia seo.

¿Qué es el archivo robots.txt y para qué sirve?

El archivo robots.txt es un documento de texto plano que permite controlar la manera en que los exploradores acceden al contenido de tu sitio web.

Para entender esto, hay que comprender que antes de que los robots de Google y otros exploradores accedan a tu sitio pasarán por el archivo robots.txt para entender cómo deberían examinarlo.

En base a las instrucciones que reciban, los robots de Google sabrán como interpretar los datos de tu web, aunque estos también pueden hacer caso omiso a las instrucciones en algunos casos.

Es decir, en pocas palabras, el archivo robots.txt es un código que brinda sugerencias de rastreo a los navegadores para que indexe o no nuestro contenido.

El archivo robots.txt puede ser comprobado visitando www.tusitioweb.com/robots.txt.

Cómo crear el archivo robots.txt

El documento robots.txt es casi tan poderoso como el sitemap de un sitio web, por lo que si no tienes ganas de desindexar todo tu contenido por error lo mejor es que ni lo toques.

Por defecto, WordPress genera un archivo robots.txt bastante básico como el siguiente:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Como verás, el código del robots.txt es bastante sencillito. Te explico en detalle qué es lo que significa cada punto del código:

  • User-agent: En este campo se puede introducir a quién van dirigidas las instrucciones. Por ejemplo, si deseamos podemos pedirle al rastreador de Google que siga las instrucciones, pero no al de Bing. En este ejemplo hemos fijado un asterisco (*), el cual brinda las instrucciones para todos los navegadores. Para esto se utilizan una variedad de códigos que hacen referencia a un navegador. Puedes comprobar la lista completa de códigos desde este enlace.
  • Disallow: En este campo se introduce las páginas que no queremos indexar. Por ejemplo, en el caso del robots.txt por defecto, tenemos la dirección sin el dominio. Es decir, que en pocas palabras le pedimos al navegador que no indexe www.paginadeprueba.com/wp-admin/, ya que es aquí donde iniciamos sesión y no tendría sentido para el navegador.
  • Allow: Así como podemos restringir la indexación, también podemos permitirla usando el comando «allow». En el ejemplo anterior le permitimos indexar y rastrear la dirección indicada.

Es decir, en pocas palabras, la sintaxis sencilla de un robots.txt sería la siguiente:

User-agent: [Nombre del bot a quien aplica (Googlebot, bingbot, yandex, etc.)]

Disallow: [Ubicación a a bloquear]

Allow: [Ubicación al que sí debería acceder el navegador]

Veamos algunos ejemplos de uso del archivo robots.txt

Bloquear una imagen

User-agent: *

Disallow: /imagenes/oculta.jpeg

Bloquear un tipo de archivo

User-agent: *

Disallow: /*.jpeg$

Bloquear una secuencia de caracteres

User-agent: *

Disallow: /directorio-pculto*/

Bloquear URL con terminaciones concretas

User-agent: *

Disallow: /*.pdf$

Probando el archivo robots.txt

Antes de ir corriendo a nuestra web y subir un archivo robots.txt es necesario comprobar que está en orden. Para hacerlo, sigue con las instrucciones a continuación:

  1. Ingresa a tu cuenta de Google Search Console usando el siguiente enlace.
  2. En el menú lateral izquierdo elige la opción Rastreo > Probador de robots.txt.
  3. Modifica el documento en base a tus necesidades.
  4. Asegúrate de que no haya ningún error o advertencia en tu archivo.
  5. Presiona el botón «Enviar»
  6. Da clic en «Descargar» y luego da clic en la equis (x) para cerrar el cuadro.
  7. Sube el archivo descargado a la dirección raíz de tu página web utilizando FTP.
  8. Ingresa nuevamente a Google Search Console y da clic en «Ver el archivo robots.txt publicado» para comprobar que está en orden.

Eso ha sido todo. Ya tenemos un robots.txt listo para nuestra web.

Share on facebook
Facebook
Share on twitter
Twitter
Share on linkedin
LinkedIn
Eduard Davalos

Eduard Davalos

Consultor SEO. Soy un apasionado del mundo del Marketing Online. Me encanta publicar artículos de SEO, SEM, Marketing Online, Social Media. Me gusta mucho enseñar todo lo que he ido aprendiendo día a día con mi experiencia. Emprendedor. Amante de los nuevos retos

Deja un comentario

WhatsApp chat
Call Now Button