Robots.txt: para qué sirve (y para qué NO), cómo configurarlo bien

El archivo robots.txt no es un “escudo” contra Google, sino una herramienta de gestión del rastreo.
Su función es orientar a los bots sobre qué partes de tu sitio merece la pena explorar y cuáles no.
Esto optimiza el llamado crawl budget o “presupuesto de rastreo”: el tiempo y los recursos que Google asigna a tu dominio.

Cuando bloqueas una URL, el bot simplemente no entra. Pero si esa URL está enlazada desde fuera, Google puede indexarla igual, porque la “conoce” aunque no la haya leído.
Por eso robots.txt no controla indexación, y confundirlo con noindex es el error más común desde hace 20 años.

⚠️ En resumen:

Usa robots.txt para decir qué rastrear.
Usa noindex para decir qué no indexar.

Fórmate como Experto en SEO

Apúntate al Máster de SEO y aprende la metodología para hacer frente a cualquier tipo de proyecto SEO con seguridad y confianza.

Mitos vs. Realidad sobre el Robots.txt

Buena parte de los errores con robots.txt proviene de malentendidos acumulados en foros y CMS.
Cada mito desmontado ayuda a entender su alcance real:

“Google se salta el robots.txt” → Falso. Google sí lo respeta; lo que hace es indexar sin rastrear si encuentra señales externas.
“Con Disallow evito la indexación” → No. Disallow = “no entres”. Indexar es otra historia.
“Puedo poner Disallow global mientras trabajo” → Error. Si Google ve un bloqueo masivo, ralentiza el re-crawl incluso después de quitarlo.
“Sirve para seguridad” → Tampoco. Robots es una declaración pública, no una barrera.

⚠️ En definitiva, robots.txt no oculta, no protege, y no desindexa.
Sirve para ordenar.

Estructura mínima de un robots.txt correcto

El archivo ideal es breve y claro.
Muchos sitios añaden reglas redundantes que solo confunden al crawler.
Un robots limpio asegura que el bot entienda rápido la jerarquía de tu sitio y pueda usar su presupuesto donde aporta valor (categorías, fichas, contenidos).

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Sitemap: https://www.tudominio.com/sitemap.xml

Con esto es mas que suficiente:

Bloqueas lo administrativo.
Permites lo necesario.
Declaras el sitemap (opcional pero recomendable).
Nada más. Menos ruido, mejor rastreo.

Reglas útiles (con ejemplos y contexto)

En e-commerce y sitios grandes, el riesgo no es que Google rastree poco, sino que rastree mal.
Las facetas, filtros y búsquedas internas pueden generar miles de URLs sin valor SEO.
Aquí es donde robots.txt ahorra presupuesto y evita sobrecarga de rastreo.

Ejemplos:

# Evitar rastreo de facetas o parámetros

Disallow: /?page=

Disallow: /filtro/

# Evitar búsquedas internas

Disallow: /buscar

⚠️ Pero cuidado: si un filtro tiene búsqueda real (“zapatos negros Nike mujer”), quizá sí quieras indexarlo.
Antes de bloquear, valida la demanda (con tu keyword research).

Cómo desindexar de verdad (sin romper nada)

Muchos SEOs bloquean antes de desindexar, y eso genera páginas fantasma que siguen en Google sin contenido.
La secuencia correcta es:

Quitar enlaces (para reducir autoridad).
Añadir noindex (para marcar intención).
Esperar a que Google lo lea y la saque del índice.
Solo entonces, si ya no aporta nada, bloquear por robots.

⚠️ Así Google entiende el mensaje y limpia la URL sin errores de cobertura.
Bloquear primero = impedir que vea el noindex → contradictorio.

Fórmate como Experto en SEO

Apúntate al Máster de SEO y aprende la metodología para hacer frente a cualquier tipo de proyecto SEO con seguridad y confianza.

Errores típicos al preparar un robots.txt

Estos fallos son casi siempre de lógica de orden o de exceso de celo.

“Página con noindex bloqueada por robots” → se produce por hacer las dos cosas a la vez.
“Sitemap con 3xx o noindex” → es consecuencia de no sincronizar robots, sitemap e indexación.
“Bloquear el sitio en prod” → mezcla entornos (staging vs. real).

⚠️ El hilo conductor es siempre el mismo: Google necesita ver para obedecer.
Si no puede rastrear, no sabrá que debe sacar una URL.

Checklist de buenas prácticas en tu robots.txt

Acción	Por qué importa
Un solo robots.txt en la raíz.	Los bots lo buscan automáticamente ahí; versiones en subcarpetas no se leen.
No usarlo para desindexar.	Bloquear antes de eliminar causa URLs huérfanas indexadas.
Sitemap coherente y limpio.	Acelera el rastreo de URLs válidas y refuerza la canónica.
Bloquear zonas sin valor SEO (admin, búsquedas).	Evitas gasto de crawl budget.
Auth en staging, no Disallow global.	Google no “olvida” rápido los Disallow masivos.
X-Robots-Tag para PDFs/imágenes.	Controlas indexación sin romper accesos.
Monitorizar en Search Console.	Detectas cuándo un bloqueo impide leer un noindex.
Revisar y limpiar el archivo cada año.	Sitios cambian; robots debe actualizarse igual.