Inicio / Guía SEO para Principiantes / ¿Qué es el Puzzle SEO? / ¿Qué es el Rastreo en Google?
¿Qué es el Rastreo y por qué es clave en SEO?
Tabla de contenidos
Vamos a empezar por el principio de todo: si Google no rastrea, no existes. Así de simple.
El rastreo es el proceso mediante el cual Googlebot visita las páginas nuevas o actualizadas de un sitio para poder analizarlas y decidir si las mete o no en su índice.
Google usa algoritmos para decidir qué sitios rastrear, cuándo y cuántas páginas de cada uno. Esto está directamente relacionado con el famoso Crawl Budget, del que hablaremos más adelante.
Como SEOs, lo que queremos es que Google conozca al máximo la información que hay en cada URL que nos interesa posicionar. No se trata solo de que “vea la URL”, sino de que analice el contenido que esa URL contiene.
Esa diferencia es vital:
- La URL es la dirección.
- La información es lo que Google realmente analiza y posiciona.
Y para que Google pueda analizar esa información, no hay vuelta de hoja: la URL tiene que ser rastreada.
En resumen:
- Sin rastreo, Google no analiza el contenido.
- Sin análisis, no hay indexación real de la información.
- Sin indexación, no hay posibilidad de aparecer en el ranking.
Fórmate como Experto en SEO
Apúntate al Máster de SEO y aprende la metodología para hacer frente a cualquier tipo de proyecto SEO con seguridad y confianza.
Indexación de Información vs. Indexación de la URL
Hay tres escenarios que nos encontramos a diario:
- Ideal:
- Google detecta la URL → revisa robots.txt → accede sin bloqueo → rastrea → analiza → decide si indexa → ¡Perfecto!
- Google detecta la URL → revisa robots.txt → accede sin bloqueo → rastrea → analiza → decide si indexa → ¡Perfecto!
- Bloqueada:
- Google detecta la URL → va a entrar → robots.txt la bloquea → no puede ver el contenido → no la indexa. Lógico.
- Google detecta la URL → va a entrar → robots.txt la bloquea → no puede ver el contenido → no la indexa. Lógico.
- La trampa:
Google detecta la URL → está bloqueada por robots.txt → no la rastrea → pero la indexa igualmente .
Esto pasa cuando esa URL está enlazada desde una página muy importante, con texto ancla descriptivo. Google no ha visto el contenido, pero indexa la dirección.
⚠️ Esto último es clave:
“Una URL puede indexarse sin ser rastreada, pero su contenido no”.
Y si no indexa el contenido… no posiciona para nada relevante.
Google lo deja claro: no uses robots.txt para ocultar páginas porque pueden acabar indexadas igual si hay enlaces que las mencionan.
¿Cómo funciona Googlebot?
“Googlebot” no es un único robot: son varios rastreadores especializados. Los más comunes que te visitarán son:
- Googlebot Smartphone
- Googlebot Desktop
- Google Images
Sus objetivos principales son dos:
- Detección → descubrir URLs nuevas que nunca ha visto.
- Actualización → volver a URLs ya conocidas para buscar cambios.
En Google Search Console puedes ver quién te está rastreando:
- En “Índice de Cobertura” te muestra el rastreador principal.
- En “Estadísticas de Rastreo” (Crawl Stats) puedes ver el desglose de solicitudes y tipos de robots.
⚠️ Normalmente el principal es Smartphone.
El ciclo de Rastreo de una URL
Cada URL que llega a Google pasa por un ciclo fijo:
- Google recibe la URL (por sitemap, enlaces internos o previos).
- Comprueba robots.txt (¿puedo pasar?).
- Hace la petición y obtiene un código de respuesta (debe ser 200).
- Detecta el tipo de archivo (HTML, PDF, JS…).
- Pasa la info a la fase de indexación y mete nuevas URLs en la cola de rastreo.
⚠️ Si en alguno de estos pasos hay un fallo (por ejemplo, 404), esa URL no entra al baile.
¿Qué problemas podrían fastidiarme el rastreo?
Estos son los errores que más veo en proyectos reales:
- Bloquear URLs importantes con robots.txt.
- Olvidarse de incluir URLs nuevas en el sitemap.
- Tener URLs huérfanas (sin enlaces internos apuntando).
- Demasiada profundidad: URLs enterradas a 4-5 clics no se rastrean igual.
- Enlaces no HTML (por ejemplo, botones sin <a> que Google no sigue).
- Abusar de JavaScript sin pre-render ni cuidado.
- Tiempos de carga lentos → Google puede detectarlas pero decide no rastrearlas para no sobrecargar el servidor.
⚠️ La regla de oro: ponle las cosas fáciles a Google. Cuanto antes pueda recoger la información, mejor.
Fórmate como Experto en SEO
Apúntate al Máster de SEO y aprende la metodología para hacer frente a cualquier tipo de proyecto SEO con seguridad y confianza.
¿Tienes dudas con las exclusiones en Google Search Console?
Cuando una URL aparece en “Excluidas” en GSC, normalmente no está indexada, y muchas veces es por temas de rastreo. Algunos casos típicos:
Exclusión | Significado | Relación con Rastreo |
Bloqueada por robots.txt | Google no puede acceder | Error de configuración |
Bloqueada por solicitud no autorizada | Responde 4XX (403, etc.) | Bloqueo |
Descubierta, sin indexar aún | La ha detectado pero no la ha rastreado todavía | Problema de Crawl Budget o rendimiento |
No se ha encontrado (404) | URL rota o eliminada | No puede acceder a info |
Página con redirección | Detecta la redirección y descarta la original | Rastreo detecta la redirección |
Cómo medir y analizar el Rastreo
Primero debes entener algunas diferencias:
- Rastreable = URL a la que Google podría acceder.
- Rastreada = URL que Google ha accedido realmente en un periodo.
Para medir bien hay que combinar:
- Simulación (con crawlers tipo Screaming Frog o Sitebulb).
- Monitorización real (Search Console, logs, OnCrawl…).
En GSC → “Estadísticas de Rastreo” tienes 90 días de histórico con:
- Gráfico temporal (solicitudes, tamaño, tiempo).
- Estado del host (robots.txt, DNS, conectividad).
- Desglose por códigos de respuesta y tipos de archivo.
- Finalidad (detección vs actualización) y tipo de robot.
⚠️ Y recuerda la frase clave para cerrar:
“Una URL puede indexarse, pero si su contenido no ha sido rastreado, no se indexará la información ni se posicionará para nada útil.”
Fórmate como Experto en SEO
Apúntate al Máster de SEO y aprende la metodología para hacer frente a cualquier tipo de proyecto SEO con seguridad y confianza.
Escrito por:
Luis M. Villanueva
CEO de Webpositer Group y Co-Director del Máster de SEO de Webpositer Academy.
Copyright® 2024. Todos los derechos reservados.