Hemos rastreado la web durante 32 años: ¿Qué ha cambiado?

Este año, hace 20 años, escribí un libro llamado "Marketing de motores de búsqueda: la guía esencial de mejores prácticas". Generalmente se considera como la primera guía completa de SEO y la ciencia subyacente de la recuperación de información (IR).

Pensé que sería útil mirar lo que escribí en 2002 para ver cómo se acumula hoy. Comenzaremos con los aspectos fundamentales de lo que implica rastrear la web.

Es importante comprender la historia y los antecedentes de Internet y buscar para comprender dónde estamos hoy y qué sigue. Y déjame decirte que hay mucho terreno por recorrer.

Nuestra industria ahora se precipita hacia otra nueva iteración de Internet. Comenzaremos revisando el trabajo preliminar que cubrí en 2002. Luego exploraremos el presente, con la vista puesta en el futuro del SEO, observando algunos ejemplos importantes (por ejemplo, datos estructurados, computación en la nube, IoT, computación perimetral, 5G),

Todo esto es un gran salto desde donde comenzó Internet.

Únase a mí, ¿no es así? Mientras deambulamos por el carril de la memoria de optimización de motores de búsqueda.

Una importante lección de historia

Usamos los términos red mundial e internet de manera intercambiable. Sin embargo, no son lo mismo.

Te sorprendería saber cuántos no entienden la diferencia.

La primera iteración de Internet se inventó en 1966. Otra iteración que lo acercó a lo que conocemos ahora fue inventada en 1973 por el científico Vint Cerf (actualmente, el principal evangelista de Internet de Google).

La world wide web fue inventada por el científico británico Tim Berners-Lee (ahora Sir) a fines de la década de 1980.

Curiosamente, la mayoría de la gente tiene la idea de que pasó algo equivalente a toda una vida de investigación científica y experimentación antes de que se lanzara su invento. Pero ese no es el caso en absoluto. Berners-Lee inventó la red mundial durante su hora de almuerzo un día en 1989 mientras disfrutaba de un sándwich de jamón en la cafetería del personal en el Laboratorio CERN en Suiza.

Y para agregar un poco de claridad al título de este artículo, desde el año siguiente (1990) la web ha sido rastreada de una forma u otra por un bot u otro hasta el día de hoy (por lo tanto, 32 años rastreando la web) .

Por qué necesitas saber todo esto

La web nunca tuvo la intención de hacer lo que ahora esperamos de ella (y esas expectativas son cada vez mayores).

Berners-Lee originalmente concibió y desarrolló la web para satisfacer la demanda de intercambio automatizado de información entre científicos en universidades e institutos de todo el mundo.

Entonces, mucho de lo que estamos tratando de hacer que la web haga es ajeno al inventor y al navegador (que también inventó Berners-Lee).

Y esto es muy relevante para los principales desafíos de escalabilidad que tienen los motores de búsqueda al tratar de recolectar contenido para indexarlo y mantenerlo actualizado, al mismo tiempo que intentan descubrir e indexar contenido nuevo.

Los motores de búsqueda no pueden acceder a toda la web

Claramente, la red mundial vino con desafíos inherentes. Y eso me lleva a otro hecho muy importante a destacar.

Es el "mito generalizado" que comenzó cuando Google se lanzó por primera vez y parece ser tan generalizado ahora como lo fue entonces. Y esa es la creencia que tiene la gente de que Google tiene acceso a toda la web.

No. No es verdad. De hecho, ni por asomo.

Cuando Google comenzó a rastrear la web por primera vez en 1998, su índice tenía alrededor de 25 millones de URL únicas. Diez años más tarde, en 2008, anunciaron que habían alcanzado el hito principal de haber visto 1 billón de URL únicas en la web.

Más recientemente, he visto números que sugieren que Google tiene conocimiento de unos 50 billones de URL. Pero aquí está la gran diferencia que todos los SEO debemos saber:

Y 50 billones es un montón de URL. Pero esto es solo una pequeña fracción de toda la web.

Google (o cualquier otro motor de búsqueda) puede rastrear una enorme cantidad de contenido en la superficie de la web. Pero también hay una gran cantidad de contenido en la "web profunda" a la que los rastreadores simplemente no pueden acceder. Está bloqueado detrás de las interfaces que conducen a cantidades colosales de contenido de la base de datos. Como destaqué en 2002, ¡los rastreadores no vienen equipados con un monitor y un teclado!

Además, la cifra de 50 billones de URL únicas es arbitraria. No tengo idea de cuál es la cifra real en Google en este momento (y ellos mismos tampoco tienen idea de cuántas páginas hay realmente en la red mundial).

Estas URL tampoco conducen a contenido único. La web está llena de spam, contenido duplicado, enlaces iterativos a ninguna parte y todo tipo de desechos web.

Comprender la arquitectura del motor de búsqueda

En 2002, creé una interpretación visual de la "anatomía general de un motor de búsqueda basado en rastreadores":

Claramente, esta imagen no me valió ningún premio de diseño gráfico. Pero fue una indicación precisa de cómo se unieron los diversos componentes de un motor de búsqueda web en 2002. Sin duda, ayudó a la industria emergente de SEO a comprender mejor por qué la industria y sus prácticas eran tan necesarias.

Aunque las tecnologías que utilizan los motores de búsqueda han avanzado mucho (piense en: inteligencia artificial/aprendizaje automático), los principales impulsores, procesos y ciencia subyacente siguen siendo los mismos.

Aunque los términos "aprendizaje automático" e "inteligencia artificial" se han abierto camino con más frecuencia en el léxico de la industria en los últimos años, escribí esto en la sección sobre la anatomía de un motor de búsqueda hace 20 años:

"En la conclusión de esta sección, me referiré a las 'máquinas de aprendizaje' (máquinas de soporte de vectores) y la inteligencia artificial (IA), que es donde el campo de la búsqueda y recuperación web inevitablemente tiene que ir a continuación".

Rastreadores de motores de búsqueda de 'nueva generación'

Es difícil creer que literalmente solo hay un puñado de motores de búsqueda de uso general en todo el planeta que rastrean la web, siendo Google (posiblemente) el más grande. Digo eso porque en 2002 había decenas de motores de búsqueda, con nuevas empresas casi todas las semanas.

Como con frecuencia me relaciono con profesionales mucho más jóvenes en la industria, todavía encuentro divertido que muchos ni siquiera se den cuenta de que el SEO existía antes de que existiera Google.

Aunque Google recibe mucho crédito por la forma innovadora en que abordó la búsqueda web, aprendió mucho de un tipo llamado Brian Pinkerton. Tuve la suerte de entrevistar a Pinkerton (en más de una ocasión).

Es el inventor del primer motor de búsqueda de recuperación de texto completo del mundo llamado WebCrawler. Y aunque se adelantó a su tiempo en los albores de la industria de las búsquedas, se rió mucho conmigo cuando me explicó su primera configuración para un motor de búsqueda web. Se ejecutó en una sola máquina 486 con 800 MB de disco y 128 MB de memoria y un solo rastreador descargando y almacenando páginas de solo 6,000 sitios web.

Algo diferente de lo que escribí sobre Google en 2002 como un motor de búsqueda de "nueva generación" que rastrea la Web.

“La palabra ‘rastreador’ casi siempre se usa en singular; sin embargo, la mayoría de los motores de búsqueda en realidad tienen varios rastreadores con una "flota" de agentes que realizan el trabajo a gran escala. Por ejemplo, Google, como motor de búsqueda de nueva generación, comenzó con cuatro rastreadores, cada uno de los cuales mantenía abiertas unas trescientas conexiones. A velocidades máximas, descargaron la información de más de cien páginas por segundo. Google (al momento de escribir este artículo) ahora cuenta con 3000 PC que ejecutan Linux, con más de noventa terabytes de almacenamiento en disco. Agregan treinta máquinas nuevas por día a su granja de servidores solo para mantenerse al día con el crecimiento”.

Y ese patrón de escalamiento y crecimiento en Google ha continuado a un ritmo desde que escribí eso. Ha pasado un tiempo desde que vi una cifra precisa, pero tal vez hace unos años, vi una estimación de que Google estaba rastreando 20 mil millones de páginas por día. Es probable que sea incluso más que eso ahora.

Análisis de hipervínculos y el enigma del rastreo/indexación/toda la web

¿Es posible clasificarse entre los 10 primeros en Google si su página nunca ha sido rastreada?

Por improbable que parezca al preguntar, la respuesta es "sí". Y nuevamente, es algo que mencioné en 2002 en el libro:

De vez en cuando, Google devolverá una lista, o incluso un solo enlace a un documento, que aún no se ha rastreado, pero con una notificación de que el documento solo aparece porque las palabras clave aparecen en otros documentos con enlaces, que apuntan a él.