• Tecnología
  • Equipo eléctrico
  • Industria de materiales
  • vida digital
  • política de privacidad
  • oh nombre
Localización: Hogar / Tecnología / Hemos rastreado la web durante 32 años: ¿Qué ha cambiado?

Hemos rastreado la web durante 32 años: ¿Qué ha cambiado?

techserving |
1779

Este año, hace 20 años, escribí un libro llamado "Marketing de motores de búsqueda: la guía esencial de mejores prácticas". Generalmente se considera como la primera guía completa de SEO y la ciencia subyacente de la recuperación de información (IR).

Pensé que sería útil mirar lo que escribí en 2002 para ver cómo se acumula hoy. Comenzaremos con los aspectos fundamentales de lo que implica rastrear la web.

Es importante comprender la historia y los antecedentes de Internet y buscar para comprender dónde estamos hoy y qué sigue. Y déjame decirte que hay mucho terreno por recorrer.

Nuestra industria ahora se precipita hacia otra nueva iteración de Internet. Comenzaremos revisando el trabajo preliminar que cubrí en 2002. Luego exploraremos el presente, con la vista puesta en el futuro del SEO, observando algunos ejemplos importantes (por ejemplo, datos estructurados, computación en la nube, IoT, computación perimetral, 5G),

Todo esto es un gran salto desde donde comenzó Internet.

Únase a mí, ¿no es así? Mientras deambulamos por el carril de la memoria de optimización de motores de búsqueda.

Una importante lección de historia

Usamos los términos red mundial e internet de manera intercambiable. Sin embargo, no son lo mismo.

Te sorprendería saber cuántos no entienden la diferencia.

La primera iteración de Internet se inventó en 1966. Otra iteración que lo acercó a lo que conocemos ahora fue inventada en 1973 por el científico Vint Cerf (actualmente, el principal evangelista de Internet de Google).

La world wide web fue inventada por el científico británico Tim Berners-Lee (ahora Sir) a fines de la década de 1980.

Curiosamente, la mayoría de la gente tiene la idea de que pasó algo equivalente a toda una vida de investigación científica y experimentación antes de que se lanzara su invento. Pero ese no es el caso en absoluto. Berners-Lee inventó la red mundial durante su hora de almuerzo un día en 1989 mientras disfrutaba de un sándwich de jamón en la cafetería del personal en el Laboratorio CERN en Suiza.

Y para agregar un poco de claridad al título de este artículo, desde el año siguiente (1990) la web ha sido rastreada de una forma u otra por un bot u otro hasta el día de hoy (por lo tanto, 32 años rastreando la web) .

Por qué necesitas saber todo esto

La web nunca tuvo la intención de hacer lo que ahora esperamos de ella (y esas expectativas son cada vez mayores).

Berners-Lee originalmente concibió y desarrolló la web para satisfacer la demanda de intercambio automatizado de información entre científicos en universidades e institutos de todo el mundo.

Entonces, mucho de lo que estamos tratando de hacer que la web haga es ajeno al inventor y al navegador (que también inventó Berners-Lee).

Y esto es muy relevante para los principales desafíos de escalabilidad que tienen los motores de búsqueda al tratar de recolectar contenido para indexarlo y mantenerlo actualizado, al mismo tiempo que intentan descubrir e indexar contenido nuevo.

Los motores de búsqueda no pueden acceder a toda la web

Claramente, la red mundial vino con desafíos inherentes. Y eso me lleva a otro hecho muy importante a destacar.

Es el "mito generalizado" que comenzó cuando Google se lanzó por primera vez y parece ser tan generalizado ahora como lo fue entonces. Y esa es la creencia que tiene la gente de que Google tiene acceso a toda la web.

No. No es verdad. De hecho, ni por asomo.

Cuando Google comenzó a rastrear la web por primera vez en 1998, su índice tenía alrededor de 25 millones de URL únicas. Diez años más tarde, en 2008, anunciaron que habían alcanzado el hito principal de haber visto 1 billón de URL únicas en la web.

Más recientemente, he visto números que sugieren que Google tiene conocimiento de unos 50 billones de URL. Pero aquí está la gran diferencia que todos los SEO debemos saber:

Y 50 billones es un montón de URL. Pero esto es solo una pequeña fracción de toda la web.

Google (o cualquier otro motor de búsqueda) puede rastrear una enorme cantidad de contenido en la superficie de la web. Pero también hay una gran cantidad de contenido en la "web profunda" a la que los rastreadores simplemente no pueden acceder. Está bloqueado detrás de las interfaces que conducen a cantidades colosales de contenido de la base de datos. Como destaqué en 2002, ¡los rastreadores no vienen equipados con un monitor y un teclado!

Además, la cifra de 50 billones de URL únicas es arbitraria. No tengo idea de cuál es la cifra real en Google en este momento (y ellos mismos tampoco tienen idea de cuántas páginas hay realmente en la red mundial).

Estas URL tampoco conducen a contenido único. La web está llena de spam, contenido duplicado, enlaces iterativos a ninguna parte y todo tipo de desechos web.

Comprender la arquitectura del motor de búsqueda

En 2002, creé una interpretación visual de la "anatomía general de un motor de búsqueda basado en rastreadores":

Claramente, esta imagen no me valió ningún premio de diseño gráfico. Pero fue una indicación precisa de cómo se unieron los diversos componentes de un motor de búsqueda web en 2002. Sin duda, ayudó a la industria emergente de SEO a comprender mejor por qué la industria y sus prácticas eran tan necesarias.

Aunque las tecnologías que utilizan los motores de búsqueda han avanzado mucho (piense en: inteligencia artificial/aprendizaje automático), los principales impulsores, procesos y ciencia subyacente siguen siendo los mismos.

Aunque los términos "aprendizaje automático" e "inteligencia artificial" se han abierto camino con más frecuencia en el léxico de la industria en los últimos años, escribí esto en la sección sobre la anatomía de un motor de búsqueda hace 20 años:

"En la conclusión de esta sección, me referiré a las 'máquinas de aprendizaje' (máquinas de soporte de vectores) y la inteligencia artificial (IA), que es donde el campo de la búsqueda y recuperación web inevitablemente tiene que ir a continuación".

Rastreadores de motores de búsqueda de 'nueva generación'

Es difícil creer que literalmente solo hay un puñado de motores de búsqueda de uso general en todo el planeta que rastrean la web, siendo Google (posiblemente) el más grande. Digo eso porque en 2002 había decenas de motores de búsqueda, con nuevas empresas casi todas las semanas.

Como con frecuencia me relaciono con profesionales mucho más jóvenes en la industria, todavía encuentro divertido que muchos ni siquiera se den cuenta de que el SEO existía antes de que existiera Google.

Aunque Google recibe mucho crédito por la forma innovadora en que abordó la búsqueda web, aprendió mucho de un tipo llamado Brian Pinkerton. Tuve la suerte de entrevistar a Pinkerton (en más de una ocasión).

Es el inventor del primer motor de búsqueda de recuperación de texto completo del mundo llamado WebCrawler. Y aunque se adelantó a su tiempo en los albores de la industria de las búsquedas, se rió mucho conmigo cuando me explicó su primera configuración para un motor de búsqueda web. Se ejecutó en una sola máquina 486 con 800 MB de disco y 128 MB de memoria y un solo rastreador descargando y almacenando páginas de solo 6,000 sitios web.

Algo diferente de lo que escribí sobre Google en 2002 como un motor de búsqueda de "nueva generación" que rastrea la Web.

“La palabra ‘rastreador’ casi siempre se usa en singular; sin embargo, la mayoría de los motores de búsqueda en realidad tienen varios rastreadores con una "flota" de agentes que realizan el trabajo a gran escala. Por ejemplo, Google, como motor de búsqueda de nueva generación, comenzó con cuatro rastreadores, cada uno de los cuales mantenía abiertas unas trescientas conexiones. A velocidades máximas, descargaron la información de más de cien páginas por segundo. Google (al momento de escribir este artículo) ahora cuenta con 3000 PC que ejecutan Linux, con más de noventa terabytes de almacenamiento en disco. Agregan treinta máquinas nuevas por día a su granja de servidores solo para mantenerse al día con el crecimiento”.

Y ese patrón de escalamiento y crecimiento en Google ha continuado a un ritmo desde que escribí eso. Ha pasado un tiempo desde que vi una cifra precisa, pero tal vez hace unos años, vi una estimación de que Google estaba rastreando 20 mil millones de páginas por día. Es probable que sea incluso más que eso ahora.

Análisis de hipervínculos y el enigma del rastreo/indexación/toda la web

¿Es posible clasificarse entre los 10 primeros en Google si su página nunca ha sido rastreada?

Por improbable que parezca al preguntar, la respuesta es "sí". Y nuevamente, es algo que mencioné en 2002 en el libro:

De vez en cuando, Google devolverá una lista, o incluso un solo enlace a un documento, que aún no se ha rastreado, pero con una notificación de que el documento solo aparece porque las palabras clave aparecen en otros documentos con enlaces, que apuntan a él.

¿De qué se trata todo eso? ¿Cómo es esto posible?

Hemos rastreado la web durante 32 años: ¿Qué ha cambiado?

Análisis de hipervínculos. ¡Sí, eso es backlinks!

Hay una diferencia entre rastrear, indexar y simplemente conocer las URL únicas. Aquí está la explicación adicional que di:

"Si regresa a los enormes desafíos descritos en la sección sobre el rastreo de la web, es evidente que uno nunca debe asumir, después de una visita de una araña de un motor de búsqueda, que TODAS las páginas de su sitio web han sido indexadas . Tengo clientes con sitios web de diferente grado en número de páginas. Unos cincuenta, unos 5.000 y con toda honestidad, puedo decir que ninguno de ellos tiene todas las páginas indexadas por todos los principales motores de búsqueda. Todos los principales motores de búsqueda tienen URL en la "frontera" del rastreo como se le conoce, es decir, el control del rastreador con frecuencia tendrá millones de URL en la base de datos, que sabe que existen pero que aún no se han rastreado ni descargado.

Muchas veces vi ejemplos de esto. Los 10 resultados principales después de una consulta a veces mostraban una URL básica sin título ni fragmento (o metadatos).

Aquí hay un ejemplo que usé en una presentación de 2004. Mire el resultado inferior y verá lo que quiero decir.

Google es consciente de la importancia de esa página debido a los datos de enlace que la rodean. Pero no se ha extraído información de apoyo de la página, ni siquiera la etiqueta del título, ya que la página obviamente no lo ha hecho. No se ha rastreado. (Por supuesto, esto también puede ocurrir con el pequeño error de hoja perenne que todavía sucede todo el tiempo cuando alguien deja el archivo robots.txt evitando que se rastree el sitio).

Resalté esa oración anterior en negrita por dos razones importantes:

Solo embelleceré un poco más el tema de la "cortesía", ya que está directamente conectado al archivo/protocolo robots.txt. Todos los desafíos para rastrear la web que expliqué hace 20 años todavía existen hoy (a mayor escala).

Debido a que los rastreadores recuperan datos a mucha más velocidad y profundidad que los humanos, podrían (y a veces lo hacen) tener un impacto paralizante en el rendimiento de un sitio web. Los servidores pueden colapsar simplemente tratando de mantenerse al día con la cantidad de solicitudes de alta velocidad.

Es por eso que se requiere una política de cortesía regida por un lado por la programación del rastreador y la trama del rastreo, y por el otro por el archivo robots.txt.

Cuanto más rápido un motor de búsqueda pueda rastrear contenido nuevo para indexarlo y volver a rastrear las páginas existentes en el índice, más actualizado será el contenido.

¿Conseguir el equilibrio correcto? Esa es la parte difícil.

Digamos, de forma puramente hipotética, que Google quería mantener una cobertura exhaustiva de noticias y asuntos de actualidad y decidió intentar rastrear todo el sitio web del New York Times todos los días (incluso todas las semanas) sin ningún factor de cortesía. Lo más probable es que el rastreador use todo su ancho de banda. Y eso significaría que nadie puede leer el periódico en línea debido al acaparamiento de ancho de banda.

Afortunadamente, ahora, más allá del factor de cortesía, tenemos Google Search Console, donde es posible manipular la velocidad y la frecuencia con la que se rastrean los sitios web.

¿Qué ha cambiado en 32 años de rastreo de la web?

Bien, hemos cubierto mucho terreno como sabía que haríamos.

Ciertamente ha habido muchos cambios tanto en Internet como en la World Wide Web, pero la parte de rastreo todavía parece estar obstaculizada por los mismos problemas anteriores.

Dicho esto, hace un tiempo vi una presentación de Andrey Kolobov, investigador en el campo del aprendizaje automático en Bing. Creó un algoritmo para hacer un acto de equilibrio con el problema del ancho de banda, la cortesía y la importancia al trazar el rastreo.

Me pareció muy informativo, sorprendentemente sencillo y bastante fácil de explicar. Incluso si no entiende las matemáticas, no se preocupe, obtendrá una indicación de cómo aborda el problema. Y también escuchará la palabra "importancia" en la mezcla nuevamente.

Básicamente, como expliqué anteriormente acerca de las URL en la frontera del rastreo, el análisis de los hipervínculos es importante antes de que lo rastreen y, de hecho, puede ser la razón detrás de la rapidez con la que lo rastrean. Puedes ver el breve vídeo de su presentación aquí.

Ahora terminemos con lo que está ocurriendo con Internet en este momento y cómo la web, Internet, 5G y los formatos de contenido mejorado se están poniendo en marcha.

Datos estructurados

La web ha sido un mar de datos no estructurados desde el principio. Así fue como se inventó. Y como todavía crece exponencialmente todos los días, el desafío que enfrentan los motores de búsqueda es tener que rastrear y volver a rastrear los documentos existentes en el índice para analizar y actualizar si se han realizado cambios para mantener el índice actualizado.

Es una tarea gigantesca.

Sería mucho más fácil si los datos estuvieran estructurados. Y gran parte de esto realmente lo es, ya que las bases de datos estructuradas impulsan tantos sitios web. Pero el contenido y la presentación están separados, por supuesto, porque el contenido debe publicarse únicamente en HTML.

Ha habido muchos intentos de los que he tenido conocimiento a lo largo de los años, en los que se han creado extractores personalizados para intentar convertir HTML en datos estructurados. Pero en su mayoría, estos intentos fueron operaciones muy frágiles, bastante laboriosas y totalmente propensas a errores.

Otra cosa que ha cambiado el juego por completo es que los sitios web en los primeros días estaban codificados a mano y diseñados para las viejas y toscas máquinas de escritorio. Pero ahora, la cantidad de factores de forma variables utilizados para recuperar páginas web ha cambiado enormemente los formatos de presentación a los que deben apuntar los sitios web.

Como dije, debido a los desafíos inherentes a la web, es probable que los motores de búsqueda como Google nunca puedan rastrear e indexar toda la red mundial.

Entonces, ¿cuál sería una forma alternativa de mejorar enormemente el proceso? ¿Qué pasa si dejamos que el rastreador continúe haciendo su trabajo normal y hacemos que una fuente de datos estructurados esté disponible simultáneamente?

Durante la última década, la importancia y la utilidad de esta idea han crecido y crecido. Para muchos, todavía es una idea bastante nueva. Pero, de nuevo, Pinkerton, inventor de WebCrawler, estaba muy adelantado en este tema hace 20 años.

Él y yo discutimos la idea de fuentes XML específicas de dominio para estandarizar la sintaxis. En ese momento, XML era nuevo y se consideraba el futuro del HTML basado en navegador.

Se llama extensible porque no es un formato fijo como HTML. XML es un "metalenguaje" (un lenguaje para describir otros lenguajes que le permite diseñar sus propios lenguajes de marcado personalizados para una variedad ilimitada de tipos de documentos). Se alardearon varios otros enfoques como el futuro de HTML, pero no pudieron cumplir con la interoperabilidad requerida.

Sin embargo, un enfoque que llamó mucho la atención se conoce como MCF (Meta Content Framework), que introdujo ideas del campo de la representación del conocimiento (marcos y redes semánticas). La idea era crear un modelo de datos común en forma de un gráfico etiquetado dirigido.

Sí, la idea se hizo más conocida como la web semántica. Y lo que acabo de describir es la primera visión del gráfico de conocimiento. Esa idea data de 1997, por cierto.

Dicho esto, fue en 2011 cuando todo empezó a encajar, con la fundación de schema.org por parte de Bing, Google, Yahoo y Yandex. La idea era presentar a los webmasters un solo vocabulario. Los diferentes motores de búsqueda pueden usar el marcado de manera diferente, pero los webmasters tenían que hacer el trabajo solo una vez y obtendrían los beneficios entre múltiples consumidores del marcado.

Vale, no quiero adentrarme demasiado en la enorme importancia de los datos estructurados para el futuro del SEO. Eso debe ser un artículo propio. Por lo tanto, volveré a ello en otro momento en detalle.

Pero probablemente puedas ver que si Google y otros motores de búsqueda no pueden rastrear toda la web, la importancia de alimentar datos estructurados para ayudarlos a actualizar rápidamente las páginas sin tener que volver a rastrearlas repetidamente hace una gran diferencia.

Habiendo dicho eso, y esto es particularmente importante, aún necesita que sus datos no estructurados sean reconocidos por sus factores E-A-T (experiencia, autoridad, confiabilidad) antes de que los datos estructurados realmente entren en acción.

Computación en la nube

Como ya mencioné, en las últimas cuatro décadas, Internet ha evolucionado desde una red de igual a igual a una superposición de la red mundial a una revolución de Internet móvil. Computación en la nube, Internet de las cosas, Edge Computing y 5G.

El cambio hacia la computación en la nube nos dio la frase de la industria "la nube de Internet".

Enormes centros de datos del tamaño de un almacén brindan servicios para administrar la informática, el almacenamiento, las redes, la administración y el control de datos. Eso a menudo significa que los centros de datos en la nube están ubicados cerca de plantas hidroeléctricas, por ejemplo, para proporcionar la enorme cantidad de energía que necesitan.

Computación perimetral

Ahora, la "fachación perimetral de Internet" hace que pase de estar más lejos de la fuente del usuario a estar justo al lado.

La informática perimetral se trata de dispositivos de hardware físicos ubicados en ubicaciones remotas en el perímetro de la red con suficiente memoria, potencia de procesamiento y recursos informáticos para recopilar datos, procesarlos y ejecutarlos casi en tiempo real con la ayuda limitada de otras partes de la red.

Al ubicar los servicios informáticos más cerca de estas ubicaciones, los usuarios se benefician de servicios más rápidos y confiables con mejores experiencias de usuario y las empresas se benefician al poder admitir aplicaciones sensibles a la latencia, identificar tendencias y ofrecer productos y servicios muy superiores. Los dispositivos IoT y los dispositivos Edge a menudo se usan indistintamente.

5G

Con 5G y el poder de IoT y Edge Computing, la forma en que se crea y distribuye el contenido también cambiará drásticamente.

Ya vemos elementos de realidad virtual (VR) y realidad aumentada (AR) en todo tipo de aplicaciones diferentes. Y en la búsqueda, no será diferente.

Las imágenes AR son una iniciativa natural para Google, y han estado jugando con imágenes 3D durante un par de años solo probando, probando y probando mientras lo hacen. Pero ya están incorporando este acceso de baja latencia al gráfico de conocimiento y trayendo contenido de maneras más atractivas visualmente.

Durante el punto álgido de la pandemia, el usuario final ahora "acelerado digitalmente" se acostumbró a interactuar con las imágenes en 3D que Google estaba rociando en la mezcla de resultados. Primero fueron animales (perros, osos, tiburones) y luego automóviles.

El año pasado, Google anunció que durante ese período los resultados destacados en 3D interactuaron con más de 200 millones de veces. Eso significa que se ha establecido el estándar y todos debemos comenzar a pensar en crear estas experiencias de contenido más ricas porque el usuario final (quizás su próximo cliente) ya está esperando este tipo de contenido mejorado.

Si aún no lo ha experimentado (y no todo el mundo, incluso en nuestra industria), aquí tiene un regalo muy bueno. En este video del año pasado, Google presenta a atletas famosos en la combinación AR. Y la atleta superestrella Simone Biles puede interactuar con su yo AR en los resultados de búsqueda.

IoT

Habiendo establecido las diversas fases/desarrollos de Internet, no es difícil decir que todo lo que esté conectado de una forma u otra será la fuerza motriz del futuro.

Debido a la exageración avanzada que recibe gran parte de la tecnología, es fácil descartarla con pensamientos como que IoT se trata solo de bombillas inteligentes y dispositivos portátiles son solo rastreadores de actividad física y relojes. Pero el mundo que te rodea se está remodelando gradualmente de maneras que apenas puedes imaginar. No es ciencia ficción.

IoT y los dispositivos portátiles son dos de las tecnologías de más rápido crecimiento y los temas de investigación más candentes que expandirán enormemente las aplicaciones de electrónica de consumo (especialmente las comunicaciones).

El futuro no tarda en llegar esta vez. Ya está aquí.

Vivimos en un mundo conectado donde miles de millones de computadoras, tabletas, teléfonos inteligentes, dispositivos portátiles, consolas de juegos e incluso dispositivos médicos, de hecho, edificios enteros procesan y entregan información digitalmente.

Aquí hay un pequeño hecho interesante para usted: se estima que la cantidad de dispositivos y elementos conectados a IoT ya eclipsa la cantidad de personas en la tierra.

Regreso al futuro del SEO

Nos detendremos aquí. Pero mucho más por venir.

Planeo desglosar lo que ahora conocemos como optimización de motores de búsqueda en una serie de artículos mensuales que abordan los aspectos fundamentales. Sin embargo, el término "SEO" no entraría en el léxico por un tiempo, ya que la industria artesanal de "hacer cosas para que lo encuentren en los portales de los motores de búsqueda" comenzó a surgir a mediados o finales de la década de 1990.

Hasta entonces, esté bien, sea productivo y absorba todo lo que le rodea en estos emocionantes tiempos tecnológicos. Volveré con más en unas semanas.


Las opiniones expresadas en este artículo pertenecen al autor invitado y no necesariamente a Search Engine Land. Los autores del personal se enumeran aquí.


Nuevo en Search Engine Land

Acerca del autor

Mike Grehan Mike Grehan es un pionero de SEO (en línea desde 1995), autor, mundo- viajero y orador principal, conocedor de champán y socio bebedor consumado de la comunidad global de marketing digital. Es ex editor de Search Engine Watch y ClickZ, y productor del evento de búsqueda y marketing social más grande de la industria, SES Conference & Exposición. Orgulloso de haber sido presidente de SEMPO, la asociación comercial mundial más grande para especialistas en marketing de búsqueda. E igualmente orgulloso de ser vicepresidente sénior de comunicaciones corporativas, NP Digital. También es el creador de Search Engine Stuff, un programa de transmisión de TV/podcast que presenta noticias y puntos de vista de expertos de la industria.

Temas relacionados

SEO