Nós rastreamos a web por 32 anos: o que mudou?

Faz 20 anos que escrevi um livro chamado “Search Engine Marketing: The Essential Best Practice Guide.” É geralmente considerado como o primeiro guia abrangente para SEO e a ciência subjacente da recuperação de informações (IR).

Achei que seria útil dar uma olhada no que escrevi em 2002 para ver como isso se compara hoje. Começaremos com os aspectos fundamentais do rastreamento da web.

É importante entender a história e os antecedentes da internet e pesquisar para entender onde estamos hoje e o que vem a seguir. E deixe-me dizer-lhe, há muito chão para cobrir.

Nossa indústria agora está entrando em outra nova iteração da Internet. Começaremos revisando o trabalho de base que abordei em 2002. Em seguida, exploraremos o presente, de olho no futuro do SEO, observando alguns exemplos importantes (por exemplo, dados estruturados, computação em nuvem, IoT, computação de borda, 5G),

Tudo isso é um mega salto de onde a internet começou.

Junte-se a mim, sim, enquanto vagamos pela estrada da memória da otimização de mecanismos de pesquisa.

Uma importante lição de história

Usamos os termos world wide web e internet de forma intercambiável. No entanto, eles não são a mesma coisa.

Você ficaria surpreso com a quantidade de pessoas que não entendem a diferença.

A primeira iteração da Internet foi inventada em 1966. Uma outra iteração que a aproximou do que conhecemos agora foi inventada em 1973 pelo cientista Vint Cerf (atualmente principal evangelista da Internet para o Google).

A world wide web foi inventada pelo cientista britânico Tim Berners-Lee (agora Sir) no final dos anos 80.

Curiosamente, a maioria das pessoas tem a noção de que ele gastou algo equivalente a uma vida inteira de pesquisa científica e experimentação antes de sua invenção ser lançada. Mas esse não é o caso. Berners-Lee inventou a rede mundial de computadores durante a hora do almoço em um dia de 1989, enquanto saboreava um sanduíche de presunto no café dos funcionários do Laboratório do CERN, na Suíça.

E para adicionar um pouco de clareza ao título deste artigo, desde o ano seguinte (1990) a web foi rastreada de uma forma ou de outra por um bot ou outro até os dias atuais (daí 32 anos de rastreamento da web) .

Por que você precisa saber tudo isso

A web nunca foi feita para fazer o que esperamos dela (e essas expectativas estão cada vez maiores).

Berners-Lee originalmente concebeu e desenvolveu a web para atender à demanda de compartilhamento automatizado de informações entre cientistas em universidades e institutos em todo o mundo.

Portanto, muito do que estamos tentando fazer com que a Web faça é estranho ao inventor e ao navegador (que Berners-Lee também inventou).

E isso é muito relevante para os principais desafios de escalabilidade que os mecanismos de pesquisa têm ao tentar coletar conteúdo para indexar e manter atualizado, ao mesmo tempo em que tenta descobrir e indexar novos conteúdos.

Os mecanismos de pesquisa não podem acessar toda a web

Claramente, a world wide web veio com desafios inerentes. E isso me leva a outro fato extremamente importante para destacar.

É o "mito generalizado" que começou quando o Google foi lançado e parece ser tão difundido agora quanto era naquela época. E essa é a crença das pessoas de que o Google tem acesso a toda a web.

Não. Não é verdade. Na verdade, nem perto disso.

Quando o Google começou a rastrear a web em 1998, seu índice era de cerca de 25 milhões de URLs únicos. Dez anos depois, em 2008, eles anunciaram que haviam atingido o grande marco de ter visto 1 trilhão de URLs únicos na web.

Mais recentemente, vi números sugerindo que o Google está ciente de cerca de 50 trilhões de URLs. Mas aqui está a grande diferença que todos nós, SEOs, precisamos saber:

E 50 trilhões é um monte de URLs. Mas esta é apenas uma pequena fração de toda a web.

O Google (ou qualquer outro mecanismo de pesquisa) pode rastrear uma quantidade enorme de conteúdo na superfície da web. Mas também há uma grande quantidade de conteúdo na “deep web” que os rastreadores simplesmente não conseguem acessar. Ele está bloqueado atrás de interfaces que levam a quantidades colossais de conteúdo de banco de dados. Como destaquei em 2002, os rastreadores não vêm equipados com monitor e teclado!

Além disso, o número de 50 trilhões de URLs exclusivos é arbitrário. Não tenho ideia de qual é o número real no Google agora (e eles também não têm ideia de quantas páginas realmente existem na rede mundial de computadores).

Esses URLs também não levam a um conteúdo exclusivo. A web está cheia de spam, conteúdo duplicado, links interativos para lugar nenhum e todos os tipos de outros tipos de detritos da web.

Entendendo a arquitetura do mecanismo de pesquisa

Em 2002, criei uma interpretação visual da “anatomia geral de um mecanismo de pesquisa baseado em rastreador”:

Claramente, esta imagem não me rendeu nenhum prêmio de design gráfico. Mas foi uma indicação precisa de como os vários componentes de um mecanismo de pesquisa na web se uniram em 2002. Certamente ajudou a emergente indústria de SEO a obter uma melhor percepção de por que a indústria e suas práticas eram tão necessárias.

Embora as tecnologias usadas pelos mecanismos de pesquisa tenham avançado muito (pense: inteligência artificial/aprendizado de máquina), os principais impulsionadores, processos e ciência subjacente permanecem os mesmos.

Embora os termos “aprendizado de máquina” e “inteligência artificial” tenham encontrado seu caminho com mais frequência no léxico da indústria nos últimos anos, escrevi isso na seção sobre a anatomia de um mecanismo de pesquisa há 20 anos:

“Na conclusão desta seção, abordarei 'máquinas de aprendizado' (máquinas de suporte vetorial) e inteligência artificial (IA), que é onde o campo de pesquisa e recuperação na web inevitavelmente deve ir a seguir."

Rastreadores de mecanismo de pesquisa de 'nova geração'

É difícil acreditar que haja literalmente apenas um punhado de mecanismos de pesquisa de uso geral em todo o planeta rastreando a web, sendo o Google (possivelmente) o maior. Digo isso porque, em 2002, havia dezenas de mecanismos de busca, com novos lançamentos quase toda semana.

Como frequentemente me misturo com praticantes muito mais jovens do setor, ainda acho engraçado que muitos nem percebam que o SEO existia antes do Google.

Embora o Google receba muito crédito pela maneira inovadora como aborda a pesquisa na web, ele aprendeu muito com um cara chamado Brian Pinkerton. Tive a sorte de entrevistar Pinkerton (em mais de uma ocasião).

Ele é o inventor do primeiro mecanismo de busca de recuperação de texto completo do mundo chamado WebCrawler. E embora ele estivesse à frente de seu tempo no surgimento da indústria de busca, ele riu muito comigo quando explicou sua primeira configuração para um mecanismo de busca na web. Ele rodava em uma única máquina 486 com 800 MB de disco e 128 MB de memória e um único rastreador baixando e armazenando páginas de apenas 6.000 sites!

Um pouco diferente do que escrevi sobre o Google em 2002 como um mecanismo de busca de “nova geração” rastreando a web.

“A palavra 'crawler' é quase sempre usada no singular; no entanto, a maioria dos mecanismos de pesquisa realmente possui vários rastreadores com uma 'frota' de agentes realizando o trabalho em grande escala. Por exemplo, o Google, como mecanismo de busca de nova geração, começou com quatro crawlers, cada um mantendo abertas cerca de trezentas conexões. Em velocidades de pico, eles baixaram as informações de mais de cem páginas por segundo. O Google (no momento em que escrevo) agora conta com 3.000 PCs rodando Linux, com mais de noventa terabytes de armazenamento em disco. Eles adicionam trinta novas máquinas por dia ao farm de servidores apenas para acompanhar o crescimento.”

E esse padrão de expansão e crescimento no Google continuou em um ritmo desde que escrevi isso. Já faz um tempo desde que vi um número preciso, mas talvez alguns anos atrás, vi uma estimativa de que o Google estava rastreando 20 bilhões de páginas por dia. É provável que seja ainda mais do que isso agora.

Análise de hiperlink e o enigma do rastreamento/indexação/toda a web

É possível classificar entre os 10 primeiros no Google se sua página nunca foi rastreada?

Por mais improvável que pareça na pergunta, a resposta é “sim”. E, novamente, é algo que toquei em 2002 no livro:

De vez em quando, o Google retorna uma lista, ou mesmo um único link para um documento, que ainda não foi rastreado, mas com uma notificação de que o documento só aparece porque as palavras-chave aparecem em outros documentos com links, que apontam para isto.

O que é isso? Como isso é possível?

Nós rastreamos a web por 32 years: O que mudou?

Análise de hiperlink. Sim, isso é backlinks!

Existe uma diferença entre rastrear, indexar e simplesmente estar ciente de URLs exclusivos. Aqui está a explicação adicional que dei:

“Se você voltar aos enormes desafios descritos na seção sobre rastreamento na web, é fácil ver que nunca se deve presumir, após uma visita de um mecanismo de busca, que TODAS as páginas do seu site foram indexadas . Tenho clientes com sites de vários graus em número de páginas. Cerca de cinquenta, cerca de 5.000 e com toda a honestidade, posso dizer que nenhum deles tem todas as páginas indexadas por todos os principais mecanismos de pesquisa. Todos os principais mecanismos de pesquisa têm URLs na “fronteira” do rastreamento, como é conhecido, ou seja, o controle do rastreador frequentemente terá milhões de URLs no banco de dados, que ele sabe que existem, mas ainda não foram rastreados e baixados.”

Muitas vezes vi exemplos disso. Às vezes, os 10 principais resultados após uma consulta têm um URL básico exibido sem título ou snippet (ou metadados).

Aqui está um exemplo que usei em uma apresentação de 2004. Observe o resultado inferior e você entenderá o que quero dizer.

O Google está ciente da importância dessa página por causa dos dados de link que a cercam. Mas nenhuma informação de suporte foi extraída da página, nem mesmo a tag de título, pois a página obviamente não foi t foi rastreado. (Claro, isso também pode ocorrer com o pequeno erro perene que ainda acontece o tempo todo quando alguém sai do arquivo robots.txt impedindo que o site seja rastreado.)

Eu destaquei a frase acima em negrito por dois motivos importantes:

Vou apenas embelezar um pouco mais a "polidez", pois ela está diretamente conectada ao arquivo/protocolo robots.txt. Todos os desafios para rastrear a web que expliquei há 20 anos ainda existem hoje (em uma escala maior).

Como os rastreadores recuperam dados em velocidade e profundidade muito maiores do que os humanos, eles podem (e às vezes têm) um impacto prejudicial no desempenho de um site. Os servidores podem travar apenas tentando acompanhar o número de solicitações de alta velocidade.

É por isso que é necessária uma política de polidez regida por um lado pela programação do crawler e pelo plot do crawl, e por outro pelo arquivo robots.txt.

Quanto mais rápido um mecanismo de pesquisa rastrear o novo conteúdo a ser indexado e rastrear novamente as páginas existentes no índice, mais atualizado será o conteúdo.

Obtendo o equilíbrio certo? Essa é a parte difícil.

Digamos, puramente hipoteticamente, que o Google queria manter uma cobertura completa de notícias e assuntos atuais e decidiu tentar rastrear todo o site do New York Times todos os dias (mesmo todas as semanas) sem nenhum fator de polidez. É mais provável que o rastreador use toda a largura de banda. E isso significaria que ninguém pode ler o jornal online por causa da monopolização da largura de banda.

Felizmente agora, além do fator polidez, temos o Google Search Console, onde é possível manipular a velocidade e a frequência com que os sites são rastreados.

O que mudou em 32 anos rastreando a web?

OK, cobrimos muito terreno como eu sabia que faríamos.

Certamente houve muitas mudanças tanto na internet quanto na world wide web – mas a parte de rastreamento ainda parece ser impedida pelos mesmos velhos problemas.

Dito isso, há algum tempo, vi uma apresentação de Andrey Kolobov, pesquisador da área de aprendizado de máquina do Bing. Ele criou um algoritmo para fazer um ato de equilíbrio com a questão da largura de banda, polidez e importância ao traçar o rastreamento.

Eu achei altamente informativo, surpreendentemente direto e facilmente explicado. Mesmo que você não entenda de matemática, não se preocupe, você ainda terá uma indicação de como ele lida com o problema. E você também ouvirá a palavra “importância” na mistura novamente.

Basicamente, como expliquei anteriormente sobre URLs na fronteira do rastreamento, a análise de hiperlink é importante antes de você ser rastreado. De fato, pode ser a razão por trás da rapidez com que você é rastreado. Você pode assistir ao pequeno vídeo de sua apresentação aqui.

Agora vamos encerrar com o que está acontecendo com a internet agora e como a web, internet, 5G e formatos de conteúdo avançado estão aumentando.

Dados estruturados

A Web tem sido um mar de dados não estruturados desde o início. Foi assim que foi inventado. E como ele ainda cresce exponencialmente todos os dias, o desafio dos mecanismos de pesquisa é rastrear e rastrear novamente os documentos existentes no índice para analisar e atualizar se alguma alteração foi feita para manter o índice atualizado.

É uma tarefa gigantesca.

Seria muito mais fácil se os dados fossem estruturados. E muito disso realmente é, já que bancos de dados estruturados dirigem tantos sites. Mas o conteúdo e a apresentação são separados, claro, porque o conteúdo tem que ser publicado exclusivamente em HTML.

Houve muitas tentativas que eu conheço ao longo dos anos, onde extratores personalizados foram construídos para tentar converter HTML em dados estruturados. Mas, principalmente, essas tentativas eram operações muito frágeis, bastante trabalhosas e totalmente propensas a erros.

Outra coisa que mudou o jogo completamente é que os sites nos primeiros dias eram codificados manualmente e projetados para as velhas máquinas de desktop desajeitadas. Mas agora, o número de fatores de forma variados usados para recuperar páginas da Web mudou enormemente os formatos de apresentação que os sites devem segmentar.

Como eu disse, devido aos desafios inerentes à Web, é provável que os mecanismos de pesquisa, como o Google, nunca sejam capazes de rastrear e indexar toda a rede mundial de computadores.

Então, qual seria uma maneira alternativa de melhorar muito o processo? E se deixássemos o rastreador continuar fazendo seu trabalho normal e disponibilizássemos um feed de dados estruturados simultaneamente?

Na última década, a importância e a utilidade dessa ideia cresceram cada vez mais. Para muitos, ainda é uma ideia bastante nova. Mas, novamente, Pinkerton, inventor do WebCrawler, estava muito à frente nesse assunto há 20 anos.

Ele e eu discutimos a ideia de feeds XML específicos de domínio para padronizar a sintaxe. Naquela época, o XML era novo e considerado o futuro do HTML baseado em navegador.

Chama-se extensível porque não é um formato fixo como o HTML. XML é uma “metalinguagem” (uma linguagem para descrever outras linguagens que permite que você crie suas próprias linguagens de marcação personalizadas para diversos tipos de documentos ilimitados). Várias outras abordagens foram apresentadas como o futuro do HTML, mas não conseguiram atender à interoperabilidade necessária.

No entanto, uma abordagem que chamou muita atenção é conhecida como MCF (Meta Content Framework), que introduziu ideias do campo da representação do conhecimento (frames e redes semânticas). A ideia era criar um modelo de dados comum na forma de um grafo rotulado direcionado.

Sim, a ideia ficou mais conhecida como web semântica. E o que acabei de descrever é a visão inicial do gráfico de conhecimento. A propósito, essa ideia data de 1997.

Dito isso, foi em 2011 que tudo começou a se encaixar, com schema.org sendo fundado por Bing, Google, Yahoo e Yandex. A ideia era apresentar aos webmasters um vocabulário único. Diferentes mecanismos de pesquisa podem usar a marcação de maneira diferente, mas os webmasters precisavam fazer o trabalho apenas uma vez e colheriam os benefícios entre vários consumidores da marcação.

OK – Não quero me estender muito sobre a enorme importância dos dados estruturados para o futuro do SEO. Isso deve ser um artigo próprio. Então, voltarei a isso em outra ocasião em detalhes.

Mas você provavelmente pode ver que, se o Google e outros mecanismos de pesquisa não conseguem rastrear toda a Web, a importância de fornecer dados estruturados para ajudá-los a atualizar rapidamente as páginas sem ter que rastreá-las novamente faz uma enorme diferença.

Dito isso, e isso é particularmente importante, você ainda precisa ter seus dados não estruturados reconhecidos por seus fatores E-A-T (experiência, autoridade, confiabilidade) antes que os dados estruturados realmente entrem em ação.

Computação em nuvem

Como já mencionei, nas últimas quatro décadas, a internet evoluiu de uma rede peer-to-peer para a sobreposição da world wide web para uma revolução da internet móvel, Computação em nuvem, Internet das Coisas, Edge Computing e 5G.

A mudança para a computação em nuvem nos deu a frase da indústria "a cloudificação da Internet".

Enormes centros de dados do tamanho de armazéns fornecem serviços para gerenciar computação, armazenamento, rede, gerenciamento de dados e controle. Isso geralmente significa que os datacenters em nuvem estão localizados perto de usinas hidrelétricas, por exemplo, para fornecer a enorme quantidade de energia de que precisam.

Edge computing

Agora, a “Edgeifacation of the internet” faz com que tudo volte de estar mais longe da fonte do usuário para estar bem próximo a ela.

Edge computing é sobre dispositivos físicos de hardware localizados em locais remotos na borda da rede com memória, poder de processamento e recursos de computação suficientes para coletar dados, processar esses dados e executá-los quase em tempo real com ajuda limitada de outras partes da rede.

Ao colocar os serviços de computação mais próximos desses locais, os usuários se beneficiam de serviços mais rápidos e confiáveis com melhores experiências de usuário e as empresas se beneficiam por serem mais capazes de oferecer suporte a aplicativos sensíveis à latência, identificar tendências e oferecer produtos e serviços muito superiores. Dispositivos IoT e dispositivos Edge são frequentemente usados de forma intercambiável.

5G

Com o 5G e o poder da IoT e da computação de borda, a forma como o conteúdo é criado e distribuído também mudará drasticamente.

Já vemos elementos de realidade virtual (VR) e realidade aumentada (AR) em todos os tipos de aplicativos diferentes. E na busca, não será diferente.

As imagens AR são uma iniciativa natural para o Google, e eles estão mexendo com imagens 3D há alguns anos, apenas testando, testando e testando como fazem. Mas eles já estão incorporando esse acesso de baixa latência ao gráfico de conhecimento e trazendo conteúdo de maneiras mais atraentes visualmente.

Durante o auge da pandemia, o usuário final agora “acelerado digitalmente” se acostumou a se envolver com as imagens 3D que o Google estava espalhando na mistura de resultados. No começo eram animais (cachorros, ursos, tubarões) e depois carros.

No ano passado, o Google anunciou que, durante esse período, os resultados apresentados em 3D interagiram com mais de 200 milhões de vezes. Isso significa que o nível foi definido e todos nós precisamos começar a pensar em criar essas experiências de conteúdo mais ricas porque o usuário final (talvez seu próximo cliente) já está esperando esse tipo de conteúdo aprimorado.

Se você ainda não experimentou (e nem todo mundo em nosso setor já experimentou), aqui está uma surpresa muito legal. Neste vídeo do ano passado, o Google apresenta atletas famosos ao mix AR. E a atleta superestrela Simone Biles consegue interagir com seu eu AR nos resultados da pesquisa.

IoT

Estabelecidas as várias fases/desenvolvimentos da internet, não é difícil dizer que tudo o que está conectado de uma forma ou de outra será a força motriz do futuro.

Devido ao hype avançado que muita tecnologia recebe, é fácil descartá-la com pensamentos como IoT é apenas sobre lâmpadas inteligentes e wearables são apenas rastreadores e relógios de fitness. Mas o mundo ao seu redor está sendo remodelado gradualmente de maneiras que você mal pode imaginar. Não é ficção científica.

IoT e wearables são duas das tecnologias de crescimento mais rápido e os tópicos de pesquisa mais quentes que expandirão enormemente os aplicativos eletrônicos de consumo (comunicações especialmente).

O futuro não tarda a chegar desta vez. Já está aqui.

Vivemos em um mundo conectado onde bilhões de computadores, tablets, smartphones, dispositivos vestíveis, consoles de jogos e até mesmo dispositivos médicos, na verdade edifícios inteiros estão processando e fornecendo informações digitalmente.

Aqui está um pequeno fato interessante para você: estima-se que o número de dispositivos e itens conectados à IoT já eclipsa o número de pessoas na Terra.

De volta ao futuro do SEO

Vamos parar por aqui. Mas muito mais por vir.

Pretendo detalhar o que hoje conhecemos como otimização de mecanismos de pesquisa em uma série de artigos mensais abordando os aspectos fundamentais. Embora o termo “SEO” não entrasse no léxico por algum tempo, já que a indústria caseira de “fazer coisas para ser encontrado em portais de mecanismos de pesquisa” começou a surgir em meados da década de 1990.

Até lá – fique bem, seja produtivo e absorva tudo ao seu redor nestes emocionantes tempos tecnológicos. Voltarei com mais em algumas semanas.

As opiniões expressas neste artigo são do autor convidado e não necessariamente do Search Engine Land. Os autores da equipe estão listados aqui.

Novo no Search Engine Land

Sobre o autor

Mike Grehan Mike Grehan é um pioneiro de SEO (online desde 1995), autor, líder mundial viajante e palestrante principal, conhecedor de champanhe e parceiro consumado de bebidas da comunidade global de marketing digital. Ele é ex-editor do Search Engine Watch e ClickZ e produtor do maior evento de pesquisa e marketing social do setor, SES Conference & Expo. Orgulho de ter sido presidente da SEMPO, a maior associação comercial global para profissionais de marketing de busca. E igualmente orgulhoso de ser vice-presidente sênior de comunicações corporativas da NP Digital. Ele também é o criador do Search Engine Stuff, um programa/podcast de streaming de TV com notícias e opiniões de especialistas do setor.

Tópicos relacionados

SEO