Índice:
Definição - O que significa Web Crawler?
Um rastreador da Web é um bot da Internet que ajuda na indexação da Web. Eles rastreiam uma página de cada vez por um site até que todas as páginas tenham sido indexadas. Os rastreadores da Web ajudam na coleta de informações sobre um site e nos links relacionados a eles, e também na validação do código HTML e dos hiperlinks.
Um rastreador da Web também é conhecido como spider da Web, indexador automático ou simplesmente rastreador.
Techopedia explica Web Crawler
Os rastreadores da Web coletam informações como a URL do site, as informações da metatag, o conteúdo da página da Web, os links da página da Web e os destinos principais desses links, o título da página da Web e qualquer outra informação relevante. Eles controlam os URLs que já foram baixados para evitar o download da mesma página novamente. Uma combinação de políticas como política de re-visita, política de seleção, política de paralelismo e política determina o comportamento do rastreador da Web. Existem muitos desafios para os rastreadores da Web, como a World Wide Web grande e em constante evolução, trocas de seleção de conteúdo, obrigações sociais e lidar com adversários.
Os rastreadores da Web são os principais componentes dos mecanismos e sistemas de pesquisa da Web que analisam as páginas da Web. Eles ajudam na indexação das entradas da Web e permitem que os usuários enviem consultas no índice e também fornecem as páginas da Web que correspondem às consultas. Outro uso de rastreadores da Web está no arquivamento da Web, que envolve grandes conjuntos de páginas da Web a serem periodicamente coletadas e arquivadas. Os rastreadores da Web também são usados na mineração de dados, em que as páginas são analisadas para diferentes propriedades, como estatísticas, e a análise de dados é executada nelas.