Índice:
Definição - O que significa Apache Nutch?
O Apache Nutch é um produto de software de rastreador da Web que pode ser usado para agregar dados da Web. É usado em conjunto com outras ferramentas Apache, como o Hadoop, para análise de dados.
Techopedia explica Apache Nutch
O Apache Nutch é um produto de código aberto licenciado pela Apache Software Foundation. Essa comunidade de desenvolvedores possui licenças para uma variedade de ferramentas de software Apache que podem classificar e analisar dados. Uma das tecnologias centrais é o Apache Hadoop, uma ferramenta de análise de big data muito popular na comunidade de negócios.
Juntamente com ferramentas como Apache Hadoop e recursos para armazenamento, análise e muito mais, o papel do Nutch é coletar e armazenar dados da Web através do uso de algoritmos de rastreamento na Web.
Os usuários podem aproveitar os comandos simples no Apache Nutch para coletar informações em URLs. Os usuários geralmente usam o Apache Nutch junto com outra ferramenta de código aberto, uma estrutura chamada Apache Solr, que pode atuar como um repositório dos dados coletados com o Apache Nutch.
