Índice:
- Definição - O que significa o HDado (Sistema de Arquivos Distribuídos) do Hadoop?
- Techopedia explica o sistema de arquivos distribuídos (HDFS) do Hadoop
Definição - O que significa o HDado (Sistema de Arquivos Distribuídos) do Hadoop?
O Hadoop Distributed File System (HDFS) é um sistema de arquivos distribuído executado em hardware padrão ou de gama baixa. Desenvolvido pelo Apache Hadoop, o HDFS funciona como um sistema de arquivos distribuído padrão, mas fornece melhor taxa de transferência e acesso de dados através do algoritmo MapReduce, alta tolerância a falhas e suporte nativo a grandes conjuntos de dados.
Techopedia explica o sistema de arquivos distribuídos (HDFS) do Hadoop
O HDFS armazena uma grande quantidade de dados colocados em várias máquinas, geralmente em centenas e milhares de nós conectados simultaneamente, e fornece confiabilidade de dados replicando cada instância de dados como três cópias diferentes - duas em um grupo e uma em outro. Essas cópias podem ser substituídas em caso de falha.
A arquitetura do HDFS consiste em clusters, cada um dos quais é acessado através de uma única ferramenta de software NameNode instalada em uma máquina separada para monitorar e gerenciar o sistema de arquivos e o mecanismo de acesso do usuário desse cluster. As outras máquinas instalam uma instância do DataNode para gerenciar o armazenamento em cluster.
Como o HDFS é escrito em Java, ele possui suporte nativo para API (Java Application Programming Interface) para integração e acessibilidade de aplicativos. Também pode ser acessado através de navegadores da Web padrão.