Índice:
Definição - O que significa Apache Avro?
O Apache Avro é uma estrutura de serialização de dados e chamada de procedimento remoto que é desenvolvida no projeto Apache Hadoop, onde fornece um formato de serialização para obter dados persistentes e um formato de conexão para fornecer comunicação entre os nós do Hadoop, além de conectar programas clientes ao Hadoop. Serviços.
A Avro usa o formato JSON para definir protocolos e tipos de dados, além de serializar dados em um formato binário compacto.
Techopedia explica Apache Avro
O Apache Avro é uma estrutura de serialização de big data que produz dados em um formato binário compacto que não requer geração de código ou objetos proxy.
É usado como um componente de serialização de dados para o Apache Hadoop. Avro trabalha no conceito de esquemas. Quando os dados do Avro estão sendo lidos, o esquema usado durante a gravação desses dados específicos está sempre presente.
Isso permite que cada conjunto de dados sem custos indiretos por valor, o que torna a serialização rápida e de tamanho relativamente pequeno. E como os dados e seu esquema são totalmente auto-descritivos, isso facilita o uso com linguagens de script dinâmicas.
Quando os dados do Avro são armazenados em um arquivo específico, o esquema também é armazenado com eles para serem processados posteriormente por outro programa. Portanto, se um programa que estiver lendo os dados estiver esperando outro esquema, isso poderá ser facilmente resolvido, pois ambos os esquemas estão presentes.
A Avro fornece:
Um formato de dados binários compacto e rápido
Estruturas de dados ricas
Um arquivo de contêiner para armazenar dados persistentes
Chamada de procedimento remoto (RPC)
Integração com linguagens dinâmicas
A geração de código não é um requisito para ler ou gravar arquivos de dados ou para usar ou implementar protocolos RPC.
