Lar Nas noticias Expondo a diferenciação: chega uma nova era de infraestrutura escalável

Expondo a diferenciação: chega uma nova era de infraestrutura escalável

Anonim

Por Techopedia Staff, 11 de maio de 2016

Resumo : A anfitriã Rebecca Jozwiak discute os avanços na arquitetura e no armazenamento de bancos de dados com Dez Blanchfield, Robin Bloor e Brian Bulkowski.

No momento, você não está logado. Faça o login ou inscreva-se para ver o vídeo.

Rebecca Jozwiak: Senhoras e Senhores Deputados, olá e sejam bem-vindos às Hot Technologies de 2016. Hoje estamos: “Expondo a diferenciação: chega uma nova era de infraestrutura escalável”. Hoje estou substituindo Eric Kavanagh. Sou Rebecca Jozwiak, sua humilde anfitriã do grupo enquanto Eric está na Jamaica. Bom para ele.

Então, como faz décadas, este ano é quente, embora a tecnologia esteja se movendo a um ritmo que está ultrapassando a lei de Moore, e o que as organizações estão fazendo para acompanhar? Eles estão procurando o que for rápido, e eu diria que a escala é provavelmente uma das coisas mais importantes quando pensamos em bancos de dados. E é claro que temos as opções para o relacional usual, agora temos nosso NoSQL, temos nosso armazenamento de colunas, temos nossos bancos de dados gráficos, nossos bancos de dados RDF, mas, na verdade, o que as empresas procuram é escala, é paralelismo e é rápido .

Agora, as arquiteturas tradicionais eram baseadas nesse modelo relacional. Mas se você observar a maioria dos negócios na Web que surgiram nos últimos três, cinco, dez anos, esse não é o modelo que eles estão usando para sua infraestrutura. Eles estão usando uma arquitetura diferente, paralela, estão escalando e são rápidos, e é para isso que muita gente está se voltando hoje.

Nossa formação, temos Dez Blanchfield, ele é um cientista do Bloor Group. Temos o doutor Robin Bloor, nosso analista-chefe no Bloor Group, e temos Brian Bulkowski, CTO e fundador da Aerospike. Então pessoal, vou passar para o Dez.

Dez Blanchfield: Obrigado e obrigado por me receber aqui. Vou tentar definir o cenário de como chegamos muito rapidamente aonde estamos, e vamos mergulhar em muito mais detalhes técnicos à medida que abordamos os tópicos de hoje. Eu só vou conseguir o controle da tela aqui.

Tão maior, melhor e mais rápido. Quando penso em onde estamos, a imagem que me vem à mente pessoalmente, é essa mesma imagem que tenho no meu slide de título, que é a expansão do universo. Temos a tecnologia se desenvolvendo e crescendo há décadas, na verdade, a partir dos anos cinquenta, quando o mainframe se tornou algo real. Em muitos casos, a tecnologia continua a crescer em uma curva maior ou maior que uma linear, dependendo de qual parte da curva você está, no que diz respeito ao software ou hardware.

A balança ficou cada vez maior, e cada vez mais rápida, na medida em que estamos tentando oferecer, e cada vez menor no nível de fabricação e semicondutores. E no meio há software, aplicativos e sistemas que sustentam esse software, e eles tendem a ficar cada vez menores por natureza, e vimos coisas como aplicativos em contêineres e microsservidores, isso se tornou uma coisa novamente. Fizemos isso no passado, décadas antes, mas como resultado de ficar cada vez menor lá, estamos ficando cada vez maiores na escala em que agora podemos executar coisas, como aplicativos e bancos de dados específicos, e a lógica de esses bancos de dados.

Eu tenho essa visão em que escalamos muito horizontalmente, essencialmente no eixo X; escalamos verticalmente no eixo Y. Agora estamos no ponto em que precisamos ir para algum lugar diferente, e, na minha opinião, isso é meio que mentalmente encarado como um eixo Z, e é que precisamos nos aprofundar na tecnologia e ver como podemos fazer as coisas de maneira diferente do que fizemos até agora, para obter esse pedaço adicional de velocidade. Então, visualizo toda essa expansão do universo, onde tivemos uma explosão, e existem algumas tecnologias, e esse melhor crescimento e demanda linear. Tivemos que encontrar maneiras diferentes de obter esse resultado maior, melhor e mais rápido.

Apenas para cobrir rapidamente o tipo de local em que estamos agora em alguns ambientes de hardware. Vimos que os custos decrescentes de um gigabyte de espaço em disco provocam algumas transições e tecnologias razoavelmente grandes e abordagens para o problema de escala maior, melhor e mais rápido. Esses são dois gráficos separados que cobrem aproximadamente uma década cada, pouco mais de uma década, cada um dos preços em queda de um gigabyte de espaço em disco rígido.

É uma curva J clássica ou um taco de hóquei, como costumamos referir a eles, já que há algum tempo você podia gastar literalmente centenas de milhares de dólares para comprar um gigabyte de espaço em disco, não há duas décadas, enquanto hoje se tornou dólares e eventualmente, tenho certeza de que terminará, o que chamamos de corrida zero, ela se tornará centavos. Isso trouxe uma mudança interessante no tipo de coisas que as empresas poderiam fazer. E me refiro a isso como uma interrupção por meio de dados ou big data em particular, e com isso, o que quero dizer é que vimos tecnologias, como como nos tornarmos algo em que poderíamos escalar horizontalmente no armazenamento e o tipo de computação que pode se aplicar a esse armazenamento e como ele abre uma tecnologia interessante porque nos permite fazer um armazenamento paralelo muito grande e redundante no nível mais rápido, e o Hadoop se integra sozinho, podendo copiar dados em um formato de gravação, uma vez lido muitas vezes e reduza a escala quase linearmente.

E todas as empresas como essa se tornam verdadeiras interrupções usando big data. Temos empresas como a Uber, que é a maior empresa de táxi do mundo. Na verdade, eles não possuem táxis, e é uma longa lista aqui. O Airbnb é o maior provedor de acomodações, na verdade não possui imóveis. Um dos meus favoritos é o Facebook, por exemplo nesta lista, onde eles não criam o conteúdo, nós o criamos para eles, mas na verdade são o maior proprietário de mídia do planeta. Temos bancos interessantes, como os bancos que mais crescem, na verdade não têm dinheiro. Essas são plataformas e bancos de empréstimos ponto a ponto, e há um na Austrália em particular que está crescendo fama aqui chamado SocietyOne. E alguns dos principais bancos que precisam de dinheiro estão investindo nesse banco ponto a ponto. E passamos por essa lista até a Netflix; na verdade, eles não possuem cinemas e, no entanto, são efetivamente a maior casa de cinema do planeta.

Então, eles chegaram onde estavam, na minha opinião, através da aplicação de tecnologias inteligentes no nível de dados, porque poderíamos fazer um armazenamento maior e mais amplo a custos mais baixos, devido à queda do preço de um gigabyte de espaço no disco rígido, e poderíamos aplique alguma computação inteligente e distribua um modelo de computação sobre isso. Essas empresas tinham a capacidade de criar uma vantagem competitiva e interromper como resultado da queda nos custos de espaço em disco.

Vimos algo semelhante acontecer no custo da memória. Algumas décadas atrás, se você tivesse seis milhões de dólares por aí, poderia comprar um gigabyte de RAM, e tivemos uma curva J ou taco de hóquei muito semelhante, ocorrendo na redução dos custos ou do preço caído de RAM. E isso trouxe algumas coisas interessantes e, em minha opinião, uma das maiores interrupções nesse espaço é a quantidade de memória que pode ser incorporada aos dispositivos, como dispositivos móveis, como telefones e tablets e até laptops. Atualmente, nos computadores, a quantidade de memória que entra em um laptop comum é bastante ridícula em alguns casos. Em alguns casos, meu laptop atual tem mais memória do que alguns dos servidores que costumavam usar há pouco tempo.

Isso provocou uma mudança significativa por si só, da mesma forma que uma RAM tem em minha mente, nos permitiu escalar e escalar rapidamente. E agora tivemos o surgimento de uma tecnologia que chamamos de flash, que é originária de algo que fica no hardware na forma de uma EEPROM, um pequeno chip projetado para poder estar disponível, e escreva para e, quando a energia desligasse, manteria o que você escreveu nesse chip como armazenamento persistente. Era lento, era desajeitado e, naqueles dias, acho que foi por volta de 1980-1981 que meio que se tornou uma coisa. Em 1984, a Toshiba, que acredito ter inventado a tecnologia, transformou-a em algo comercial que poderíamos usar.

Mas, em pouco tempo, as pessoas descobriram que realmente podiam usar uma combinação dos componentes que eram usados ​​para criar esse conceito de EEPROM, uma memória somente leitura, uma vez apagada e gravada, e eles realmente podiam escrever nele regularmente e use-o um pouco mais como espaço em disco e um pouco mais como RAM. Com o tempo, ele se desenvolveu. Agora, essa tecnologia de armazenamento flash foi uma fusão entre o armazenamento em disco tradicional, seja um disco giratório ou, em alguns casos, um disco híbrido de memória e RAM. E o principal é o sistema entre eles, porque você pode ler e gravar nele e, em seguida, desligue a energia e manterá o que você escreveu para ele. Portanto, um espaço em disco, obviamente, você escreve para ele, desliga a força, e o fuso giratório e o modificado pesadamente, por falta de uma descrição melhor, mantém os zeros e os que você escreveu nele.

No espaço de memória de acesso aleatório, você escreve algo na memória na RAM, desliga o computador e tudo é apagado porque não há mais elétrons para mantê-lo carregado e reter as informações que você escreveu. Além disso, está no meio e é extremamente rápido, mais rápido que o disco, um pouco mais lento que a RAM. Mas você pode escrever e ler a partir dele, e quando desligar a energia, ela persistirá. Isso trouxe algumas tecnologias surpreendentes e, particularmente, desenvolvemos dispositivos móveis e laptops muito, muito rápidos e capazes de fazer muitas coisas, e agora ele é movido para o espaço de infraestrutura em torno do armazenamento e da computação, e isso traz resultados significativos mudanças no que podemos entregar em escala. É nesse ponto que acredito que o eixo Z em minha mente está surgindo agora.

É quase na hora certa, de várias maneiras, porque já vimos uma interrupção agora através do que me refiro como demanda, e é isso que os consumidores têm, independentemente do que está acontecendo na infraestrutura e no espaço tecnológico, e a capacidade de dirigir mais rapidamente e computação mais rápida e desempenho no nível da infraestrutura, os consumidores estão exigindo essa interrupção na forma do que é agora referido, a experiência da celebridade. Todo mundo quer que todos os sistemas, aplicativos e sites saibam quem são e do que gostam, e que sejam capazes de proporcionar uma experiência personalizada personalizada. Já não é bom o suficiente apenas para ir a um site onde eu compro ingressos de cinema. Quero que ele saiba o que comprei antes, por que o comprei e, potencialmente, o que pessoas como eu compraram e recomendam coisas.

Invariavelmente, estamos vendo o que me refiro é uma ordem social, e é isso que quero a experiência de celebridade, mas também quero socializar essa ideia, quero compartilhá-la com todos os meus amigos e dizer a eles o que eu quero. estou fazendo e também quero saber o que meus amigos estão fazendo. E isso é resultado de uma demanda explosiva por computação e armazenamento adicionais, e rápida recuperação das coisas. Vimos a geração Fitbit, o que eu chamo de rastreamento sempre ativo. Tudo o que faço é rastreado, registrado e capturado em algum lugar. Vimos tudo em tempo real: serviços bancários, lances, mecanismos de recomendação e ter que lidar com as coisas em tempo real que pessoalmente estou fazendo como consumidor.

E então vemos um grande impacto, como os riscos de segurança relacionados à segurança cibernética. Antigamente, tínhamos hackers individuais, depois bandos de criminosos se aplicavam a ele, agora temos nações inteiras entrando em guerra pela internet, o que é real e realmente acontece. Preste atenção nisso, sente-se e dê uma olhada, porque há um impacto real nisso, e algumas de nossas brincadeiras anteriores ao show discutiam o risco de ter seu próprio computador, ou pelo menos sua rede, penetrado.

Vimos esse conceito de extração de entidades. A extração de entidades é quando temos que encontrar coisas interessantes dentro de conjuntos de dados muito grandes e particularmente em torno de fraudes, atividades ilegais e do tipo hacker. Mas, na maioria das vezes, veremos que a extração de entidades está se tornando um ponto de foco para coisas boas e coisas que são valiosas para nós, em vez de procurar coisas que estão nos atacando.

Também vimos uma explosão, chamada de dados geoespaciais. Esses são dados que realmente sabem de onde eles se originaram ou de onde outros dados são. Você pode imaginar que está parado na rua e deseja encontrar a estação de estacionamento mais próxima ou o restaurante mais próximo, aplicativos que podem aplicar dados e computação geoespaciais, computando dados que sabem onde está no espaço, é muito importante porque você precisa saber onde estão outros objetos e entidades e fazer isso rapidamente.

Vimos dispositivos móveis permanentemente conectados. Mesmo quando vamos dormir à noite, nossos celulares ainda estão correndo, atualizando nossos e-mails, verificando nossos calendários, olhando o tempo e descobrindo o que quer saber o que gostaríamos de tomar no café da manhã. Há muito barulho acontecendo lá, e isso criou um enorme impacto no que precisamos fazer no back-end e na rapidez com que fazemos.

Em geral, a escala e o impacto absolutos do que está sendo chamado de Internet das Coisas, ou mais frequentemente, a conectividade máquina a máquina, em que os dispositivos estão conversando com os dispositivos e isso vai até os motores ligados ao lado dos aviões informando ao próprio avião, ou ao sistema de gerenciamento de avião, que um rolamento no motor número quatro está sofrendo desgaste e calor excessivos e deve ser substituído quando pousarmos e depois se comunica com outra máquina e, portanto, deve colocar um ordem, e magicamente um engenheiro aparece em voo no aeroporto e está preparado para substituí-lo durante o abastecimento.

E a escala que é tão grande e tão grande que tivemos que entrar no que me refiro a ela, através do acesso a meio que lidar com ela. Porque um novo mundo, e bem-vindo ao novo mundo, um novo mundo de tudo o que usamos está conectado; Era uma vez satélites e dispositivos de rede, agora são dispositivos móveis e nossos laptops, tablets e telefones, e até o meu novíssimo Audi tem um sinal incorporado e informa constantemente sobre sua própria saúde, mas também se atualiza, e sabe onde fica e quais mapas são aplicáveis, e até me diz quando seguir uma rota diferente se houver tráfego na estrada à frente.

Tudo o que estamos construindo agora, tudo o que estamos falando com você agora, está sendo projetado para conectar-se a outras coisas, não apenas de mim para o sistema, mas de sistema para sistema, e para poder lidar com isso. está precisando aplicar um pensamento muito diferente na camada de infraestrutura, tanto no hardware quanto no software, e particularmente nas camadas de banco de dados que os sistemas precisam para sustentar isso, e de várias maneiras o banco de dados se tornou o mecanismo, e os aplicativos são realmente apenas pequenos robôs que fazem coisas.

Vou encerrar rapidamente aqui com essa visão levemente humorística sobre como estamos indo com essas coisas, e o que me refiro como "IoT com o pressionar de um botão". Houve um novo gadget criado chamado Amazon Dash Button, e este é um pequeno gadget do tamanho de um polegar. De fato, de várias maneiras, é o mesmo que meu pen drive USB. Quando você compra esse produto, custa cerca de US $ 4, 99 on-line na Amazon, ele é enviado para você, você o configura com o seu telefone celular e simplesmente o anexa a um de seus dispositivos, como uma geladeira, uma máquina de lavar ou qualquer outra coisa. No exemplo da sua máquina de lavar, se você ficar sem sabão em pó, poderá pressionar esse botão e ele discará para casa e automaticamente pedirá mais para você, e magicamente mais serão enviados a você por meio de nossos bons amigos na Amazon.

Para mim, isso me assusta, porque verá uma explosão de várias coisas que estão conectadas na rede e tentando criar conectividade e gerar demanda. Se você pode imaginar, uma ou duas dessas coisas talvez não seja tão assustadora, mas da última vez que olhei, havia mais de 110 dessas marcas, então quase todas as marcas do planeta tentam obter seus próprios empurrões. button IoT, você vai para casa e aperta um botão e diz: "Peça uma pizza para mim". Você aperta outro botão e solicita um almoço pré-construído para seus filhos na escola amanhã.

Isso está gerando uma demanda tão grande por transformação no back-end, no nível do aplicativo, em particular no nível do banco de dados, que acho que acabamos de ver a ponta do iceberg do tipo de transformação de desempenho que precisamos ver . E com isso, vou entregá-lo ao doutor Robin Bloor e obter suas idéias sobre o tipo de lugar em que estamos também.

Rebecca Jozwiak: Ok Robin, eu passei a bola para você.

Robin Bloor: Isso não é bom? Ok, aqui vamos nós, sou eu. Eu vi a apresentação de Dez antes de chegar a esta, então eu diria coisas que são complementares, em vez de apenas repetir algumas das coisas que Dez disse. Eu pensei em falar sobre a evolução do banco de dados em termos do que realmente aconteceu com a arquitetura, e assim por diante, de bancos de dados a partir de uma perspectiva histórica.

O problema fundamental que qualquer fornecedor de banco de dados tem é manter uma arquitetura flexível que escala e acompanha a evolução do hardware. Vou falar sobre isso, mas quando você realmente olha para trás e vê como os bancos de dados costumavam ser criados e como eles são criados agora, na verdade, são significativamente diferentes do que eu chamaria de nível de design de arquitetura . Vale a pena revisar por que isso é, ou pelo menos eu acho que é. Os fatores de hardware, e Dez nos deram um resumo particularmente bom das camadas inferiores em termos de memória e disco. O que temos agora, e este é o futuro, a Intel é a próxima, a CP que terá um FPGA nele. O que as pessoas vão fazer com isso, não tenho idéia. A AMD está mesclando CPUs e GPUs e que diferença isso fará? Esses são os tipos de mudanças que realmente farão diferença no banco de dados, e eu suspeito que o Aerospike entre outros, porque o Aerospike é impulsionado pelo desempenho, provavelmente já está dando uma olhada nisso e trabalhando para onde acha que realmente vai com a maneira como o produto funciona.

Temos um sistema em um chip que ainda não decolou. SSDs que conhecemos, mas o ponto a destacar é que eles estão realmente aumentando em velocidade, aproximadamente a taxa da lei de Moore, um fator de 10 a cada seis anos. Mas a Intel está prestes a lançar o ponto cruzado 3D, que afirma ser capaz de ir mais de cem vezes mais rápido que os SSDs, de fato, meio que cai na mistura, então isso vai mudar a velocidade com que produtos como o Aerospike podem realmente ir.

Em seguida, temos as arquiteturas de hardware paralelas, em outras palavras, da maneira como construímos o hardware - originalmente era apenas uma CPU que fica sobre a memória, que fica sobre o disco, mas ficou muito mais complicada do que isso. A idéia de um sistema em um chip é que você pode realmente ter um paralelismo chip para chip e fazer tudo correr a uma velocidade extraordinária, e não temos idéia exata de qual desses produtos realmente dominará.

É apenas uma olhada no futuro, mas no nível do hardware o desempenho está acelerando e os custos continuam caindo, mais ou menos na linha que Dez estava descrevendo. Suas CPUs não necessariamente ficam mais baratas, elas ficam mais rápidas e assim por diante.

Do ponto de vista comercial, em algumas situações, e essas são situações de mercado, sendo o primeiro o valor do negócio. Se você, particularmente - se estiver absolutamente convencido de que um estoque específico cairá de preço, a primeira pessoa que receber a ordem de venda obterá o melhor preço. É realmente assim tão simples. Portanto, há uma corrida tecnológica que segue para a negociação automatizada nos bancos para realmente tentar vencer essas situações. O que aconteceu depois disso? O que acontece depois que os bancos fizeram suas coisas com tudo isso? De repente, você começa a ver outras áreas sendo infectadas com o mesmo tipo de necessidade de velocidade.

Realmente o que estava acontecendo é que os seres humanos estavam sendo removidos da equação, e isso aconteceu com a publicidade na Internet muito rapidamente. Mas o problema é que não é a transação específica, a execução dos métodos, este é um processo de negócios completo, é o fato de uma página da Web ter acabado de ser lançada e é necessário tomar uma decisão que pode ser uma decisão bastante complicada, sobre qual anúncio realmente colocar nessa página da web, deduzir de quem é o usuário do navegador o que seria o anúncio mais apropriado para colocá-lo, e assim por diante. Tornou-se uma coisa muito complexa, e vou mencionar isso novamente.

Mas o ponto é que o desempenho e a escalabilidade do processo de negócios não são o mesmo problema que o desempenho e a escalabilidade de um recurso de consulta, e isso é algo que eu estou ciente, por causa de uma sala de briefing recente que fizemos com a Aerospike que eles também está ciente. Outra coisa, quando você está trabalhando nessas velocidades, as propriedades dos ativos são importantes para uma transação, qualquer processamento de evento. Eles realmente, realmente importam. Portanto, muito do que alguns bancos de dados estão fazendo, que está perdendo uma ou duas cartas do ativo, pode funcionar razoavelmente bem no contexto - isso funcionará bem no contexto do qual estamos falando. Não é realmente aceitável, para ser honesto.

Do ponto de vista da tecnologia, você está realmente olhando - eu sei que existem dois tipos de alavancagem, a fim de criar o tipo de arquiteturas necessárias para fornecer o tipo de velocidade que, como o Aerospike, pode fazer um milhão de transações por segundo. Você precisa realmente ser muito preciso em termos de desenvolvimento de software. Você não pode simplesmente fugir. Você precisa se preocupar com os comprimentos do caminho do código. Você precisa fazer um excelente uso da memória e, na verdade, está otimizando transações inteiras. Você precisa de paralelismo inteligente e também precisa de paralelismo à prova de falhas. Você precisa aumentar a escala, em vez de expandir, porque assim que envolver a rede em qualquer coisa, ela se tornará o ponteiro mais provável para atingir a latência e começará a tornar as transações muito lentas.

Você precisa obter o máximo possível de um dado conhecido de uma rede antes de realmente expandir, e realmente não deseja expandir rapidamente, não deseja muitos processos. Você deseja uma rede que não esteja sendo usada por mais ninguém. E você quer ter uma rede incrivelmente rápida.

O armazenamento acelerado de SSD é algo - na verdade, acho que a maior parte disso se aplica ao que o Aerospike faz. Uma das coisas interessantes é que é um banco de dados NoSQL. Costumava-se acreditar - não sei, alguns anos atrás - costumava-se acreditar que o banco de dados relacional era o único banco de dados e dominava tudo, e eram apenas essas pequenas situações de nicho em que você não precisava ir relacional. Está meio que virado de cabeça para baixo agora. São os bancos de dados rápidos que estão nesses bancos de dados SQL, e uma das razões para isso, a principal razão para isso, é que eles evitam a junção de dados, eles armazenam dados praticamente de maneira objetiva. Quando você termina um objeto, armazena-o e depois puxa o objeto inteiro de volta; ele não une as coisas para realmente processá-las. É disso que trata a velocidade. Esses tipos de técnicas que geram velocidade no contexto do banco de dados.

Este é o rastro de lágrimas, este é o que aconteceu com o banco de dados. A história ou a narrativa dos bancos de dados relacionais era o fim de um banco de dados, na verdade, não era verdade. Mesmo quando começaram a dominar, ainda era necessário. Os bancos de dados de objetos faziam as transações passadas naqueles dias, porque os bancos de dados relacionais realmente não podiam fazê-los e, então, os bancos de dados relacionais que usavam armazenamentos de linhas também não podiam fazer consultas rápidas; E descobrimos que, se você realmente quisesse fazer consultas gráficas sobre dados, nem um armazenamento de colunas nem um banco de dados relacional seriam bons, e você realmente precisava ter um banco de dados com reconhecimento de gráfico especificamente criado para você. Então os bancos de dados RDF chegaram e, assim que você começou a considerar o significado da semântica, obtivemos os bancos de dados NoSQL, muito, muito especificamente para a velocidade. Chamá-los de NoSQL é quase como se você estivesse marcando todos esses bancos de dados como se fossem iguais, na verdade eles são radicalmente diferentes no que está por baixo. A única razão pela qual eles levam o nome NoSQL é que eles não dão a mínima para SQL porque é muito caro. As latências de transação que eles precisam.

A IoT - que eu pensei que terminaria no mesmo ponto em que Dez a terminou - não acabou, toda essa situação em termos de velocidade e requisitos de latência, não termina até que a mulher gorda comece a descartar esses dados e eles ainda não começaram realmente. Muitos desses dados vão querer ter as latências que eu venho indicando, então acho que é tudo o que tenho a dizer. Vamos entregá-lo a Aerospike e Brian Bulkowski.

Brian Bulkowski: Olá, muito obrigado por se juntar ao Grupo Bloor e a mim próprio por esta apresentação hoje. Ao pensar sobre o que Dez e Robin estavam falando, eu gostaria de contar um pouco sobre a trilha que a Aerospike seguiu no fornecimento de novas tecnologias de banco de dados e NoSQL para várias indústrias. Tem sido um ótimo caminho. Começamos o Aerospike em 2008, vendo muitas das tendências mencionadas por Dez e Robin. Especificamente, sobre os bancos de dados na memória poderem tirar proveito do flash, bem como o tipo de sistemas de nuvem em expansão e os tipos de escala necessários para personalização, análise de comportamento e o tipo de experiências VIP de celebridades discutidas.

Quando abordamos o problema de um banco de dados que era um banco de dados operacional front-end capaz de fornecer os fundamentos para aplicativos que poderiam ser gravados para resolvê-los, começamos com o problema de como podemos construir essencialmente uma tabela de hash distribuída, memória - tabela de hash distribuída que era surpreendentemente rápida e capaz de coisas como milhões de transações por segundo, mas a um preço razoável. Quando terminamos nosso protótipo, percebemos que teríamos que descobrir quem poderia precisar desse tipo de velocidade. Sendo uma empresa do Vale do Silício, descobrimos rapidamente que era realmente o setor de publicidade que era capaz de consumir esse tipo de informação e estava interessado nela, então eu gostaria de passar um segundo falando sobre lances em tempo real e como isso mercado funciona.

Robin mencionou como a negociação financeira funciona, que é a primeira transação, geralmente, a transação vencedora, e há essencialmente um tempo de mercado de latência e um valor de latência. O setor de publicidade é um pouco diferente, de uma maneira interessante, porque o objetivo da publicidade é um particular - o que é chamado de impressão, a capacidade de exibir um anúncio - é um leilão e esse leilão ocorre entre dez milissegundos e cinquenta milissegundos. O nome do jogo, e muitas vezes há centenas de empresas que fazem lances em tempo real em todos os anúncios colocados na Internet, é obter a maior quantidade de dados possível e trazer os melhores algoritmos para suportar esses dez a cinquenta milissegundos ao longo do maior quantidade de dados.

Essa mudança e mudança estava acontecendo no setor de publicidade, em cada um desses pequenos milissegundos, tem uma complicação limitada pelo tempo com os melhores algoritmos sobre a maior quantidade de dados e, para isso, você reúne vários pequenos pedaços de dados. Informações recentes sobre endereços IP, informações recentes sobre uma categoria de dispositivo específica, informações recentes sobre o comportamento do site, termos de pesquisa recentes, tudo entraria no molho secreto dos algoritmos de uma empresa específica para determinar um preço e uma oferta.

Este tem sido um mercado fascinante para fazer parte. Primeiro, fizemos nossa primeira implantação na Aerospike em 2010, com algumas das primeiras empresas trabalhando seriamente na economia de lances em tempo real e, em seguida, conseguimos, basicamente, o armazenamento front-end de dados comportamentais, para a maioria das empresas naquele país. espaço. O que descobrimos desde então e é uma arquitetura específica que detalharei ao longo desta apresentação é que tudo aconteceu em 2010, 2011, 2013 e continua a evoluir. A publicidade é um mercado muito dinâmico.

Mas esse tipo de experiência VIP, você pode considerar colocar o anúncio certo, não colocar um anúncio para os produtos infantis, porque não tenho filhos, por isso não terei um anúncio eficaz se for colocado nisso, mas se for sobre carros velozes, esse é o tipo de anúncio a colocar para Brian. Esse é realmente o tipo de experiência VIP em transações, com desconto ou não, se você estiver em um site de varejo, mesmo na detecção de fraudes. Esse é o padrão normal de uma pessoa ou cartão de crédito? Toda essa forma de tecnologia de análise em tempo real, de previsão comportamental e de análise preditiva agora está saindo do setor de publicidade, que o faz por diversão e lucro há alguns anos e realmente chega ao varejo e serviços bancários, detecção de fraudes etc., por meio de uma arquitetura específica. Portanto, a Aerospike teve o privilégio de fazer parte de vários desses casos.

A arquitetura que vemos trabalhando, e sendo prática para fazer isso, é aquela em que, em vez de criar um conjunto de consultas a partir de um servidor de aplicativos, movemos mais de sua computação para o próprio servidor de aplicativos e, em seguida, usamos um banco de dados como essencialmente um armazenamento mecanismo para o tipo de objetos que Robin estava falando. Nesse caso, essas arquiteturas, em primeiro lugar, não confundem isso com suas análises reais aqui. Você vê no lado direito deste slide que ainda há uma análise aqui para gerar insights. São trabalhos que geralmente trabalham com petabytes, dezenas de petabytes de dados e até mesmo exabytes nos casos de alguns de nossos grandes clientes, usando uma variedade de tecnologias. Você precisa ter uma equipe de big data, uma equipe de análise, uma equipe quantitativa lá atrás, descobrindo o que, digamos, as coordenadas geoespaciais são importantes, quais modelos funcionam em termos de encontrar esses relacionamentos e criar a experiência VIP. Esse é um problema por si só e não um do qual a Aerospike participou diretamente, e há um monte de ótima tecnologia quando você está lidando com esse tipo de sistema.

O que mais nos entusiasma e trabalha com a indústria é que, depois de ter essas idéias, como você se envolve no tipo de transação máquina-a-máquina ou rápida máquina-para-humano, onde você obtém essas idéias e faz reais para todas as pessoas, momento a momento? A arquitetura que vimos usando é aquela em que existe um servidor de aplicativos que está escrito e está fazendo toda essa matemática e examinando os modelos que você criou, observando o comportamento recente e fazendo isso essencialmente sobre um paradigma-chave ou pelo menos um tipo de sistema com pouca luz de consulta.

Quando você está lidando com os tipos de dados sobre os quais estamos falando, o tipo de fluxos sobre os quais estamos falando, com milhões de gravações por segundo, milhões de leituras por segundo, milhões e centenas e milhares de decisões por segundo, a criação de índices complexos, índices multidimensionais, simplesmente não funciona muito bem, não é escalável. A maneira de alcançar essa forma de escala é envolver muito paralelismo. Falaremos um pouco sobre como fazemos isso mais tarde. Mas parte disso é um servidor de aplicativos sem estado, escrito em seu próprio idioma.

O que geralmente vemos é um projeto em particular, assumindo uma nova estrutura de aplicativos com base nas pessoas que trabalham lá, na tecnologia que estão usando e no problema que estão abordando. Vimos pessoas usando Python, muitas pessoas usam Java, ainda vemos programadores em C, porque muito disso ainda é de alto desempenho, talvez até usando coisas como as antigas bibliotecas do MATLAB. E eles precisam tocar milhares e milhares de pontos de dados por segundo para tomar uma decisão eficaz.

Uma pergunta que eu fiz algumas vezes é: “Bem, Brian, se você é capaz de milhões de transações por segundo, quem precisa disso?” Se você observar, por exemplo, o processamento de pagamentos norte-americano, e a Aerospike estiver envolvida com soluções que fazem a detecção de fraude dentro desse sistema e dão suporte a criadores de aplicativos que estão fazendo algumas coisas muito inovadoras na detecção de fraudes, existem apenas alguns milhares de transações de pagamento por segundo fluindo até mesmo nos maiores processadores de pagamento. E, no entanto, quando a primeira empresa veio até nós e disse que estava olhando para usar o NoSQL e queria ver como seria a nossa solução subjacente ao aplicativo, eles disseram que queriam tocar 5.000 partes de dados em uma janela de 750 milissegundos. Bem, agora de repente você tem algumas centenas de transações comerciais e alguns milhares de dados a serem considerados em cada cálculo, e agora você está na área de precisar de milhões de transações por segundo.

O caso de deixar de lado a publicidade por um segundo, o caso da fraude é fascinante, porque onde há dinheiro, há fraude e a prevenção em tempo real da fraude, em vez de tentar analisar analiticamente após a ocorrência de uma fraude, é realmente uma questão de colocar online o máximo de dados possível, e você pode pensar nisso como um reflexo dessa experiência VIP. Essa pessoa está se comportando de uma maneira que geralmente não se comporta? E assim, as chances de ser um sistema fraudulento, e não realmente essa pessoa, aumentam. Essa pessoa geralmente acessa através de um dispositivo ou conjunto de dispositivos específico, com um determinado conjunto de resoluções de tela? Eles geralmente exibem um padrão de compras comportamental específico? Talvez possamos reduzir a fraude pela raiz durante o curso da transação. Isso deve lembrá-lo muito do tipo de coisa que acontece em uma transação no sistema de publicidade.

Os tipos de sistemas que resolvemos são aqueles em que cada processador de pagamento individual possui uma equipe de big data, eles têm muitos dados históricos, estão criando novos modelos, eles não compartilham conosco na Aerospike todos os modelos, porque eles é realmente um molho secreto. Se você é um assinante do Gartner e ouviu o Gartner falar sobre a economia de algoritmos, este é um algoritmo e uma empresa lutando frente a frente para reduzir a fraude e aumentar o número de transações bem-sucedidas, porque você também não ' não quer bloquear transações. Esse é o tipo de projetos que procuramos no Aerospike nesses níveis de escala.

Outro caso em que trabalhamos com empresas de serviços financeiros é o chamado Sistema de Registro Intradiário. Nesse caso, o que está acontecendo é que o tipo de experiência mais rica, mesmo em um sistema de comércio varejista, é aquele em que quero poder observar minha posição específica e fazê-lo com extrema precisão. Eu não quero ter um problema na frente do meu sistema DB2. Em vez disso, quero examinar os dados exatos e entre dispositivos móveis, mas também coisas como recálculos de risco, recálculos de risco agora devem ser feitos minuto a minuto, você deseja poder recalcular o risco de todos, bem como o risco global, risco sistêmico em toda a empresa em poucos minutos.

E, novamente, é o mesmo problema. Cada conta específica, pense nela como uma pesquisa de valor-chave para um objeto em particular; isso pode ser feito em paralelo e, o mais importante, esse paradigma permite que você escreva seu código e seus algoritmos em uma linguagem de alto nível, que é mais fácil de depurar e mais rápido lançamento no mercado. Nesta economia de algoritmos, preciso poder colocar meus algoritmos online agora. Esse é um problema muito diferente para modelagem e relacionamento comercial, que é o que os sistemas relacionais são ótimos. Quando você tem uma tabela de peças e essas peças são associadas a pedidos, e esses pedidos são associados a pessoas, você tem um processo de negócios que pode ser estritamente modelado e provavelmente não será alterado durante a vida útil de seus negócios. No entanto, um novo algoritmo para encontrar um novo padrão de fraude deve ser escrito com precisão e rapidez e ficar online, tomando decisões de negócios em questão de dias, no mínimo, se não mais rápido. Uma solução NoSQL para esse tipo de sistema de registro é realmente um sistema incrível para esses caras, porque permite que eles ingeram dados muito rapidamente, além de criar novos algoritmos, não apenas uma nova experiência do cliente no tratamento de dispositivos móveis, mas realmente criando uma ampla variedade de novas aplicações.

O que vemos a longo prazo na Aerospike é o fato de que cada tipo de banco de dados, cada layout físico de dados em disco tem seus próprios componentes, e na Aerospike estamos realmente focados nesse valor-chave ou sistema orientado a funções, como Robin disse., com alta consistência transacional e permite realmente pessoas como armazenamentos de colunas e lagos de dados de grande volume e também sistemas transacionais incondicionais que também tiveram restrições de relatórios. Vemos todos eles precisando alimentar uma variedade de mecanismos de consulta diferentes. Vemos alguns dos mecanismos de consulta baseados em JSON. Vemos coisas como a pesquisa elástica, vemos o Spark, todos precisando de variedades diferentes em momentos diferentes, como lojas de colunas e lojas de linhas, que é onde a Aerospike se destaca.

Realmente vemos que esses tipos diferentes e a indústria estão chegando a um ponto em que escolher o melhor da raça de cada um deles será uma necessidade. Infelizmente, devido à realidade das análises de longo prazo e dos trabalhos em lotes, versus análises e restrições operacionais, provavelmente não chegaremos ao ponto de ter um único tamanho único, mas chegaremos ao ponto de podermos para escolher claramente entre alguns dos layouts de dados principais.

Vamos falar um pouco sobre a inovação do flash. Ainda recebo a pergunta, embora, como comentado anteriormente, o flash esteja conosco há muito tempo. Quando iniciamos o Aerospike em 2009 foi quando, acredito, 2009, talvez, sim, 2009 foi quando a Intel lançou o X25, que foi realmente o primeiro flash drive tripulado SATA de mercado de massa, e havia vários sistemas flash antes disso., mas realmente foi esse que invadiu muita consciência da tecnologia. O Fusion-io realmente trouxe o flash para o mercado corporativo mais amplo depois disso.

O que está acontecendo agora é o advento de um sistema chamado NVMe. O NVMe é um padrão semelhante ao SATA ou SAS ou mesmo SCSI que permite que diferentes fornecedores de placas interoperem com os drivers no sistema operacional com um alto nível de eficiência. Portanto, está criando um nível de desempenho maior, primeiro porque o NVMe é baseado no PCIE como seu transporte subjacente, que é muito mais rápido que o SATA, SAS ou qualquer outra coisa, mas também permite os melhores drivers.

Por exemplo, no Linux, existe esse cara, Jens, e Jens é o guia do driver NVMe, Jens expo, e ele está fazendo um trabalho melhor do que qualquer outro indivíduo na Intel ou Fusion-io poderia ter feito com seu driver individual, com todos os seus recursos. Quando você tem o poder do próprio sistema operacional de criar o melhor driver, estamos vendo alguns níveis realmente incríveis de desempenho. Isso tudo confirma a idéia de que o flash realmente pode fornecer grande parte da baixa latência da RAM.

Agora, o Aerospike ainda é um ótimo banco de dados de RAM devido ao seu modelo de cluster, no entanto, descobrimos que, depois de fazer um salto de rede, que você precisa ter armazenamento escalável, já está gastando pelo menos cinco a 50 microssegundos, o 70 microssegundos extras de NAND geralmente não são um impedimento, e você também pode usar o flash, dado o flash NAND, já que a rede já está envolvida nisso. Muitas pessoas se perguntam como - tudo isso soa bem se você está comprando seu próprio hardware, como estão as nuvens públicas? Acho que você encontrará agora, não importa qual nuvem pública esteja usando, essas nuvens públicas têm ofertas de flash muito fortes. Difere um pouco de provedor de nuvem para provedor de nuvem. A Amazon tem suas instâncias I2 que estão fora do ar há um ano, dois anos agora, que são realmente flashes de alta qualidade e o Aerospike tem o padrão de implantação em cima deles.

Gostaria de chamar o Google Compute, o Google Compute Engine, o Google Cloud especificamente, porque, em nossa experiência, eles têm até agora alguns dos dispositivos de mais alto desempenho e mais flexibilidade em termos de padrões de implantação. Mas você também vê novos padrões de implantação como o Pivotal, que é uma espécie de público / privado, para que você possa executar aplicativos Pivotal corretos nos dois locais que suportam flash e suportam diferentes dispositivos de armazenamento, bem como os padrões do Docker. Realmente, este é um ponto da história em que o flash não está disponível apenas para compra e colocação em seus data centers, mas realmente afundou em todos os provedores de infraestrutura, porque é realmente a melhor maneira de obter sistemas de IOPS de alta uma latência muito razoável.

Apenas um momento sobre o Aerospike - O Aerospike é um banco de dados distribuído por cluster, o que o torna muito acessível para implantações no estilo da nuvem e para data centers. Concluímos que a flexibilidade de poder adicionar mais dados e mais desempenho é absolutamente necessária nesses tipos de novos aplicativos líquidos, porque você inicia um projeto e não sabe se precisa de cinquenta mil transações por segundo, cem mil, um milhões, dois milhões, então você quer se dar ao luxo de adicionar servidores. E, no entanto, você deseja aumentar a escala para que cada servidor possa ser rápido por conta própria. Você realmente não quer acabar com quinhentos ou mil servidores que são lentos. A expansão não é o único jogo na cidade, sua expansão e expansão, como Dez dizia anteriormente, há um novo eixo Z.

Espero que isso lhe dê algumas novas idéias sobre como a velocidade e a escala estão lidando com novos mercados e talvez haja projetos nos quais você esteja trabalhando, nos quais poderá considerar realmente criar aplicativos mais ricos e usar uma estrutura de aplicativos com mais chave valor ou banco de dados NoSQL abaixo dele. Na Aerospike, certamente vi muitos de nossos clientes e muitos de nossos usuários de código aberto terem sucesso com esse padrão, e estou ansioso para que o setor o adote em maior medida.

Rebecca Jozwiak: Muito obrigado Brian, e tenho certeza que Dez e Robin têm boas perguntas para você. Robin?

Dez Blanchfield: Estou feliz em participar. Robin, você tem uma pergunta? Caso contrário, eu tenho um rápido, eu posso começar.

Robin Bloor: Desculpe, eu estava mudo. Eu mergulhei, mas ninguém me ouviu. A pergunta me ocorreu imediatamente, porque esse é um conjunto muito sofisticado de recursos tecnológicos. Em termos de clientes existentes, qual é o tipo de escalação ou taxa de transação que você está enfrentando em relação a alguns desses aplicativos de anúncio? A taxa de transação continua subindo? E se sim, com que tipo de taxa?

Brian Bulkowski: Pergunta interessante, Robin. Cada setor tem sua própria curva em cada empresa. Vamos considerar a publicidade norte-americana, por exemplo, em 2012, a publicidade norte-americana estava sendo executada provavelmente mais perto de 200.000 anúncios por segundo, em uma espécie de intradiário padrão, não o meu tempo, e agora é escalada provavelmente para cerca de três a cinco milhões de anúncios por segundo. Mas então uma coisa interessante aconteceu. O setor de publicidade começou a abordar algumas preocupações com fraudes, e as partes do setor que são capazes de bloquear a fraude viram as taxas de transação caírem um pouco, cerca de um fator de dois, entre alguns de nossos clientes mais sofisticados que foram capazes de determinar a fraude. É claro que eles tiveram que fazer algumas pesquisas no banco de dados para bloquear a fraude, então isso acabou sendo o mesmo no final.

Um caso de uso interessante está dentro das telecomunicações, eu realmente não mencionei isso, as telecomunicações estavam vendo transações aumentar devido ao faturamento com base em cada pacote que passa pela rede de telefonia celular. Antigamente, tínhamos registros detalhados de chamadas e, a cada minuto, uma ligação, o que você sabe, um pequeno ping passava pela rede e esse cara ainda tem um minuto? Agora temos que construir e até rotear com base em todos os pacotes na internet. Isso é uma desculpa dentro de uma rede móvel, que de repente é agora milhões de pacotes por segundo e algo que está crescendo repetidamente. Portanto, um caso é que todo aplicativo está gerando um tipo pequeno e agradável de 2X por ano. Em alguns clientes, vemos: “Mas espere, eu tenho um novo aplicativo. Quero adicionar um pouco de fraude ao meu risco. Quero acrescentar uma experiência mais profunda do cliente à minha fraude e ao meu risco. ”Cada um deles cria uma nova carga no banco de dados subjacente.

Robin Bloor: Sim, quero dizer, acho que foi isso que eu estava sugerindo na breve apresentação que dei, que estes - costumávamos pensar que uma transação é, alguém faz alguma coisa e talvez haja uma cascata de eventos e tudo isso é gravado, e agora muitas transações têm uma imensa quantidade de pesquisa e você deu alguns exemplos na apresentação. E, portanto, você não está mais executando uma transação, está executando um tipo de aplicativo que pode ter muitos, muitos elementos.

A outra pergunta antes de eu passar para Dez - porque obviamente estamos nos unindo - a outra pergunta que eu gostaria que você respondesse se tiver uma resposta razoável, é Dez e espero que a Internet Coisas, ou a Internet de Tudo, como às vezes é chamada, para criar uma quantidade bastante dramática de tráfego transacional. Você pode falar com isso? Essa é a sua experiência, você tem clientes chegando com esse tipo específico de problema e qual é a sua opinião sobre isso no momento?

Brian Bulkowski: Claro, acho que há um pouco de confusão, e para dizer o mínimo, sobre a Internet das Coisas. Os clientes que eu vejo até agora estão simplesmente trazendo a Internet para as coisas que eles têm. Pense nesses botões da Amazon - é tudo Amazon - nesses botões, você não pode adaptá-los novamente e mandá-los para o Walmart online. Não é como um navegador que você pode misturar e combinar com tudo. Por outro lado, máquina a máquina está acontecendo e, quando você conecta seu carro Tesla para carregá-lo, o Tesla envia um enorme fluxo de informações, todos os sensores no carro, mas ele flui para o computador da Tesla para análise e aprimoramento qualidade. O que eu vejo é que toda essa máquina a máquina e todos os sensores de uma empresa individual, criando novas demandas.

Agora, hoje em dia, isso está fluindo para esses sistemas analíticos, como no caso de Tesla; O primeiro uso que Tesla fez disso, no meu entender, foi melhorar a vida útil da bateria, sob “Quais são as temperaturas operacionais, quais são as cargas? Vamos dar uma olhada, projetar uma bateria melhor. ”Mas então eles começam a pensar, e isso é ótimo, é um tipo de problema analítico profundo que é fascinante, a próxima pergunta é:“ Como melhoro a experiência a cada momento ?

Agora, vamos considerar o caso como o Nest, onde você está tentando fazer análises preditivas para alterar a temperatura de uma casa a cada momento. Esse é o tipo de caso em que começamos a ver no Aerospike, onde há um enorme lago de dados e grandes processos analíticos, mas o que vou fazer agora? Vou precisar manter, pense nisso como o dinheiro, uma parte da semana passada, do mês passado, talvez até o valor do último dia de informações, provavelmente em um back-end, porque estamos lidando com sensores simples dispositivos, e eu vou fazer um conjunto de análises nesse momento a momento para mudar experiências. Esse tipo de experiências do tipo Nest, que eu vejo casos de uso do Aerospike.

Robin Bloor: Ok, o que eu esperava com a Internet das Coisas, era que você começasse a obter gatilhos de limite e que eles começassem a criar cascatas de eventos. Você já viu algo assim, ou não é algo que você já viu?

Brian Bulkowski: Dez e eu estávamos - eu estava apenas perguntando a opinião de Dez sobre isso quando estávamos conversando antes do show. O que ainda não vi é o tipo de cascata de dados de uma empresa em cascata em outra empresa, que minha geladeira Samsung está conversando com minha máquina de lavar LG porque acabou de descobrir que eu derramei um monte de chocolate no chão, então esse tipo de empresa para empresa dispositivo por dispositivo, acho que ainda estou esperando por isso em termos de Internet das Coisas. Eu acho que existem alguns problemas nos negócios e na segurança que geralmente não são técnicos e precisam ser respondidos para que isso ocorra.

Robin Bloor: Ok, Dez?

Dez Blanchfield: Na verdade, tenho algumas opiniões muito fortes sobre esse último ponto, que trago brevemente à conversa. Eu acho que muitas vezes os negócios e a tecnologia pensam que eles realmente direcionam de onde vem a demanda, mas quando olhamos para o que aconteceu quando o iPhone se tornou uma coisa, e na minha opinião, esse era o primeiro dispositivo móvel, se você perdoa o trocadilho, mas um dispositivo que pode ser transportado e que pode realmente executar muitos aplicativos no seu bolso, e provocou uma transformação significativa no que pensávamos em ser um computador. Muitas pessoas pensam em iPhones ou smartphones ou telefones Android como telefones, mas não são, na verdade, são apenas um pequeno computador que executa aplicativos, e um dos aplicativos que ele executa faz chamadas e não é o chamadas em que mais pensamos, elas não são analógicas ponto a ponto, como destacou Brian, são pequenos pacotes que são roteados.

Mas, na maioria das vezes, o que vimos é que essa insurgência de smartphones na verdade não está sendo usada para fazer chamadas com tanta frequência, que 98% de probabilidade do que faço no meu smartphone não é fazer chamadas. É tudo, menos chamadas, são aplicativos. Eu acho que esse efeito em cascata - e estou ansioso para colocar isso em questão rapidamente - mas o efeito em cascata é realmente causado pelos consumidores e, de fato, eu tenho esse liner que eu uso muitas vezes para obter um monte de CXOs sentado na sala e prestando atenção se eu acho que eles estão caindo no sono com a apresentação que estou fazendo, o que não acontece com muita frequência, espero.

Eu meio que disse isso na perturbação que você vê nos seus negócios, na verdade, não é movida exclusivamente por tecnologia, é mais frequentemente do que não é motivada por seus clientes. E eles meio que se sentam e realmente se perguntam, o que ele quer dizer aí? Então, quando penso no uso da tecnologia, quero dizer que vimos a USENET, vimos todos esses tipos de coisas divertidas acontecendo na internet, mas poucas pessoas previram o social e o impacto disso. Todo mundo querendo contar para todo mundo o que eles tomaram no café da manhã, o barulho que isso criou e a tecnologia de back-end que tínhamos e, claro, a publicidade está tentando preenchê-lo com coisas.

Acho que veremos um efeito em cascata a um ponto em que os dispositivos estão conversando com eles, os consumidores estão apenas alcançando o que isso realmente significa e o que isso pode fazer. Você levantou um ponto interessante sobre o motivo pelo qual o botão Amazon não fala com o Walmart. Vou postar esta pergunta: o que acontece quando o Walmart obtém seu próprio botão? E se as vinte principais amazonas e Walmarts e outras grandes redes de distribuição e varejo obtiverem seus próprios botões? Para onde isso nos leva? Especificamente, minha pergunta com Brian será: “Para onde vamos com todo esse novo paradigma de desempenho? Você está no limite e trabalha com empresas que estão fazendo isso tanto no nível da infraestrutura física quanto no nível da transferência de dados. Para onde isso nos leva, quando chegar a próxima grande onda? Que tipo de insight você pode compartilhar disso com o que está acontecendo no back-end da sua experiência? ”

Brian Bulkowski: Claro, a maneira como penso em muitas dessas coisas é focar nas experiências do usuário e exatamente o que você disse, são os usuários que dirigem, mesmo que, como tecnólogos e pessoas de negócios, possamos criar um ideia inteligente que achamos que os usuários gostam, e voltarei ao exemplo do Nest. Quando minha irmã instalou o Nest em sua casa, ela disse: “Minha casa está mais silenciosa, eu posso ouvir coisas. Não é apenas porque estou pagando menos pelo poder ”, ela está, mas agora você não pode arrancar esse ninho das mãos dela porque ela gosta de estar em uma casa mais silenciosa, em oposição a uma onde o aquecimento está soprando no máximo e depois desligando.

A questão acaba sendo: quais são as experiências do usuário que podemos capacitar? Isso acaba sendo, essa experiência de qualidade de vida, que se tivermos o dinheiro e estivermos no primeiro mundo, pagaríamos muito. Vou te dar um exemplo da minha própria casa, minha namorada gosta de leite frio. Ela gosta de leite bem frio e, com frequência, temos que tentar descobrir onde a geladeira ficará fria o suficiente e não sobreaquecer o resto das coisas. Bem, isso é ótimo - e eu disse à minha namorada: "Você pagaria US $ 10 por mês para tomar leite frio e não para frios congelados?" Ela estava tipo "Absolutamente". E recebendo US $ 10 por mês de qualquer consumidor é difícil.

Acho que nessas experiências realmente temos que ficar de olho no que é essa experiência do consumidor final que realmente poderia ser impulsionada. Eu acho que isso fazia parte do segredo do iPhone. Eu acho que faz parte do segredo da Tesla construir um carro melhor com todos os dados, abolindo a idéia de um ciclo de produtos e um lançamento anual e fazendo melhorias contínuas em todas as partes. Teremos que apresentar algumas idéias inteligentes sobre como realmente usar todos esses dados de uma maneira que seja atraente a cada momento na vida das pessoas.

Dez Blanchfield: Sim, isso é ótimo. A partir daí, o outro extremo do espectro, que ecoa exatamente com o tipo de coisa que estamos vendo agora com o que os consumidores estão pedindo, e todos nós temos algo na casa que é frio e quentinho com isso. O outro lado do espectro é, então, e vimos isso no tipo de “mundo dos big data” tradicional, onde as atribuições de dados estão se tornando mais raras que os dentes de galinha e as que estão no mercado estão sendo oferecidas mais do que os CIOs estão ganhando em alguns casos, os tipos de empresas com as quais você trabalha e os tipos de desenvolvimento que você viu, é o caso dos tipos de desenvolvedor, do tipo de arquiteto de dados e das promoções de rede, cada vez mais difíceis de encontrar ? Precisamos que as organizações comecem a pensar agora em avançar na curva do tipo de conjunto de habilidades necessárias no back-end para o tipo de desenvolvedores e arquitetos de dados? O que você está vendo nesse nível, tanto quanto os recursos de habilidades que eles entenderão como colocar essa tecnologia em bom uso agora?

Brian Bulkowski: Sim, acho que esse é um dos desafios enfrentados pelas organizações com as quais conversei. Seja um dos piores problemas que já ouvi falar, são na verdade empresas maiores, porque se você diz: "Sou deste grande banco, sou do Chase e fui arquiteto de dados", então você ' temos o mundo como ostra e seu salário sobe muito, então há esse problema de conseguir um emprego em um desses lugares porque não há pessoas suficientes e, em seguida, poder passar de um emprego para outro. Não ouço nada além desse tipo de problema, e essa é realmente uma das razões pelas quais tenho focado o Aerospike no uso de ferramentas apropriadas para a equipe de projeto em particular.

Em vez de tentar entrar em uma equipe de projeto e dizer: “Ei, você deve usar nossa linguagem de consulta.” Veja, se esses caras, eles estão dirigindo o ônibus hoje em dia, rapazes e moças, e se eles usam uma linguagem de consulta específica e ferramentas, eles continuarão com isso, e eu não posso convencê-los a mais nada. Meu objetivo é poder colocar o tipo de poder do Aerospike como um banco de dados por trás de qualquer ferramenta que eles estejam usando e isso faz parte dessa idéia, os slides que você vê sobre o futuro do banco de dados Poliglot. Preciso apoiar os padrões de aplicação e análise entre esses caras, porque é realmente difícil tentar encontrar pessoas que tenham conhecimentos matemáticos e recursos estatísticos para navegar neste mundo.

Dez Blanchfield: Outra coisa interessante que as pessoas podem não estar cientes, quero dizer, o Aerospike é um player muito forte no mundo do código-fonte aberto, estou ansioso para obter uma visão muito rápida sobre o que isso significa, na medida em que o negócio opera e o que ele faz por você. Você mencionou que trabalhou diretamente com pessoas que estão fazendo as coisas até o nível do kernel interno, então o kernel do Linux. Existem alguns grandes players que estão nesse espaço, e há algumas marcas famosas que não mencionaremos, mas uma organização como a Aerospike, em sua história recente mais moderna, a experiência de código aberto, como isso se encaixa no cenário geral e quais são as vantagens competitivas que você vê?

Brian Bulkowski: Claro, quando fizemos a transição para o código-fonte aberto em 2014, fizemos isso porque percebemos que uma infraestrutura principal, como um banco de dados, precisa estar disponível como fonte, precisa ser confiável e um contrapeso natural entre o velho mundo dos sistemas fechados. fonte, e uma vez que você investe em um banco de dados específico, esses caras têm você à mercê de ciclo de tecnologia após ciclo de tecnologia, e é preciso haver um equilíbrio. Precisamos ser capazes de lançar versões que fazem coisas novas, e talvez seja uma versão corporativa, precisamos ter um modelo de licença dupla que tenha uma versão de código aberto para pessoas que estão chutando os pneus e que estão fazendo trabalhos sem fins lucrativos, bem como uma versão corporativa que é uma licença de proprietário e permite trabalho ilimitado.

E é claro que também teremos os mais altos níveis de velocidade e escala, sendo uma versão corporativa. Acreditamos no modelo de licença de duelo, e isso tem sido ótimo para os nossos negócios. Queremos que as pessoas iniciem o Aerospike, queremos que pequenos projetos chutem os pneus, é super fácil ir à Amazon, lançar um script de confirmação e ter um cluster do Aerospike em execução em cinco minutos. Por outro lado, queremos dar mais aos clientes corporativos.

Dez Blanchfield: Estamos meio que chegando perto do topo da hora, então vou voltar para Rebecca em um momento, mas se houvesse apenas uma frase que você jogaria por aí, alguns conselhos você daria para as pessoas que desejam entrar no espaço da tecnologia que você trouxe para o mercado e como elas vão adotá-la, o que você diria que o primeiro passo para elas é meio que mergulhar pelo menos toe e comece a ver como eles obterão uma vantagem competitiva da sua plataforma?

Brian Bulkowski: Claro, parte da mensagem aqui é que há níveis de velocidade e habilidade que agora são fáceis. Você não precisa de um cluster Cassandra de mil nós para alcançar milhões de transações por segundo. Você pode fazer isso mesmo nas primeiras fases do seu projeto. Então, as coisas são muito mais fáceis do que costumavam ser. Em seguida, o segundo conselho é que você terá que apresentar, exatamente como está dizendo, modelos de engajamento de clientes de processos de negócios matemáticos que usam todos esses dados. Portanto, a boa notícia é que os dados estão disponíveis, o a má notícia é que você realmente precisa encontrar alguns padrões e alguns casos de uso convincentes.

Dez Blanchfield: Sim, ótimo conselho, então vou devolver agora a Rebecca. Muito obrigado por isso, foi um ótimo papo sobre a tecnologia, eu agradeço.

Rebecca Jozwiak: Obrigado, Dez. Eu tenho algumas boas perguntas da platéia. Deixe-me vomitar este slide. Eu sei que você falou sobre o sistema de gravação e material de mainframe, mas com que frequência você vê descargas absolutas ou a replicação é uma reconciliação no final do dia, tipo do que você vê mais?

Brian Bulkowski: O que vemos no Aerospike é usar um banco de dados NoSQL na frente desse sistema de reconciliação no final do dia. Você precisa intraday, a resposta correta. Você não pode ter a resposta errada, e foi o que Robin disse sobre ativos é subestimado, mas os processos de negócios em torno dos requisitos legais de reconciliação podem ficar bastante complicados e há décadas de tecnologia e décadas de leis e práticas jurídicas em torno da reconciliação. Então, o que vemos no Aerospike é que você estará fazendo seus algoritmos em um banco de dados mais quente, com mais transações por segundo. Mas, por razões legais, você precisa absolutamente de um sistema de reconciliação que tenha passado por esses processos legais. Vemos os dois e vemos que essa é essencialmente a prática de TI de duas camadas, exposta por pessoas como Anderson Consulting e Gartner até certo ponto. Vemos muito disso.

Rebecca Jozwiak: Ok, bom. Outra pessoa mostrou interesse nesse slide em particular, ele disse que era realmente interessante e se perguntou se você poderia apenas comparar um pouco mais o flash versus a memória.

Brian Bulkowski: Claro, bem, deixe-me tomar uma barra lateral rápida, novamente, eu sei que estamos perto do fim dos tempos. Bem, flash é memória - são chips - eu costumo pensar em RAM. Portanto, a RAM tem características particulares, requer muita energia, é muito boa em gravações aleatórias e leituras aleatórias. Onde o NAND é capaz de leituras aleatórias rápidas e menor poder, mas é muito ruim em gravações aleatórias. Existem algumas diferenças sutis na maneira como esses dois chips operam no nível da litografia, que criam várias diferenças técnicas.

No caso em que você faz análises e precisa pular muitos dados, ou no caso da Aerospike, onde obteve índices, os índices ainda são muito bons para usar na RAM devido ao paralelismo e acesso aleatório. É necessário um nível mais alto de acesso aleatório. No Aerospike, porém, descobrimos que o uso desses índices para encontrar um objeto específico ou uma porção de dados é o local apropriado para acessar um NAND, porque ele se torna uma espécie de loja maior abaixo dos índices. Essa é uma transação para um dispositivo de armazenamento, mas ainda após várias potencialidades e filtros no sistema de indexação.

Rebecca Jozwiak: Ok, bom. E então, eu sei que já conversamos bastante sobre a IoT e um participante comentou que a IoT é amplamente benéfica, mas as empresas, entidades governamentais e desenvolvedores estão crescendo com segurança e protegendo os dados na mesma taxa, você acha?

Brian Bulkowski: Talvez Dez, você gostaria de participar?

Dez Blanchfield: Sim, estou feliz em entrar nessa. Eu acho que a resposta é não. De fato, uma das minhas falas favoritas sobre esse tópico muito, muito brevemente, é que eu acho que a explosão de máquina para máquina e a Internet das Coisas em geral, a comunicação e a segurança, o risco em torno disso, estamos no ponto agora em que os governos não conseguem acompanhar a taxa de mudança. E, de fato, sabemos que muitas organizações não conseguem acompanhar a taxa de mudança. De fato, se eu parafrassei, a taxa de mudança hoje é tão grande que as organizações estão tendo que correr apenas para acompanhar, mas estão tendo que correr em várias corridas. Eu não acho que a lei e eu não acho que o governo em geral, estadual ou federal, seja capaz de acompanhar a taxa de mudança.

Agora, meu conselho geral às pessoas é meio que agir agora e pedir perdão mais tarde. Houve muitos exemplos disso no passado. Eles vão se atualizar, mas acho que agora cabe aos fornecedores de negócios e tecnologia inovar nesse espaço e garantir que estamos familiarizados com os riscos à segurança ou à privacidade e precisamos lidar com eles. Bancos em particular, como você mencionou, quando você pensa sobre o que uma organização bancária tradicionalmente fez com coisas como combate à lavagem de dinheiro e conhece seu cliente, o desafio da LBC / KYC, costumava ser que a cada três a cinco anos tentávamos e conheça a conformidade.

Agora acho que isso precisa ser incorporado a cada transação. Você sempre foi capaz de fazer isso no nível dos lances com publicidade e comércio de ações e títulos e ações, acho que estamos no ponto em que o desempenho que você está trazendo com a plataforma Aerospike nos permite pensar agora em como podemos oferecer privacidade, como trazemos segurança para essa cadeia de decisão imediata em tempo real? E então a resposta é não, não acho que os governos estejam acompanhando. Acho que as empresas precisam acompanhar, e acho que precisamos agir agora e pedir perdão mais tarde.

Brian Bulkowski: Deixe-me acrescentar alguns pontos também. Os caras com quem trato, as empresas de tecnologia com as quais luto, sabem muito bem se certificar de que estão do lado certo da lei, e uma boa parte da discussão é: é esta PII, posso usar isso, como estou? Estou usando esse pedaço específico de dados? Qual foi sua providência e essa é uma decisão ou experiência protegida? Como faço tudo isso? Então essa é a boa notícia. Às vezes me pergunto sobre nossa discussão como uma sociedade em torno de onde estamos indo, e se mesmo a discussão de nossa sociedade está no nível apropriado em termos de uso dos novos recursos da IoT até o aprendizado de máquina, que é a única maneira para classificar os volumes de dados que temos. Mas a boa notícia é que os caras com quem conversei estão realmente do lado certo de tentar fazer o certo pelas decisões legais que tomamos.

Rebecca Jozwiak: Essas são algumas respostas realmente boas de vocês dois, e eu concordo totalmente. Não acho que a segurança esteja se movendo em um ritmo mais rápido que o desenvolvimento da tecnologia, principalmente quando se trata da Internet das Coisas, mas tenho que pensar que as pessoas estão dando o melhor de si e esperamos chegar lá. É sempre um pouco difícil ficar dez passos à frente de ladrões cibernéticos e criminosos cibernéticos, mas chegaremos lá.

Bem pessoal, passamos oito minutos depois do início da hora. Gostaria de agradecer aos nossos convidados Brian Bulkowski, da Aerospike e Dez Blanchfield e Robin Bloor. Muito obrigado. Você sempre pode encontrar nossos arquivos em insideanalysis.com, SlideShare, YouTube, temos muitos bons webcasts chegando, é um mês ocupado. Será um mês agitado no próximo mês, portanto, fique atento e esperamos vê-lo na próxima vez. Obrigado pessoal, tchau tchau.

Expondo a diferenciação: chega uma nova era de infraestrutura escalável