Por Techopedia Staff, 24 de fevereiro de 2016
Resumo : A anfitriã Rebecca Jozwiak discute a análise de streaming com os principais especialistas do setor.
No momento, você não está logado. Faça o login ou inscreva-se para ver o vídeo.
Rebecca Jozwiak: Senhoras e Senhores Deputados, olá e bem-vindos às Hot Technologies de 2016! O título de hoje é "Aproveitando a mangueira de incêndio: obtendo valor comercial do Streaming Analytics". Esta é Rebecca Jozwiak. Sou o segundo em comando para host de webcast sempre que nosso querido Eric Kavanagh não pode estar aqui, por isso é bom ver tantos de vocês hoje.
Este episódio é um pouco diferente dos outros. Nós meio que conversamos sobre o que é quente e, claro, este ano é quente. Os últimos anos foram quentes. Há sempre coisas novas saindo. Hoje, estamos falando sobre análise de streaming. A análise de streaming é uma espécie de novidade em si. É claro que streaming, dados centrais, dados RFID, esses não são necessariamente novos. Porém, no contexto das arquiteturas de dados, estamos focados nos dados em repouso há décadas. Bancos de dados, sistemas de arquivos, repositórios de dados - todos com o objetivo principalmente de processamento em lote. Mas agora, com a mudança para criar valor a partir de dados de streaming, emoções de dados, alguns chamam de fluxos vivos, eles realmente exigem uma arquitetura baseada em fluxo, não as arquiteturas de dados em repouso com as quais estamos acostumados e que precisam ser capazes de lidar com ingestão rápida, processamento em tempo real ou quase em tempo real. Ele deve ser capaz de atender não apenas à Internet das Coisas, mas também à Internet de Tudo.
Naturalmente, idealmente, seria bom ter as duas arquiteturas vivendo lado a lado, uma mão lavando a outra, por assim dizer. Embora os dados de um dia, dados de semanas e dados de anos ainda tenham, é claro, valor, análise histórica, análise de tendências, são os dados ao vivo que impulsionam a inteligência ao vivo atualmente e é por isso que a análise de streaming se tornou tão importante.
Eu estou falando mais sobre isso hoje. Temos nosso cientista de dados, Dez Blanchfield, ligando da Austrália. É de manhã cedo para ele agora. Temos o nosso analista-chefe, Dr. Robin Bloor. Juntamos Anand Venugopal, chefe de produto da StreamAnalytix na Impetus Technologies. Eles estão realmente focados no aspecto de análise de streaming deste espaço.
Com isso, eu vou em frente e passar para Dez.
Dez Blanchfield: Obrigado. Eu preciso pegar o controle da tela aqui e avançar.
Rebecca Jozwiak: Aqui você vai.
Dez Blanchfield: Enquanto estamos pegando os slides, deixe-me cobrir o tópico principal.
Vou mantê-lo em um nível razoavelmente alto e vou mantê-lo por aproximadamente 10 minutos. Este é um tópico muito grande. Participei de um evento em que passamos dois a três dias mergulhando nos detalhes sobre o que é o processamento de fluxo e as estruturas atuais que estamos desenvolvendo e o que fazer análises nesses fluxos de alto volume deve significar.
Vamos apenas esclarecer o que queremos dizer com streaming analytics e depois investigar se o valor comercial pode ser derivado, porque é isso que as empresas estão procurando. Eles querem que as pessoas os expliquem de maneira rápida e sucinta. Onde posso obter valor aplicando alguma forma de análise aos nossos dados de fluxo?
O que é análise de streaming?
A análise de fluxo fornece às organizações uma maneira de extrair valor de dados de alto volume e alta velocidade que eles têm vindo pelos negócios de várias formas em movimento. A diferença significativa aqui é que tivemos um longo histórico de desenvolvimento de análises, lentes e visualizações de dados que processamos em repouso por décadas desde que o mainframe foi inventado. A enorme mudança de paradigma que vimos nos últimos três a cinco anos no que chamamos de "escala da web" está explorando os fluxos de dados que chegam até nós em tempo real ou quase em tempo real e não apenas processando e procurando a correlação de eventos ou o evento é acionado, mas realizando análises detalhadas e detalhadas desses fluxos. É uma mudança significativa para o que estamos fazendo antes, que é coletar dados, colocando-os em algum tipo de repositório, tradicionalmente grandes bancos de dados agora, grandes estruturas de big data, como a plataforma Hadoop, e executando o processamento em modo de lote e obtendo algum tipo de insight.
Nós somos muito bons em fazer isso com muita rapidez e experimentar muito ferro pesado, mas ainda estamos realmente capturando dados, armazenando e depois analisando e obtendo algum tipo de insights ou análises. A mudança para executar essas análises à medida que os dados estão sendo transmitidos tem sido uma área de crescimento muito nova e empolgante para os tipos de coisas que acontecem em torno de big data. Requer uma abordagem completamente diferente para capturar, armazenar e processar e executar análises.
Um dos principais fatores para a mudança e o foco na realização de análises no fluxo é que você pode obter um valor comercial significativo ao obter essas informações com mais rapidez e facilidade à medida que os dados chegam, à medida que as informações são disponibilizadas para os negócios. A ideia de realizar o processamento no final do dia agora não é mais relevante em certos setores. Queremos poder fazer as análises em tempo real. No final do dia, já sabemos o que aconteceu como aconteceu, em vez de chegar ao final do dia e fazer um trabalho em lotes de 24 horas e obter essas informações.
A análise de streaming é sobre como acessar diretamente esse fluxo, enquanto os fluxos de dados geralmente são múltiplos fluxos de volumes muito altos de dados e dados que chegam até nós em movimento muito, muito rapidamente e obtêm insights ou análises sobre esses fluxos à medida que eles chegam até nós. para permitir que isso saia tranqüilo e executando análises neles.
Como mencionei, tivemos décadas e décadas realizando o que chamo de análise em lote. Eu coloquei uma imagem muito legal aqui. Esta é a foto de um cavalheiro em frente a um computador zombado que foi criado pela RAND Corporation há uma vida e é assim que eles viam um computador em uma casa. O interessante é que, mesmo assim, eles tinham esse conceito de todos esses pequenos mostradores e esses mostradores representavam informações vindas da casa, sendo processadas em tempo real e informando o que estava acontecendo. Um exemplo simples é um conjunto de pressão barométrica e temperatura que podemos ver onde estamos vendo o que está acontecendo em tempo real. Mas imagino que, mesmo na época em que a RAND Corporation montou essa pequena maquete, eles já estavam pensando em processar dados e executar análises nelas, à medida que são lançadas no formato de fluxo. Não sei bem por que eles colocaram o volante no computador, mas isso é bem legal.
Desde a invenção da impressora, tivemos a visão de capturar dados e executar análises em lote. Como já falei com a grande mudança agora, e vimos isso de jogadores como o que sabemos, todos eles são marcas domésticas como Twitter, Facebook e LinkedIn, esse comportamento interativo que temos com aqueles social As plataformas exigem não apenas capturar, armazenar e processar no modo de lote, mas na verdade são capturar e direcionar análises dinamicamente a partir dos fluxos de dados que chegam. Quando tweetamos algo, eles não apenas precisam capturar e armazenar e fazer algo mais tarde, mas também precisam colocá-lo imediatamente de volta no meu stream e compartilhá-lo com outras pessoas que me seguem. Esse é um modelo de processamento em lote.
Por que seguiríamos por esse caminho? Por que as organizações investem tempo, esforço e dinheiro até mesmo considerando o desafio de seguir o caminho da análise de fluxo? As organizações têm esse desejo enorme de obter um ganho de desempenho sobre seus concorrentes nos setores em que atuam e esse ganho pode ser rapidamente implementado por meio de análises simples de fluxo e pode começar com um simples rastreamento de dados em tempo real dos quais já estamos familiar com. Eu tenho uma pequena captura de tela no Google Analytics. Esta é provavelmente uma das primeiras vezes que realmente recebemos as análises práticas de nível de consumidor. Então, quando as pessoas estavam visitando seu site e você recebia essas contagens de hits, com um pequeno pedaço de JavaScript na parte inferior da sua página em HTML incorporado em seu site, esses pequenos códigos estavam sendo criados em tempo real no Google e eles eram realizando análises nos fluxos de dados que chegam de todas as páginas do seu site, de todos os objetos do seu site em tempo real, e eles o enviam de volta a você nesta pequena e atraente página em um painel de gráfico em tempo real, pequenos histogramas e gráfico de linhas mostrando o número X de pessoas que atingiram sua página historicamente, mas aqui está quantas existem no momento.
Como você pode ver nessa imagem, ela diz 25 agora. São 25 pessoas no momento da captura de tela que estavam nessa página. Essa é a primeira chance real que jogamos na ferramenta de análise de nível de consumidor. Eu acho que muitas pessoas realmente entenderam. Eles apenas entenderam o poder de saber o que estava acontecendo e como eles podem responder a isso. Quando pensamos na escala de aviônicos, aeronaves voando ao redor, existem cerca de 18.700 vôos domésticos por dia apenas nos EUA. Li um artigo há algum tempo - há cerca de seis ou sete anos - que a quantidade de dados que estavam sendo produzidos por essas aeronaves era de 200 a 300 megabytes no antigo modelo de engenharia. Nos projetos atuais de aeronaves, essas aeronaves estão produzindo cerca de 500 gigabytes de dados ou cerca de meio terabyte de dados por voo.
Quando você faz as contas muito rapidamente, 18.700 vôos domésticos a cada 24 horas apenas no espaço aéreo dos EUA, se todas as aeronaves modernas produzem cerca de meio terabyte, são 43 a 44 petabytes de dados que chegam e está acontecendo enquanto os aviões estão no ar. Está acontecendo quando eles pousam e fazem despejos de dados. É quando eles entram na loja e recebem um despejo completo de dados das equipes de engenharia para observar o que está acontecendo nos rolamentos, nas rodas e no interior dos motores. Alguns desses dados precisam ser processados em tempo real para que possam tomar decisões sobre se há um problema real enquanto o avião estava no ar ou enquanto estava no chão. Você simplesmente não pode fazer isso no modo de lote. Em outros setores que vemos nas áreas de finanças, saúde, manufatura e engenharia, eles também estão vendo como podem obter esse novo insight sobre o que está acontecendo em tempo real, em oposição ao que está sendo armazenado nos bancos de dados em um prazo.
Há também esse conceito de lidar com dados como o que chamo de produto perecível ou mercadoria perecível - que muitos dados perdem valor ao longo do tempo. Esse é cada vez mais o caso de aplicativos de mobilidade e ferramentas de mídia social, porque o que as pessoas estão dizendo e o que são tendências agora é o que você deseja responder. Quando você pensa em outras partes de nossas vidas com logística e remessa de alimentos, entendemos o conceito de mercadoria perecível nesse sentido. Mas pense nos dados que estão passando pela sua organização e no valor que ela possui. Se alguém estiver negociando com você no momento e você puder interagir com eles em tempo real, não espere uma hora para que os dados possam ser capturados e colocados em um sistema como o Hadoop e pressione esse botão. você não poderá lidar com isso no momento e deseja fazê-lo imediatamente por demanda do cliente. Existe um termo que você verá muito agora, onde as pessoas falam sobre ter esse fluxo de dados em tempo real que pode lhe dar personalização e que a personalização do sistema que você está usando para sua experiência individual. Portanto, quando você acessa uma ferramenta como a Pesquisa Google, por exemplo, se eu fizer uma consulta e você a mesma, invariavelmente, não estamos obtendo exatamente os mesmos dados. Temos essencialmente o que me refiro como uma experiência de celebridade. Sou tratado com uma única vez. Eu recebo minha própria versão pessoal do que está acontecendo nesses sistemas com base nos perfis e dados que eles coletaram em mim e eu pude fazer análises em tempo real no fluxo.
Essa ideia de que os dados são uma mercadoria perecível é algo real por enquanto e o valor dos dados diminuindo ao longo do tempo é algo com o qual temos que lidar hoje. Não é uma coisa de ontem. Adoro essa foto de um urso agarrando um salmão pulando do rio porque realmente pinta exatamente o que vejo análises de streaming. É um enorme rio de dados chegando até nós, uma mangueira de incêndio, se você preferir, e o urso está sentado no meio do riacho. Ele realizará análises em tempo real sobre o que está acontecendo ao seu redor, para que ele possa realmente projetar sua capacidade de capturar esses peixes no ar. Não é como mergulhar no riacho e pegar um. Essa coisa está pulando no ar e precisa estar no lugar certo e na hora certa para pegar aquele peixe. Caso contrário, ele não toma café da manhã ou almoço.
Uma organização deseja fazer o mesmo com seus dados. Eles querem extrair valor do que agora são grandes volumes de dados em movimento. Eles desejam realizar análises desses dados e dados de alta velocidade, para que não seja apenas a quantidade de dados que está chegando até nós, mas a velocidade com que eles vêm disso. Em segurança, por exemplo, são todos os seus roteadores, comutadores, servidores, firewalls e todos os eventos provenientes desses e dezenas de milhares, senão centenas de milhares de dispositivos, em alguns casos dados perecíveis. Quando pensamos sobre isso na Internet das Coisas e na Internet industrial, estamos falando de milhões, senão bilhões de sensores, eventualmente, e à medida que os dados estão sendo apresentados, realizando análises, agora estamos olhando para o processamento de eventos complexos em ordens de magnitude e velocidade que nunca vimos antes e estamos tendo que lidar com isso hoje. Estamos tendo que construir ferramentas e sistemas em torno disso. É um verdadeiro desafio para as organizações, porque, por um lado, temos as grandes marcas que fazem DIY, preparam você mesmo, quando elas têm a capacidade de fazer isso, o conjunto de habilidades e a engenharia. Mas para a organização média, esse não é o caso. Eles não têm os conjuntos de habilidades. Eles não têm capacidade ou tempo ou dinheiro para investir para descobrir isso. Todos eles visam esse conceito de tomada de decisão em tempo quase real.
Os casos de uso que eu já deparei, e eles estão em todo amplo espectro de todos os setores que você pode imaginar, as pessoas estão sentadas, prestando atenção e dizendo, como aplicamos algumas análises aos nossos dados de fluxo? Falamos sobre serviços on-line em escala da web. Existem as tradicionais plataformas de mídia social e varejo on-line e varejo - aplicativos por exemplo. Todos estão tentando nos dar essa experiência de celebridade em tempo real. Mas quando chegamos a mais serviços de pilha de tecnologia, serviços telefônicos, voz e vídeo, vejo pessoas andando por aí fazendo o FaceTime em telefones. Está apenas explodindo. Surpreende minha mente que as pessoas segurem o telefone na frente deles e conversem com um fluxo de vídeo de um amigo, em vez de segurá-lo no ouvido. Mas eles sabem que podem fazê-lo, adaptaram-se e gostaram da experiência. O desenvolvimento desses aplicativos e as plataformas que os entregam precisam executar análises em tempo real nesse tráfego e nos perfis do tráfego, para que eles possam fazer coisas simples, como rotear o vídeo perfeitamente, para que a qualidade da voz no o vídeo recebido é adequado para obter uma boa experiência. Você não pode processar em lote esse tipo de dados. Isso não tornaria o fluxo de vídeo em tempo real um serviço funcional.
Há um desafio de governança nas transações financeiras. Não há problema em chegar ao fim do dia e descobrir que você violou a lei, movendo dados privados pelo local. Na Austrália, temos um desafio muito interessante, onde mover dados relacionados à privacidade para o exterior é um não-não. Você não pode levar meu PID, meus dados pessoais de identificação pessoal, para o exterior. Existem leis na Austrália para impedir que isso aconteça. Provedores de serviços financeiros em particular, certamente, serviços e agências governamentais, precisam fazer análises em tempo real em seus fluxos de dados e instruções comigo para garantir que o que eles estão fornecendo para mim não saia das costas. Todo o material tem que ficar localmente. Eles precisam fazer isso em tempo real. Eles não podem infringir a lei e pedir perdão mais tarde. Detecção de fraude - é bastante óbvio que ouvimos falar nas transações com cartão de crédito. Mas, como os tipos de transações que realizamos em serviços financeiros estão mudando muito, muito rapidamente, há vários tipos de ações que o PayPal está fazendo primeiro agora na detecção de fraudes em tempo real, onde o dinheiro não está passando de uma coisa para outra, mas é uma transação financeira entre sistemas. No eBay, a detecção de fraudes deve ser feita em tempo real em um escritório de streaming.
Há uma tendência agora para executar a extração e a transformação da atividade de carga nos fluxos, para que não desejemos capturar nada que esteja sendo transmitido para o fluxo. Nós realmente não podemos fazer isso. As pessoas aprenderam que os dados gostam de ser quebrados rapidamente, se capturarmos tudo. O truque agora é executar análises nesses fluxos e fazer ETL nele, capturando apenas o que você precisa, potencialmente metadados, e depois impulsionar análises preditivas onde podemos realmente dizer o que vai acontecer um pouco mais adiante nos caminhos em que acabamos de ver no fluxo com base nas análises que realizamos sobre isso.
Os fornecedores de energia e serviços públicos estão experimentando esse desejo massivo dos consumidores de ter preços de demanda. Posso decidir que quero comprar energia verde em uma determinada hora do dia, porque estou em casa sozinho e não estou usando muitos dispositivos. Mas se eu tiver um jantar, talvez eu queira ter todos os meus dispositivos ligados e não quero comprar energia barata e esperar que ela seja entregue, mas disposto a pagar por mais custos para obter essa energia. Esse preço de demanda, particularmente em serviços públicos e espaço de energia, já aconteceu. O Uber, por exemplo, é um exemplo clássico de coisas que você pode fazer todos os dias e tudo é impulsionado pelos preços da demanda. Existem alguns exemplos clássicos de pessoas na Austrália recebendo tarifas de US $ 10.000 por causa da grande demanda na véspera de Ano Novo. Tenho certeza de que eles lidaram com esse problema, mas as análises de fluxo são realizadas em tempo real enquanto estão no carro, informando quanto devo pagar.
Internet das Coisas e fluxos de sensores - acabamos de mostrar isso e realmente tivemos uma conversa básica sobre isso, mas veremos uma mudança interessante em como a tecnologia lida com isso, porque quando você não está falando quase milhares ou dezenas de milhares, mas centenas de milhares e potencialmente bilhões de dispositivos transmitidos para você, quase nenhuma das pilhas de tecnologia que temos agora são projetadas para lidar com isso.
Existem alguns tópicos muito interessantes que veremos em todo o lugar, como segurança e risco cibernético. São desafios muito reais para nós. Existe uma ferramenta realmente interessante chamada North na Web, onde você pode sentar e assistir em uma página da Web vários ataques cibernéticos acontecendo em tempo real. Quando você olha para ele, você pensa: “Oh, é uma pequena página bonitinha”, mas depois de cerca de cinco minutos, você percebe o volume de dados que o sistema está fazendo análises em todos os diferentes fluxos de todos os diferentes dispositivos ao redor do mundo que estão sendo alimentados com eles. Isso começa a confundir a mente de como eles estão realizando isso no limite desse registro e fornecendo a você uma pequena tela simples que informa o que ou algo mais está atacando em tempo real e que tipos de ataques. Mas é uma maneira muito simples de obter uma boa amostra do que a análise de fluxo pode potencialmente fazer por você em tempo real, apenas observando esta página e tendo uma noção do volume e do desafio de aceitar os fluxos, processando consultas de análise em eles e representando isso em tempo real.
Eu acho que a conversa que eu tenho para o resto da sessão abordará todos esses tipos de coisas com uma visão interessante, do meu ponto de vista, e esse é o desafio da bricolage, faça você mesmo, se adapte a algumas das unicórnios clássicos capazes de construir esse tipo de coisa. Eles têm bilhões de dólares para construir essas equipes de engenharia e seus data centers. Mas para 99, 9% das organizações por aí que desejam agregar valor em seus negócios de análise de fluxo, elas precisam obter um serviço pronto para uso. Eles precisam comprar um produto imediatamente e geralmente precisam de algum serviço de consultoria e serviço profissional para ajudá-los a implementá-lo e eles ganham esse valor de volta nos negócios e os vendem de volta para os negócios como uma solução funcional.
Com isso, vou lhe devolver, Rebecca, porque acredito que é isso que vamos abordar em detalhes agora.
Rebecca Jozwiak: Excelente. Muito obrigado, Dez. Essa é uma ótima apresentação.
Agora, vou passar a bola para Robin. Leve embora.
Robin Bloor: Ok. Como Dez entrou no âmago da questão do processamento de fluxos, não parecia fazer sentido para mim abordá-lo novamente. Então, eu só vou ter uma visão completamente estratégica. Olhando quase de um nível muito alto para o que diabos está acontecendo e posicionando-o, porque acho que isso pode ajudar as pessoas, especialmente nós, pessoas que não estão acampadas em fluxos de processamento em grande profundidade antes.
O processamento de fluxos já existe há muito tempo. Costumávamos chamá-lo de CEP. Antes, havia sistemas em tempo real. Os sistemas originais de controle de processo estavam na verdade processando fluxos de informações - é claro que nada estava indo tão longe quanto é hoje em dia. Este gráfico que você vê no slide aqui; na verdade, está apontando muitas coisas, mas está acima e além de qualquer outra coisa - o fato de que há um espectro de latências que aparecem em cores diferentes aqui em baixo. O que realmente aconteceu desde a invenção da computação ou da computação comercial, que chegou por volta de 1960, é que tudo ficou cada vez mais rápido. Costumávamos depender da maneira como isso realmente acontecia, se você gosta de ondas, porque é assim que parece. Isso realmente depende disso. Porque tudo foi conduzido pela lei de Moore e a lei de Moore nos daria um fator de cerca de dez vezes a velocidade durante um período de cerca de seis anos. Então, quando chegamos a 2013, tudo quebrou e, de repente, começamos a acelerar a um ritmo que nunca, o que é estranhamente sem precedentes. Estávamos recebendo um fator de cerca de dez em termos de aumento de velocidade e, portanto, uma redução na latência a cada seis anos. Nos seis anos desde 2010, temos um múltiplo de pelo menos mil. Três ordens de magnitude em vez de uma.
É isso que está acontecendo e é por isso que a indústria, de uma maneira ou de outra, parece estar se movendo em velocidades fantásticas - porque é. Apenas passando pelo significado desse gráfico em particular, os tempos de resposta são, na verdade, a propósito, em escala algorítmica no eixo vertical. Tempo real é a velocidade do computador, mais rápido que os seres humanos. Os tempos interativos são laranja. É quando você está interagindo com o computador que é onde você realmente quer um décimo a cerca de um segundo de latência. Acima, há transacional em que realmente pensamos sobre o que você está fazendo no computador, mas se isso ocorrer em quinze segundos, torna-se intolerável. As pessoas simplesmente não esperam pelo computador. Tudo foi feito em lote. Muitas coisas que foram feitas em lote agora estão chegando diretamente ao espaço transacional, diretamente ao espaço interativo ou mesmo ao espaço em tempo real. Considerando que anteriormente, com uma quantidade muito pequena de dados, poderíamos fazer parte disso, agora podemos fazer com quantidades muito grandes de dados usando um ambiente extremamente dimensionado.
Então, basicamente, tudo isso está dizendo é realmente a transação e os tempos de resposta humanos interativos. Muito do que está sendo feito com fluxos agora é informar os seres humanos sobre as coisas. Algumas delas estão indo mais rápido do que isso e estão informando bem as coisas, então é em tempo real. Em seguida, tomamos uma licença para cair como uma pedra, tornando a análise instantânea viável e, a propósito, bastante acessível. Não é apenas a velocidade que caiu e o topo também caiu. Provavelmente, o maior impacto em todos esses dentre todos os vários aplicativos, você pode fazer todas essas análises preditivas. Vou lhe dizer por que em um minuto.
Esta é apenas a loja de ferragens. Você tem um software paralelo. Estamos falando em 2004. Arquitetura em expansão, chips multicore, aumento de memória, CPU configurável. Os SSDs agora são muito mais rápidos do que girar o disco. Você pode dizer adeus ao disco giratório. Os SSDs também estão em vários núcleos; portanto, mais e mais rápido. Logo a aparecer, temos o memristor da HP. Temos o 3D XPoint da Intel e Micron. A promessa daqueles é que isso fará com que tudo aconteça cada vez mais rápido. Quando você está pensando em duas novas tecnologias de memória, as quais tornarão toda a peça fundamental fundamental, a placa de circuito individual vai muito mais rápido, ainda nem vimos o final dela.
A tecnologia Streams, que é realmente a próxima mensagem, veio para ficar. Terá que haver uma nova arquitetura. Quero dizer, Dez mencionou isso em vários pontos de sua apresentação. Por décadas, vimos a arquitetura como uma combinação de pilhas de dados e pipes de dados. Nós tendíamos a processar os heaps e tendíamos a canalizar os dados entre os heaps. Agora estamos avançando fundamentalmente em direção ao que chamamos de arquitetura de dados Lambda, que combina o processamento de fluxos de dados com pilhas de dados. Na verdade, quando você está processando um fluxo de eventos com dados históricos como fluxo de dados ou pilha de dados, é isso que quero dizer com arquitetura Lambda. Isso está em sua infância. É apenas uma parte da imagem. Se você considerar algo tão complexo quanto a Internet de Tudo, que Dez também mencionou, perceberá que existem todos os tipos de problemas de localização de dados - decisões sobre o que você deve processar no fluxo.
O que realmente estou dizendo aqui é que, quando estávamos processando em lote, na verdade estávamos processando fluxos. Nós simplesmente não conseguimos fazê-lo um de cada vez. Apenas esperamos até que haja um monte de coisas e depois processamos tudo de uma vez. Estamos nos mudando para uma situação em que realmente podemos processar coisas no fluxo. Se pudermos processar coisas no fluxo, os montes de dados que mantemos serão os dados estáticos aos quais precisamos referenciar para processar os dados no fluxo.
Isso nos leva a essa coisa em particular. Eu mencionei isso antes em alguma apresentação com a analogia biológica. O jeito que eu gostaria que você pensasse é no momento em que somos seres humanos. Temos três redes distintas para processamento preditivo em tempo real. Eles são chamados somáticos, autonômicos e entéricos. O entérico é o seu estômago. O sistema nervoso autônomo cuida de brigas e vôos. Na verdade, ele cuida de reações rápidas ao meio ambiente. O somático que cuida da movimentação do corpo. Esses são sistemas em tempo real. O interessante sobre isso - ou acho que é interessante - é muito mais preditivo do que você jamais imaginaria. É como se você estivesse realmente olhando para uma tela a cerca de 18 polegadas do seu rosto. Tudo o que você pode ver claramente, tudo o que seu corpo é capaz de ver claramente é, na verdade, um retângulo 8 × 10. Tudo o que está fora disso é realmente borrado no que diz respeito ao seu corpo, mas sua mente está preenchendo as lacunas e tornando-a não embaçada. Você não vê um borrão. Você vê isso claramente. Sua mente está realmente fazendo o método preditivo do fluxo de dados para que você veja essa clareza. Isso é meio que uma coisa curiosa, mas você pode realmente ver como o sistema nervoso funciona e como conseguimos nos locomover e nos comportar razoavelmente - pelo menos alguns de nós - razoavelmente e sem esbarrar nas coisas o tempo todo.
Tudo é feito por uma série de escalas de análise neural aqui. O que vai acontecer é que as organizações terão o mesmo tipo de coisa e criarão o mesmo tipo de coisa, e será o processamento de fluxos, incluindo os fluxos internos da organização - as coisas que estão acontecendo dentro isso, as coisas que acontecem fora dela, as respostas instantâneas que realmente precisam ser feitas estão, obviamente, alimentando o ser humano a tomar decisões, a fazer com que tudo isso aconteça. É para onde estamos indo, até onde posso ver.
Uma das conseqüências disso é que o nível do aplicativo de streaming está indo bem. Haverá muito mais do que vemos agora. No momento, estamos colhendo os frutos mais baixos de fazer as coisas que são óbvias.
De qualquer forma, essa é a conclusão aqui. A análise de streaming já foi um nicho, mas está se tornando popular e em breve será adotada em geral.
Com isso, vou devolvê-lo a Rebecca.
Rebecca Jozwiak: Muito obrigado, Robin. Ótima apresentação, como de costume.
Anand, você é o próximo. O chão é seu.
Anand Venugopal: Fantástico. Obrigado.
Meu nome é Anand Venugopal e sou o chefe de produto do StreamAnalytix. É um produto oferecido pela Impetus Technologies, de Los Gatos, Califórnia.
A Impetus tem realmente uma grande história em ser um provedor de soluções de big data para grandes empresas. Então, na verdade, fizemos várias implementações de análise de streaming como empresa de serviços e aprendemos muitas lições. Também mudamos para nos tornar uma empresa de produtos e uma empresa orientada por soluções nos últimos dois anos e a análise de fluxo está assumindo a responsabilidade de transformar a Impetus em uma empresa amplamente orientada para o produto. Existem alguns ativos críticos, muito, muito importantes que a Impetus liberou graças à nossa exposição às empresas e o StreamAnalytix é um deles.
Temos 20 anos no ramo e há uma grande mistura de produtos e serviços que nos tornam uma grande vantagem. E o StreamAnalytix nasceu de todas as lições aprendidas das nossas primeiras cinco ou seis implementações de streaming.
Vou abordar algumas coisas, mas os analistas, Dez e Robin, fizeram um trabalho fantástico em cobrir todo o espaço, então vou pular muito conteúdo que se sobrepõe. Eu provavelmente irei rápido. Além de casos reais de streaming, vemos muita aceleração em lote, onde existem literalmente processos de lote muito, muito importantes nas empresas. Como você pode ver, todo esse ciclo de detecção de um evento, análise e atuação sobre ele pode levar semanas nas grandes empresas, e todos estão tentando reduzi-lo a minutos, às vezes segundos e milissegundos. Portanto, qualquer coisa mais rápida do que todos esses processos em lote são candidatos à aquisição de negócios e é muito bom dizer que o valor dos dados diminui drasticamente com a idade, portanto, quanto mais valor houver na porção inicial nos segundos em que aconteceu. Idealmente, se você pudesse prever o que iria acontecer, esse seria o valor mais alto. Porém, isso depende da precisão. O próximo valor mais alto é quando está ali quando está acontecendo, você pode analisá-lo e responder. Obviamente, o valor reduz drasticamente depois disso, o principal BI restritivo em que estamos inseridos.
É interessante. Você pode esperar uma resposta dramaticamente científica para o porquê da análise de streaming. Em muitos casos, o que estamos vendo é que agora é possível e porque todo mundo sabe que o lote é antigo, o lote é chato e o lote não é legal. Agora há educação suficiente para todo mundo sobre o fato de que é possível fazer streaming e todo mundo tem o Hadoop agora. Agora, as distribuições do Hadoop possuem uma tecnologia de streaming incorporada, seja de streaming Storm ou Spark e, claro, de filas de mensagens, como Kafka, etc.
As empresas que vemos estão entrando nela e começando a experimentar esses casos e estamos vendo duas grandes categorias. Um deles tem algo a ver com análises e experiência do cliente e a segunda inteligência operacional. Entrarei em detalhes mais tarde. Todo o ângulo de atendimento ao cliente e experiência do cliente, e nós do Impetus StreamAnalytix, fizemos isso de várias maneiras diferentes, realmente, realmente, realmente capturando o envolvimento multicanal do consumidor em tempo real e fornecendo experiências muito, muito sensíveis ao contexto que não são comuns hoje. Se você estiver navegando na Web, no site do Bank of America, e estiver pesquisando alguns produtos, basta ligar para o call center. Eles diriam: "Ei Joe, eu sei que você está pesquisando alguns produtos bancários, gostaria que eu o informasse?" Você não espera isso hoje, mas esse é o tipo de experiência que é verdadeiramente possível com a análise de streaming. Em muitos casos, faz uma enorme diferença, especialmente se o cliente começou a pesquisar maneiras de sair de seu contrato com você, consultando cláusulas de rescisão antecipada ou termos e condições de rescisão antecipada em seu site e, em seguida, ligue e você poderá não confrontá-los diretamente sobre isso, mas apenas fazer indiretamente uma oferta sobre algum tipo de primeira promoção, porque o sistema sabe que essa pessoa está aguardando rescisão antecipada e você faz essa oferta naquele momento; você poderia muito bem proteger esse cliente em agitação e proteger esse ativo .
Esse seria um exemplo, além de muitos serviços ao cliente são todos muito bons exemplos. Estamos implementando hoje, reduz o custo no call center e fornece experiências agradáveis e dramáticas ao cliente. Dez fez um ótimo trabalho ao resumir alguns dos casos de uso. Você pode olhar para este gráfico por alguns minutos. Classifiquei-o como áreas verticais, horizontais e combinadas, IoT, aplicativo móvel e call center. Eles são todos verticais e horizontais. Depende de como você olha para isso. Resumindo, vemos muitos usos horizontais bastante comuns em setores verticais do setor e há casos de uso verticais específicos, incluindo serviços financeiros, assistência médica, telecomunicações, manufatura, etc. Se você está realmente se perguntando ou se perguntando a si mesmo que, “oh, eu não sei quais casos de uso existem. Não tenho certeza se existe realmente algum valor comercial em análise de streaming para minha empresa ou nossa empresa ”, pense bem, pense duas vezes. Converse com mais pessoas, porque há casos de uso que na sua empresa são relevantes hoje. Entrarei no valor comercial de como exatamente o valor comercial é derivado.
Na parte inferior da pirâmide, você tem manutenção preditiva, segurança, proteção contra rotatividade, etc. Esses tipos de casos de uso constituem proteção de receitas e ativos. Se a Target protegesse a violação de segurança que acontecia durante horas e semanas, o CIO poderia ter salvo o emprego. Isso poderia economizar dezenas ou centenas de milhões de dólares, etc. As análises de streaming em tempo real realmente ajudam a proteger esses ativos e a proteger as perdas. Esse é o valor agregado direto dos negócios ali.
A próxima categoria está se tornando mais lucrativa, diminuindo seu custo e obtendo mais receitas da operação atual. Essa é a eficiência da empresa atual. Essas são todas as categorias de casos de uso que chamamos de inteligência operacional em tempo real, nas quais você obtém insights profundos sobre como a rede está se comportando, como as operações do cliente estão se comportando, como o processo de negócios está se comportando e você pode ajustar tudo isso em tempo real, porque você recebe feedback e recebe alertas. Você obtém desvios, variações em tempo real e pode agir rapidamente e separar o processo que está saindo dos limites.
Você também pode economizar muito dinheiro em upgrades de capital caros e coisas que considera necessárias e que podem não ser necessárias se você otimizar o serviço de rede. Ouvimos falar de um caso em que uma grande empresa de telecomunicações adiou uma atualização de US $ 40 milhões em sua infraestrutura de rede porque descobriram que tinham capacidade suficiente para gerenciar seu tráfego atual, otimizando e melhor executando o roteamento inteligente de seu tráfego e coisas assim. Tudo isso é possível apenas com alguns mecanismos de análise e ação em tempo real que atuam sobre essas informações em tempo real.
O próximo nível de valor agregado é o up-sell, o cross-sell, onde há oportunidades de obter mais receitas e lucros com as ofertas atuais. Este é um exemplo clássico que muitos de nós sabemos sobre a experiência que tiveram, onde você pensa em sua vida em que está realmente disposto a comprar um produto hoje que não está sendo oferecido a você. Em muitos, muitos casos, isso realmente acontece. Você tem coisas em sua mente que gosta de comprar, que sabe que quer comprar, que tem uma lista de tarefas ou algo assim, que sua esposa lhe disse ou se você não tem uma esposa, mas realmente queria comprar e você faz compras em um site ou está interagindo em uma loja de varejo, a fachada da loja simplesmente não tem o contexto, não tem a inteligência necessária para calcular o que você pode precisar. Portanto, eles não mantêm seus negócios seguros. Se a análise de streaming puder ser implantada para realmente fazer previsões precisas e quais são realmente possíveis para o que mais se adequa a esse contexto específico, esse cliente neste momento neste local, há muito up-sell e cross-sell e isso vem novamente de análise de streaming - poder tomar uma decisão de propensão sobre o que esse cliente provavelmente comprará ou responderá naquele momento da verdade, quando houver uma oportunidade. É por isso que eu amo a foto que Dez mostrou com o urso prestes a comer aquele peixe. É isso mesmo.
Também achamos que existe uma grande categoria de mudanças dramáticas e transformacionais em uma empresa, que oferecem produtos e serviços completamente novos, simplesmente baseados na observação do comportamento do cliente, tudo baseado na observação do comportamento de outra empresa. Se, digamos, uma empresa de telecomunicações ou de cabo realmente observar os padrões de uso dos clientes em que segmento do mercado ele está vendo, qual programa a que horas etc., eles acabam criando produtos e serviços quase implorados de alguma maneira. Portanto, todo o conceito de comportamento de tela múltipla, no momento, está quase dando como certo que podemos ver conteúdo de TV ou cabo em nossos aplicativos móveis. Alguns desses exemplos são provenientes dos novos produtos e serviços que estão sendo oferecidos a nós.
Entrarei em "Quais são as considerações de arquitetura da análise de streaming?" É o que estamos tentando fazer. Essa é a arquitetura Lambda, na qual você mescla os dados históricos e os insights em tempo real e os vê ao mesmo tempo. É isso que a Sigma permite. Todos nós temos hoje a arquitetura de lotes e a imagem corporativa. Estamos analisando algum tipo de pilha de BI e pilha de utilização e a arquitetura Lambda adicionada. Como a camada de velocidade ou a necessidade e o Lambda, tudo se resume a mesclar essas duas idéias e ver isso de uma maneira combinada, de uma maneira rica que combina as duas idéias.
Há outro paradigma chamado arquitetura Kappa que está sendo proposto, onde a conjectura é que a camada de velocidade é o único mecanismo de entrada que persistirá a longo prazo. Tudo vai passar por essa camada de velocidade. Não haverá nem mesmo um mecanismo ETL offline. Todo o ETL vai acontecer. Limpeza, limpeza de dados, ETL de qualidade - tudo isso acontecerá por fio, porque lembre-se de que todos os dados nasceram em tempo real. Em algum momento, era em tempo real. Nós nos acostumamos a colocar isso em lagos, rios e oceanos, e depois em análises estáticas que esquecemos que os dados nasceram em algum momento em tempo real. Na verdade, todos os dados nascem como um evento em tempo real que aconteceu no ponto do tempo e a maioria dos dados hoje no lago acabou de ser colocada no banco de dados para uma análise posterior e agora temos a vantagem na arquitetura Lambda e Kappa de vendo, analisando, pré-processando e reagindo a ele quando chega. É isso que é permitido por essas tecnologias. Quando você olha para ela como uma imagem geral, parece algo como isto onde há o Hadoop, existem MPPs e data warehouses que você já possui.
Colocamos isso porque é importante não apenas falar sobre novas tecnologias em uma ilha. Eles têm que se integrar. Eles precisam fazer sentido no contexto empresarial atual e, como fornecedores de soluções que atendem às empresas, somos muito sensíveis a isso. Ajudamos as empresas a integrar a coisa toda. Existem fontes de dados no lado esquerdo, alimentando as camadas Hadoop e data warehouse, bem como a camada em tempo real na parte superior e cada uma dessas entidades são computadores de estoque, como você pode ver, e a camada de consumo de dados está à direita lado. Há um esforço constante para mudar a maioria da conformidade, governança, segurança, gerenciamento do ciclo de vida, etc., que estão disponíveis hoje e que foram acumuladas nesta nova tecnologia.
Uma das coisas que a análise de fluxo está tentando fazer: se você observar o cenário atual, há muitas coisas acontecendo no cenário da tecnologia de streaming e, do ponto de vista do cliente corporativo, há muito para entender. Há muito o que acompanhar. Existem mecanismos de coleta de dados no lado esquerdo - NiFi, Logstash, Flume, Sqoop. Obviamente, eu tenho um aviso dizendo que não é exaustivo. Entrando nas filas de mensagens e entrando nos mecanismos de streaming de código aberto - Storm, Spark Streaming, Samza, Flink, Apex, Heron. Heron provavelmente ainda não é de código aberto. Não tenho certeza se é, do Twitter. Esses mecanismos de streaming levam ou suportam um componente de aplicativo analítico de configuração, como processamento de eventos complexos, aprendizado de máquina, análise preditiva, módulo de alerta, ETL de streaming, filtros de operações estatísticas de enriquecimento. Isso é tudo o que chamamos de operadores agora. O conjunto desses operadores, quando reunidos, potencialmente também concluía em grande parte, se necessário, um aplicativo de streaming que é executado em um mecanismo de streaming.
Como parte dessa cadeia de componentes, você também precisa armazenar e indexar os dados em seu banco de dados favorito, seu índice favorito. Você também pode ter que distribuir o cache e, novamente, isso leva à camada de visualização de dados no lado direito, na parte superior, de produtos comerciais ou de código aberto, mas, no final das contas, você precisa de algum tipo de produto para visualizar esses dados em tempo real. Além disso, às vezes você precisa descobrir outros aplicativos. Todos nós vimos que os valores derivados apenas da ação que você executa no insight, essa ação será um gatilho de uma pilha analítica para outra pilha de aplicativos que talvez tenha mudado algo do lado da URA ou acionado um call center chamada de saída ou algo assim. Precisamos ter esses sistemas integrados e algum mecanismo para o seu cluster de streaming ativar outros aplicativos de envio de dados a jusante.
Essa é a pilha geral da esquerda para a direita. Depois, você tem as camadas de serviço, o monitoramento intermediário, a camada de serviço geral de segurança, etc. Chegando a quais produtos existem no espaço corporativo que os clientes estão vendo como distribuições do Hadoop, todos com streaming como eu disse e comercial ou único soluções de fornecedores que obviamente estão em nossos concorrentes. Há muito mais na paisagem que talvez não tenhamos mencionado aqui.
O que você está vendo lá é amplamente que o usuário corporativo está vendo. Um cenário tecnológico complexo e em rápida evolução para o processamento de fluxo, como você pode ver. Temos que simplificar a escolha e a experiência do usuário. O que achamos que as empresas realmente precisam é da abstração funcional de tudo isso em uma interface fácil de usar que reúne todas as tecnologias que tornam o uso realmente simples e não expõem todas as partes móveis e os problemas de degradação e de desempenho e de manutenção do ciclo de vida da empresa.
A abstração da funcionalidade é uma. A segunda parte é a abstração do mecanismo de streaming. Os mecanismos de streaming e os domínios de código aberto estão surgindo a cada três, quatro ou seis meses. Foi tempestade por um longo tempo. Samza surgiu e agora é o Spark Streaming. Flink está levantando a cabeça, começando a chamar atenção. Até o roteiro do Spark Streaming, eles estão abrindo caminho para potencialmente usar um mecanismo diferente para o processamento puro de eventos, porque eles também percebem que o Spark foi projetado para lote e estão abrindo caminho na visão da arquitetura e no roteiro para potencialmente ter um diferente mecanismo para processamento de fluxo, além do padrão atual de microbatch no Spark Streaming.
É uma realidade que você tem que enfrentar que haverá muita evolução. Você realmente precisa se proteger desse fluxo de tecnologia. Porque, por padrão, você terá que escolher um e viver com ele, o que não é o ideal. Se você está olhando de outra maneira, está brigando entre: “tudo bem, eu comprei uma plataforma proprietária onde não há um bloqueio, não há alavancagem de código aberto, pode ser muito alto e limitado flexibilidade em relação a toda essa pilha de código aberto em que você pode fazer isso sozinho. ”Novamente, como eu disse, são muitos custos e atrasos para chegar ao mercado. O que estamos dizendo é que o StreamAnalytix é um exemplo de uma excelente plataforma que reúne a classe empresarial, o fornecedor único confiável e o serviço profissional suportado - tudo o que você realmente precisa como empresa e o poder da flexibilidade do ecossistema de código aberto onde uma única plataforma os reúne - ingere, CEP, análises, visualização e tudo isso.
Ele também faz uma coisa muito, muito única, que reúne diversos mecanismos de tecnologia sob uma única experiência do usuário. Realmente achamos que o futuro é poder usar vários mecanismos de streaming, porque diferentes casos de uso realmente exigem diferentes arquiteturas de streaming. Como Robin disse, há todo um espectro de latências. Se você está realmente falando sobre o nível de latência de milissegundos, dezenas ou mesmo centenas de milissegundos, realmente precisa do Storm neste momento até que exista outro produto igualmente maduro para menos leniência ou período de tempo tolerante e latências, talvez em alguns segundos, três, quatro, cinco segundos, nesse intervalo, você pode usar o Spark Streaming. Potencialmente, existem outros mecanismos que podem fazer as duas coisas. Em resumo, em uma grande empresa, haverá casos de uso de todos os tipos. Você realmente deseja que o acesso e a generalidade tenham vários mecanismos com uma experiência do usuário e é isso que estamos tentando criar no StreamAnalytix.
Apenas uma visão rápida da arquitetura. Vamos refazer isso um pouco, mas essencialmente, existem várias fontes de dados no lado esquerdo - Kafka, RabbitMQ, Kinesis, ActiveMQ, todas essas fontes de dados e filas de mensagens que chegam à plataforma de processamento de fluxo em que você monta um aplicativo, onde você pode arrastar e soltar de operadores como os ETLs, tudo o que falamos. Por baixo, existem vários motores. No momento, temos o Storm e o Spark Streaming como a única e primeira plataforma de streaming de classe empresarial do setor, com suporte a vários mecanismos. Essa é uma flexibilidade muito única que estamos oferecendo, além de toda a flexibilidade de ter painéis em tempo real. Motor CET incorporado. Temos a integração perfeita com os índices Hadoop e NoSQL, índices Solr e Apache. Você pode acessar seu banco de dados favorito, não importa qual seja, e criar aplicativos muito rapidamente, chegar ao mercado muito rapidamente e permanecer à prova do futuro. Esse é todo o nosso mantra no StreamAnalytix.
Com isso, acho que vou concluir minhas observações. Sinta-se livre para vir até nós para mais perguntas. Gostaria de manter a palavra aberta para perguntas e respostas e painel de discussão.
Rebecca, até você.
Rebecca Jozwiak: Ótimo, tudo bem. Muito obrigado. Dez e Robin, você tem algumas perguntas antes de passarmos para a audiência?
Robin Bloor: Eu tenho uma pergunta. Vou colocar meus fones de volta para que você possa me ouvir. Uma das coisas interessantes, se você poderia me dizer isso, muito do que tenho visto no espaço de código aberto parece o que eu diria imaturo para mim. Em certo sentido, sim, você pode fazer várias coisas. Mas parece que estamos vendo o software em seu primeiro ou segundo lançamento na realidade e fiquei pensando com a sua experiência como organização, o quanto você vê a imaturidade do ambiente Hadoop como problemática ou é algo que não acontece? criar muitos problemas?
Anand Venugopal: É uma realidade, Robin. Você está absolutamente correto. A imaturidade não está necessariamente na área de estabilidade funcional e outras coisas, mas talvez alguns casos disso também. Mas a imaturidade está mais pronta para uso. Os produtos de código aberto à medida que são lançados e, mesmo sendo oferecidos pela distribuição do Hadoop, são todos diferentes produtos capazes, componentes que acabaram de ser colados. Eles não funcionam juntos de maneira integrada e não foram projetados para proporcionar uma experiência perfeita ao usuário que obteremos como Bank of America, Verizon ou AT&T, para implantar um aplicativo de análise de streaming em semanas. Eles não são projetados para isso com certeza. Essa é a razão pela qual entramos. Reunimos e tornamos realmente fácil entender, implantar etc.
Acho que a maturidade funcional dela existe, em grande parte. Muitas grandes empresas usam, por exemplo, o Storm hoje. Muitas grandes empresas estão jogando com o Spark Streaming hoje. Cada um desses mecanismos tem suas limitações no que eles podem fazer, e é por isso que é importante saber o que você pode e o que não pode fazer com cada mecanismo e não faz sentido quebrar a cabeça contra a parede e dizer: escolheu o Spark Streaming e não funciona para mim neste setor em particular. ”Não vai funcionar. Haverá casos de uso em que o Spark Streaming será a melhor opção e haverá casos de uso em que o Spark Streaming poderá não funcionar para você. É por isso que você realmente precisa de várias opções.
Robin Bloor: Bem, você precisa de equipes especializadas para a maior parte disso. Quero dizer, também nem sei por onde começar. Uma cooperação sensata de indivíduos qualificados. Estou interessado em saber como o envolvimento você se envolve e como isso acontece. É porque uma empresa em particular está atrás de um aplicativo específico ou você está vendo o que eu chamaria de adoção estratégica, onde eles querem que uma plataforma inteira faça muitas coisas.
Anand Venugopal: Estamos vendo exemplos de ambos, Robin. Algumas das dez principais marcas que todos sabem estão lidando com isso de uma maneira muito estratégica. Eles sabem que terão uma variedade de casos de uso e estão avaliando plataformas que atenderão a essa necessidade, que é uma variedade de casos de uso diferentes, de maneira multilocatário, a serem implantados em uma empresa. Existem casos de uso único que também estão sendo iniciados. Há um caso de uso específico do tipo de monitoramento de atividade de negócios em uma empresa de hipoteca em que estamos trabalhando, no qual você não imaginaria o primeiro caso de uso, mas essa é a solução de negócios ou o caso de uso que eles criaram e, em seguida, conectamos os pontos ao streaming . Dissemos: “Você sabe o que? Este é um ótimo caso para análise de streaming e é assim que podemos implementá-lo. ”Foi assim que estava começando. Então, nesse processo, eles são instruídos e dizem: “Uau, se podemos fazer isso e se essa é uma plataforma genérica, podemos separar o aplicativo, colocá-lo em uma plataforma e criar vários aplicativos diferentes neste plataforma."
Robin Bloor: Dez, você tem alguma pergunta?
Anand Venugopal: Dez provavelmente está mudo.
Dez Blanchfield: Desculpas, mudo. Eu só tive uma boa conversa. Seguindo a observação original de Robin, você está absolutamente correto. Penso que o desafio agora é que as empresas tenham um ecossistema e um ambiente cultural e comportamental em que software livre e de código aberto seja algo conhecido por elas e que sejam capazes de usar ferramentas como o Firefox como navegador e que tenha tido um desempenho decente. vida útil até que se torne estável e seguro. Mas algumas dessas plataformas muito grandes que eles usam são plataformas proprietárias de nível empresarial. Portanto, a adoção do que eu considero plataformas de código aberto nem sempre é algo fácil de se expressar culturalmente ou emocionalmente. Eu já vi isso através da adoção de pequenos programas que eram projetos locais para jogar com big data e análise como um conceito fundamental. Acho que um dos principais desafios, tenho certeza de que você já os viu em todas as organizações, é o desejo deles de obter o resultado, mas ao mesmo tempo mantendo o pé na lata velha, onde eles poderiam comprar isso "Insira uma grande marca" Oracle, IBM e Microsoft. Essas marcas novas e conhecidas estão chegando com as plataformas Hadoop e muito mais. Marcas mais emocionantes estão surgindo, com tecnologia de ponta como stream.
Quais são os tipos de conversas que você teve ou que cortaram? Sei que temos uma participação massiva hoje de manhã e uma coisa que tenho certeza de que está na cabeça de todos é: “Como faço para atravessar toda essa camada desafiadora, do conselho até o nível de gerenciamento? Ah, é um código aberto demais e um limite muito alto? "Como vão as conversas com os clientes e como chegamos a esse ponto em que você meio que acalma esses tipos de medos a considerar adotar os gostos do StreamAnalytix?
Anand Venugopal: Na verdade, estamos achando bastante fácil vender nossa proposta de valor, porque os clientes estão naturalmente migrando para o código aberto como uma opção preferida. Eles não estão simplesmente desistindo e dizendo: "Ok, agora vou entrar em código aberto". Na verdade, eles passam por uma avaliação muito comprometida de um produto importante, digamos que seja um produto IBM ou típico, porque eles têm esses relacionamentos com fornecedores. Eles não tratariam a gente ou o mecanismo de código aberto contra esse produto. Eles passarão por seis a oito a doze semanas de avaliação. Eles vão se convencer de que há um grau de desempenho e estabilidade aqui que eu quero e então eles decidem dizendo: "Uau, você sabe, eu posso realmente fazer isso".
Hoje, por exemplo, temos uma empresa de telecomunicações de primeira linha que tem análises de fluxo em produção em grande parte da pilha, e elas estão avaliando isso em relação a outro fornecedor conhecido muito, muito grande e só foram convencidas depois que provamos tudo o desempenho, estabilidade e todas essas coisas. Eles não tomam isso como garantido. Eles descobriram que o código aberto é competente por meio de suas avaliações e percebem que, na pior das hipóteses, “talvez existam esses dois casos de uso que talvez eu não consiga, mas a maioria dos casos de uso de aceleração da minha empresa hoje é eminentemente possível com o código aberto pilha ”. E permitimos o uso dela. Então esse é o grande ponto ideal aqui. Eles queriam o código aberto. Eles realmente querem sair da situação de dependência do fornecedor a que estão acostumados há muitos e muitos anos. Então, aqui chegamos e dizemos: "Quer saber, tornaremos o código aberto muito, muito mais fácil e amigável de usar para você".
Dez Blanchfield: Penso que o outro desafio que as empresas encontram é quando trazem o operador tradicional, que muitas vezes são uma geração por trás de algumas das coisas mais emocionantes das coisas interessantes sobre as quais estamos falando aqui e não quero dizer isso como negativo leve. Só que a realidade é que eles têm uma geração e uma jornada para lançar o que consideram plataformas estáveis, ciclos de desenvolvimento da velha escola e de integração da UATN e testes e documentação e marketing e vendas. Enquanto no tipo que você está fazendo, acho que o que mais me interessa é pensar em alguns de seus últimos lançamentos na noite passada, realizando algum tipo de trabalho de pesquisa, você tem esse mix agora, onde competência de um ponto de vista de consultoria inicial e uma implementação, mas você também tem uma pilha na qual pode acumular. Acho que é aqui que os operadores enfrentam dificuldades por algum tempo. Já vimos muitos deles como eu vi no mercado. Eles costumam estar no que eu chamo de nós de recuperação, ao contrário do que você está dizendo quando está por aí, conversando e implementando.
Você pode nos dar alguns exemplos de algumas verticais de borda que você viu adoção? Por exemplo, existe realmente um ambiente muito agradável, como ciência de foguetes e colocação de satélites no espaço e coleta de dados de Marte. Há apenas um punhado de pessoas fazendo isso no planeta. Mas existem grandes setores verticais como saúde, por exemplo, na aeronáutica, na navegação e na logística, na manufatura e na engenharia, que são alguns exemplos dos setores industriais maiores e mais amplos que você já esteve até agora e que viu realmente bons adoção em?
Anand Venugopal: A Telco é um grande exemplo.
Vou corrigir rapidamente meus slides aqui. Você pode ver o slide aqui, estudo de caso 4?
É o caso de uma grande empresa de telecomunicações que ingere dados do decodificador e faz várias coisas com ele. Eles estão olhando para o que os clientes estão realmente fazendo em tempo real. Eles estão olhando para onde os erros estão acontecendo em tempo real nos decodificadores. Eles estão tentando informar o call center, se este cliente ligar agora, as informações do link de código do decodificador desse cliente, as informações do tíquete de manutenção correlacionam rapidamente se o decodificador desse cliente em particular tem ou não um problema antes o cliente fala uma palavra. Toda empresa de cabo, toda grande empresa de telecomunicações está tentando fazer isso. Eles ingerem os dados do decodificador, fazem análises em tempo real, fazem análises de campanhas para que possam colocar seus anúncios. Há um grande caso de uso.
Como eu disse, existe essa empresa de hipotecas que é novamente um padrão genérico no qual grandes sistemas estão envolvidos no processamento de dados. Os dados que fluem do sistema A para o sistema B e para o sistema C e são negócios regulamentados de que tudo precisa ser consistente. Muitas vezes, os sistemas ficam fora de sincronia, um sistema está dizendo: "Estou processando cem empréstimos com um valor total de US $ 10 milhões". O sistema está dizendo: "Não, estou processando 110 empréstimos de algum outro número diferente ”. Eles precisam resolver isso rapidamente, porque na verdade estão processando os mesmos dados e fazendo interpretações diferentes.
Seja um cartão de crédito, processamento de empréstimos, processo comercial ou seja, um processo comercial de hipotecas ou algo mais, estamos ajudando-os a correlacionar e reconciliar em tempo real para garantir que esses processos comerciais fiquem sincronizados. Esse é outro caso de uso interessante. Há um grande contratado do governo dos EUA que está analisando o tráfego DNS para fazer a detecção de anomalias. Há um modelo de treinamento offline que eles criaram e estão fazendo a pontuação com base nesse modelo no tráfego em tempo real. Alguns desses casos de uso interessantes. Há uma grande companhia aérea que olha filas de segurança e está tentando fornecer essas informações: “Ei, é o seu portão para o seu avião para o seu voo. A fila da TSA hoje é de cerca de 45 minutos versus duas horas versus outra coisa. ”Você recebe essa atualização antecipadamente. Eles ainda estão trabalhando nisso. Caso de uso de IoT interessante, mas ótimo caso de análise de streaming em direção à experiência do cliente.
Rebecca Jozwiak: Esta é Rebecca. Enquanto você está no assunto de casos de uso, há uma grande pergunta de um membro da platéia que está se perguntando: “Esses estudos de caso são essas iniciativas direcionadas pelo lado analítico dos sistemas de informação da casa ou elas são mais direcionadas a empresa que tem perguntas ou necessidades específicas em mente? "
Anand Venugopal: Eu acho que vemos cerca de 60%, aproximadamente 50% a 55%, iniciativas de tecnologia entusiasmadas e muito proativas que sabem, que são razoavelmente experientes e compreendem certos requisitos de negócios e provavelmente têm um patrocinador. identificadas, mas são equipes de tecnologia que se preparam para o ataque de casos de uso de negócios que chegam e, depois que desenvolvem a capacidade, sabem que podem fazer isso e depois vão aos negócios e vendem agressivamente. Em 30% a 40% dos casos, vemos que os negócios já têm um caso de uso específico que está implorando por um recurso de análise de streaming.
Rebecca Jozwiak: Isso faz sentido. Eu tenho outra pergunta um pouco mais técnica de um membro da platéia. Ele está se perguntando se esses sistemas suportam fluxos de dados estruturados e não estruturados, como sedimentos de fluxos do Twitter ou postagens do Facebook em tempo real, ou eles precisam ser inicialmente filtrados?
Anand Venugopal: Os produtos e tecnologias sobre os quais estamos falando iminentemente suportam dados estruturados e não estruturados. Eles podem ser configurados. Todos os dados têm algum tipo de estrutura, seja um texto ou XML ou qualquer outra coisa. Existe alguma estrutura em termos de existe um feed de carimbo de data / hora. Talvez haja outro blob que precise ser analisado para que você possa injetar análises no fluxo para analisar as estruturas de dados. Se estiver estruturado, basta dizer ao sistema: "Ok, se houver valores separados por vírgula e o primeiro for uma sequência, o segundo será uma data". Assim, podemos injetar essa inteligência de análise nas camadas da tela e processe facilmente dados estruturados e não estruturados.
Rebecca Jozwiak: Eu tenho outra pergunta da platéia. Eu sei que corremos um pouco além do topo da hora. Esse participante quer saber, parece que os aplicativos de streaming em tempo real podem estar desenvolvendo uma necessidade e uma oportunidade de integrar novamente em sistemas de transações, sistemas de prevenção de fraudes que eles trazem, por exemplo. Nesse caso, os sistemas de transações precisam ser aprimorados para se ajustarem a isso?
Anand Venugopal: É uma fusão, certo? É uma mescla de sistemas de transações. Às vezes, eles se tornam a fonte de dados, onde analisamos transações em tempo real e, em muitos casos, onde digamos que há um fluxo de aplicativo, aqui estou tentando mostrar um site de pesquisa de dados estático e, no caso, onde algum tipo de streaming e você está pesquisando um banco de dados estático como um HBase ou um RDBMS para enriquecer os dados de streaming e os dados estáticos juntos para tomar uma decisão ou uma visão analítica.
Há também outra grande tendência do setor - a convergência de OLAP e OLTP - e é por isso que você tem bancos de dados como Kudu e bancos de dados em memória que suportam transações e processamento analítico ao mesmo tempo. A camada de processamento de fluxo estaria inteiramente na memória e veremos ou faremos uma interface com alguns desses bancos de dados transacionais.
Rebecca Jozwiak: A carga de trabalho mista foi um dos últimos obstáculos a superar, eu acho. Dez, Robin, vocês dois têm mais perguntas?
Dez Blanchfield: Vou pular para uma última pergunta e concluir se você não se importa. O primeiro desafio com o qual as organizações com as quais tenho lidado na última década mais ou menos levou a esse empolgante desafio da análise de fluxo, a primeira coisa que elas tendem a colocar de volta na mesa quando começamos a conversa sobre todo esse desafio é onde nós adquirimos o conjunto de habilidades? Como treinamos novamente o conjunto de habilidades e como obtemos essa capacidade internamente? Ter o Ímpeto entrando e saindo de mãos dadas nos acompanha durante a jornada e, em seguida, implementado como um grande primeiro passo, e faz muito sentido fazer isso.
Mas para organizações de médio e grande porte, quais são os tipos de coisas que você está vendo no momento para se preparar para isso, desenvolver essa capacidade internamente, obter qualquer coisa com apenas um vocabulário básico e que tipo de mensagem eles podem fazer a organização em torno da transição para esse tipo de estrutura e a reformulação da equipe técnica existente da TI pelo CEO, para que eles possam executar isso sozinhos depois que você a criar e implementar? Resumidamente, que tipo de desafios e como eles estão resolvendo-os, os clientes com os quais você está lidando, os tipos de desafios que encontraram e como passam a resolver essa reciclagem e recuperar a experiência e o conhecimento para se preparar para isso e ser capaz de circular operacionalmente?
Anand Venugopal: Muitas vezes, o pequeno grupo de pessoas que estão tentando comprar uma plataforma de análise de streaming já é razoavelmente inteligente, pois conhecem o Hadoop, já adquiriram suas habilidades no Hadoop MapReduce e porque estão trabalhando em estreita colaboração com o Hadoop fornecedor de distribuição, eles são familiares. Tudo está ficando Kafka, por exemplo. Eles estão fazendo algo com isso e o streaming Storm ou Spark está em seu domínio de código aberto. Definitivamente, as pessoas estão familiarizadas com isso ou desenvolvendo habilidades em torno dele. Mas começa com um pequeno conjunto de pessoas que são habilidosas o suficiente e inteligentes o suficiente. Eles estão participando de conferências. Eles estão aprendendo e fazem perguntas inteligentes aos fornecedores e, em alguns casos, aprendem com os fornecedores. Como os fornecedores estão chegando e se apresentando na primeira reunião, eles podem não saber das coisas, mas co-leem e começam a brincar.
Esse pequeno grupo de pessoas é o núcleo e começa a crescer, e agora todos percebem que o primeiro caso de uso de negócios é operacionalizado. Começa uma onda e vimos na cúpula do Spark na semana passada, onde uma grande empresa como a Capital One estava lá fora e com força total. Eles estavam optando pelo Spark. Eles estavam falando sobre isso. Eles estão educando muitas pessoas no Spark, porque estão contribuindo para isso também em muitos casos como usuário. Vemos o mesmo em muitas e grandes empresas. Começa com um pequeno conjunto de pessoas muito inteligentes e, em seguida, inicia uma onda de educação geral, e as pessoas sabem que uma vez que um vice-presidente sênior ou um diretor sênior está alinhado, eles querem apostar nessa coisa e a palavra se espalha e todos eles começam a aprender essas habilidades.
Dez Blanchfield: Tenho certeza de que você também se diverte construindo esses campeões.
Anand Venugopal: Sim. Nós treinamos muito enquanto trabalhamos com os campeões iniciais e realizamos cursos de treinamento e muitos, muitos deles para nossos grandes clientes, voltamos e tivemos ondas e ondas de treinamento para trazer muitos usuários para a fase de uso principal, especialmente no site do Hadoop MapReduce. Descobrimos que em uma grande empresa de cartão de crédito que é nossa cliente, oferecemos pelo menos cinco a oito programas de treinamento diferentes. Também temos edições gratuitas para a comunidade de todos esses produtos, incluindo os nossos, caixas de areia que as pessoas podem baixar, se acostumar e se educar dessa maneira também.
Dez Blanchfield: É tudo o que tenho esta manhã para você. Muito obrigado. Acho incrivelmente interessante ver os tipos de modelos e casos de uso que você tem hoje para nós. Obrigado.
Anand Venugopal: Ótimo. Muito obrigado pessoal.
Rebecca Jozwiak: Obrigado a todos por se juntarem a nós neste webcast da Hot Technologies. Foi fascinante ouvir Dez Dezanchanchfield, Dr. Robin Bloor e Impetus Technologies, Anand Venugopal. Obrigado, apresentadores. Obrigado oradores e obrigado público. Temos outras tecnologias quentes no próximo mês, então procure por isso. Você sempre pode encontrar nosso conteúdo arquivado em Insideanalysis.com. Também colocamos muito conteúdo no SlideShare e alguns trechos interessantes no YouTube.
Isso é tudo, pessoal. Mais uma vez obrigado e tenha um bom dia. Tchau tchau.