Por Techopedia Staff, 22 de setembro de 2016
Takeaway: A apresentadora Rebecca Jozwiak discute as análises de borda com o Dr. Robin Bloor, Dez Blanchfield e Shawn Rogers da Dell Statistica.
No momento, você não está logado. Faça o login ou inscreva-se para ver o vídeo.
Rebecca Jozwiak: Senhoras e Senhores Deputados, olá, e sejam bem-vindos às Hot Technologies de 2016. Hoje temos o “Edge Analytics: enfim a economia da Internet das coisas.” Meu nome é Rebecca Jozwiak. Serei seu moderador do webcast de hoje. Nós twittamos com uma hashtag # HOTTECH16 se você quiser participar da conversa no Twitter.
Portanto, a IoT, definitivamente um tópico importante deste ano e a Internet das coisas, é realmente sobre os dados da máquina, dados do sensor, dados de log, dados do dispositivo. Nenhuma delas é nova, tivemos esse tipo de dados para sempre, mas é que realmente não conseguimos usá-los e agora estamos vendo várias novas maneiras de usar esses dados. Particularmente na indústria médica, os mercados financeiros, com petróleo e gás, commodities, são apenas uma riqueza de informações que antes eram inexploradas. E poucas pessoas realmente entenderam bem como fazer isso. Estamos falando de muitos poucos dados, mas são muitos dados e, você sabe, há problemas de rede envolvidos, hardware envolvido ou precisa ser processado, e como você faz isso sem entupir o sistema? Bem, é sobre isso que vamos aprender hoje.
Aqui está a nossa linha de especialistas. Temos o Dr. Robin Bloor, nosso analista-chefe no The Bloor Group. Também temos Dez Blanchfield, nosso cientista de dados do The Bloor Group. E estamos felizes por ter Shawn Rogers, diretor de marketing global e canais da Dell Statistica. E com isso, vou passar a bola para Robin.
Dr. Robin Bloor: Ok, obrigado por isso. Vou apertar um botão e vomitar um slide. Não faço ideia por que criei essa imagem apocalíptica para a internet das coisas. Possivelmente porque acho que vai ficar caótico no final. Eu vou seguir em frente. Este é o par para o curso em qualquer apresentação da IoT. Você tem que, de uma maneira ou de outra, dizer algo ultrajante sobre onde tudo está indo. E, na verdade, a maior parte disso é provavelmente verdade. Se você realmente observar como essas curvas estão se expandindo gradualmente. Você sabe, computadores pessoais, smartphones e tablets provavelmente continuarão aumentando. As TVs inteligentes provavelmente aumentarão. Wearables, eles provavelmente estão explodindo agora, em comparação com o que eram há alguns anos atrás. Carros conectados, inevitável que praticamente todos os carros sejam conectados amplamente e transmitindo dados o tempo todo. E qualquer outra coisa. E esse gráfico específico da BI Intelligence indica que todo o resto superará as coisas óbvias muito, muito rapidamente.
Então, o que dizer sobre a IoT? A primeira coisa é apenas um ponto arquitetônico. Sabe, quando você tem dados e está processando você, de uma forma ou de outra, terá que juntar os dois. E com os dados nos volumes atuais e reunidos em vários lugares, os dois não estão mais naturalmente juntos. Eles costumavam estar nos velhos tempos do mainframe, eu acho. Então você pode pensar em termos de haver uma camada de processamento, uma camada de transporte e uma camada de dados. De uma maneira ou de outra, a camada de transporte hoje em dia moverá o processamento ou moverá os dados pelas redes. Então, aqui estão as opções: Você pode mover os dados para o processamento, você pode mover o processamento para os dados, você pode mover o processamento e os dados para um ponto de execução conveniente, ou você pode fragmentar o processamento e fragmentar os dados. E no que diz respeito à Internet das coisas, os dados já estão praticamente fragmentados no nascimento e a probabilidade é que grande parte do processamento seja fragmentada para que os aplicativos que precisam ser executados possam ocorrer.
Então eu pintei uma imagem. O interessante para mim sobre a IoT, falo sobre um domínio de agregação neste diagrama e aponto que existem subdomínios. Portanto, você pode imaginar que o domínio IoT 1 aqui é algum tipo de carro, e o domínio 2, domínio 3 e domínio 4 são carros de algum tipo, e você agregará dados localmente, executará aplicativos locais nesses dados e você colocará várias coisas em ação. Mas, para ter análises sobre todos os carros, você precisará transferir dados para o centro, não necessariamente todos os dados, mas precisará agregar no centro. E se você pensar sobre isso, convém ter muitos domínios de agregação diferentes para o mesmo conjunto de itens de IoT. E os próprios domínios podem se agregar ainda mais. Então você pode ter essa hierarquia de repetição. E basicamente o que temos lá é uma rede incrivelmente complexa. Muito mais complexo do que qualquer coisa que tínhamos que ter antes.
Eu tenho uma nota aqui embaixo. Todos os nós da rede, incluindo nós folha, podem ser criadores de dados, armazenamentos de dados e pontos de processamento. E isso lhe dá uma possibilidade de distribuição, algo que nunca vimos antes. Dez vai falar um pouco mais sobre isso, então vou passar para esse ponto em particular. Uma vez que estamos na Internet das coisas e todos os dados realmente se transformaram em eventos, o objetivo deste slide é apenas indicar que precisaremos padronizar os eventos. Teremos que, no mínimo, ter que ter isso. Teremos a hora em que o evento ocorreu, a localização geográfica em que ocorreu, a localização virtual ou lógica do processo que o criou, o dispositivo de origem que o criou, o ID do dispositivo para que você saiba exatamente qual dispositivo de origem o criou, propriedade dos dados e atores, aquelas pessoas que têm o direito de usar os dados de uma maneira ou de outra, terão que carregar suas permissões com eles, o que significa que, na verdade, terão que carregar segurança com eles, e então há os dados em si. E quando você olha para isso, percebe que, mesmo que você tenha um sensor que não está fazendo nada além de relatar a temperatura de algo a cada segundo ou mais, na verdade existem muitos dados apenas para identificar exatamente onde os dados originou e o que realmente é. A propósito, esta não é uma lista exaustiva.
Portanto, em termos do futuro cenário de TI, da maneira que eu vejo, é este: que não é apenas a Internet das coisas, também há o fato de que estaremos em um mundo de atividades orientadas a eventos e, portanto, terá que ter arquiteturas orientadas a eventos, e essas arquiteturas terão que abranger grandes redes. E a outra coisa é tudo em tempo real, não é necessariamente o caso de termos tempo real, mas há algo a que me refiro como tempo comercial, que é o tempo em que os dados realmente precisam ser disponibilizados e prontos processado. Talvez não seja um milésimo de segundo após a criação. Mas sempre existe um tempo para cada dado e, quando você tem uma arquitetura orientada a eventos, torna-se mais sensato pensar em termos de uma abordagem em tempo real da maneira como o mundo funciona.
Então, resumindo, porque na verdade estamos falando de análises na IoT. Apesar de tudo isso, ainda é hora de entender, e não é apenas hora de entender, o insight precisa ser seguido por ações. Então, tempo para compreender e tempo para agir é o que eu resumiria. Dito isto, vou passar a bola de volta para Dez.
Dez Blanchfield: Obrigado, Robin. Perspicaz como sempre. Adoro o fato de que é difícil seguir todas as instâncias, mas farei o meu melhor.
Uma das coisas que estou vendo, e com frequência me divirto com isso, para ser honesto, e não de uma forma dissimulada e negativa, mas há muita preocupação e pânico com a Internet sobre coisas que estão dominando o mundo e nos entalhando e você começará a perder seus dados, então eu quero dar uma olhada em algumas das coisas que fizemos antes nas últimas duas a três décadas que eram um fac-símile próximo à Internet de coisas, mas talvez não na mesma escala. E apenas para nos mostrar que realmente estivemos aqui e resolvemos alguns dos problemas, não neste nível de escala e nem nessa velocidade. Porque significa que podemos realmente resolver o problema e que sabemos quais são algumas das respostas; nós apenas precisamos nos agachar e reaplicar alguns dos aprendizados que tivemos antes. E eu sei que essa é toda a conversa que estamos prestes a ter e eu tenho uma série de coisas divertidas apenas para conversar na seção de perguntas e respostas.
Mas quando pensamos na Internet das coisas no círculo, há muita centralização atualmente em um nível de design que foi escrito nos primeiros dias. Os dispositivos Fitbit, por exemplo, tendem a ir para um local central e é provável que estejam hospedados em uma plataforma em nuvem em algum lugar e todos os dados de todos esses dispositivos atinjam o mesmo, digamos, front end de uma pilha, incluindo web e aplicativos e serviços baseados em dados. Mas, com o tempo, essa escala exigirá uma reengenharia para lidar com a quantidade de dados que está chegando e eles serão reprojetados para que haja vários front-ends e várias cópias da pilha em vários locais e regiões. E estamos vendo isso e há vários exemplos que vou dar a você que podemos discutir.
O ponto principal disso é que, apesar de termos visto algumas dessas soluções que estou prestes a abordar, a escala e o volume dos dados e o tráfego de rede que a Internet das coisas irá gerar exigem urgentemente uma mudança da central para arquiteturas distribuídas em minha opinião, e sabemos disso, mas não entendemos necessariamente qual é a solução. Quando pensamos no conceito do que é a internet das coisas, é um modelo de rede em larga escala. São muitas e muitas coisas que agora estão fazendo barulho. Coisas que não faziam barulho até recentemente. Na verdade, acho que foi ontem, eu estava brincando falando sobre a pilha, mas fui comprar uma nova torradeira e ela veio com uma opção que poderia me dizer várias coisas, inclusive quando precisava de limpeza. E um novo micro-ondas com um recurso muito semelhante e poderia até mesmo executar ping em um aplicativo no meu telefone para dizer que o que eu estava reaquecendo estava pronto. E tenho muita opinião de que, se há algumas coisas que não quero falar comigo, é minha geladeira, micro-ondas e torradeiras. Estou bastante confortável com eles sendo burros. Mas eu tenho um carro novo recentemente, um pouco de Audi, e ele fala comigo e estou bastante satisfeito com isso, porque as coisas sobre as quais ele fala são interessantes. Como atualizar mapas em tempo real para me dizer onde há uma rota melhor para ir do ponto A ao ponto B porque ele detectou tráfego através de vários mecanismos com os dados enviados.
Eu tenho esse slide. Já vimos que os modelos de rede de alto volume exigem uma mudança da captura central e da distribuição distribuída de modelos de processamento e análise de dados. Vimos coisas se moverem dos três pequenos diagramas gráficos lá na borda direita onde temos, o da esquerda dos três, há um modelo centralizado com todos os pequenos dispositivos chegando ao local central e coletar dados e a escala não é tão boa, eles lidam muito bem lá. No meio, temos um modelo e hub um pouco mais descentralizados e falamos, que é o que acho que vamos precisar com a Internet das coisas na próxima geração. E então, no lado direito, temos essa rede totalmente distribuída e em malha, que é onde a Internet das coisas e a máquina-a-máquina irão no curto prazo no futuro, mas não estamos completamente lá por uma série de razões. E predominantemente porque estamos usando plataformas da Internet para a maioria das comunicações até agora e ainda não construímos uma segunda rede para transportar muitos desses dados.
Já existem redes secundárias, como a rede Batelco. Muitas pessoas não pensam no fato de que as redes de telecomunicações não são Internet. A internet é uma coisa muito separada de várias maneiras. Eles estão encaminhando dados de smartphones pelas redes telefônicas, e depois pelas redes telefônicas e para a Internet em geral, onde os estão deitando em duas redes. Mas é inteiramente possível e provável que a Internet das coisas precise de outra rede. Falamos sobre a Internet industrial como um tópico em geral, o qual não entraremos em detalhes agora, mas essencialmente estamos falando de outra rede projetada especificamente para os tipos de transporte de dados ou Internet das coisas e de máquina para máquina comunicação.
Mas alguns dos exemplos que eu queria compartilhar em que vimos redes de alto volume e dados distribuídos funcionarem muito bem são coisas como a Internet. A internet foi projetada e arquitetada especificamente desde o primeiro dia para ser capaz de sobreviver a uma guerra nuclear. Se partes dos EUA forem explodidas, a Internet foi projetada para que os dados pudessem se mover pela Internet sem perda de pacotes por motivos de que ainda estamos conectados. E isso ainda existe hoje em escala global. A internet possui vários recursos em torno de pacotes de redundância e roteamento. De fato, a Internet é controlada por uma coisa chamada BGP, Border Gateway Protocol, e o Border Gateway Protocol, BGP, é projetado especificamente para lidar com roteadores, switches ou servidores inativos. Quando você envia ou recebe um email, se você enviar três emails seguidos, não há garantia de que cada um desses emails seguirá a mesma rota para o mesmo destino final. Eles podem percorrer diferentes partes da internet por vários motivos. Pode haver uma interrupção, pode haver janelas de manutenção onde as coisas estão offline para serem atualizadas, pode haver apenas um congestionamento na rede, e vemos isso com coisas como redes de tráfego com carros e transportes públicos e navios e aviões. Obtemos conteúdo para nossos dispositivos, como laptops, tablets e computadores por meio de navegadores e assim por diante todos os dias por meio de redes de entrega de conteúdo. As redes de entrega de conteúdo tratam de tirar cópias de conteúdo da plataforma principal de veiculação, como o servidor da Web, e mover cópias disso e do cache em pequenas quantidades para a borda da rede e entregá-lo apenas a partir da parte mais próxima da borda.
Anti-spam e segurança cibernética - se um evento de spam ocorrer no Canadá e a Microsoft o detectar e verificar que há muitas cópias do mesmo email sendo enviadas para um grupo de pessoas aleatórias, as somas de verificação são feitas, uma assinatura para essa mensagem é criado e colocado em rede e distribuído imediatamente. E para que o e-mail nunca chegue à minha caixa de entrada ou, em caso afirmativo, ele será marcado como spam imediatamente porque foi detectado em algum outro lugar na borda da rede. Assim, outras partes da borda da rede são informadas sobre essa assinatura de mensagem de spam e é inserida no índice de um banco de dados. Se essas mensagens começarem a aparecer no outro lado do planeta, as detectamos e sabemos que são spam. E o mesmo se aplica à segurança cibernética. Um hack que está ocorrendo em um lado do planeta é detectado, registrado e mapeado e, de repente, na outra parte da rede, podemos combatê-lo, arquivar as regras e políticas e mudar para ver se podemos bloqueá-lo. Particularmente com o novo impacto de coisas como negação de serviço ou negação de serviço distribuída, onde milhares de máquinas são usadas para atacar um site central.
Bitcoin e blockchain, por padrão, são, por natureza, um livro distribuído, o blockchain e lida com quaisquer interrupções ou quebras na rede. Detecção e prevenção de fraudes, concessionárias de energia e água - estamos vendo, você sabe a rede de energia, se uma parte da rede cair em uma árvore e derrubar um poste e um fio, minha casa ainda terá energia. Eu nem sei disso, muitas vezes nem vejo isso nas notícias. E todos nós estamos acostumados às redes de transporte onde originalmente havia um modelo centralizado, "Todas as estradas levam a Roma", como eles dizem, e eventualmente tivemos que ir para o modelo descentralizado com hubs e raios, e depois fomos para uma rede em malha onde você pode ir de um lado da cidade para o outro por várias rotas e diferentes cruzamentos. E, portanto, o que vemos aqui é que esse modelo centralizado do que estamos fazendo agora com a Internet das coisas terá que chegar aos limites da rede. E isso se aplica à análise mais do que nunca, e é isso que precisamos colocar a análise na rede. E, para isso, requer uma abordagem completamente nova na maneira como acessamos e processamos esses dados e os fluxos de dados, na minha opinião. Estamos falando de um cenário agora em que acredito que vemos uma inteligência limitada empurrada para a borda da rede em dispositivos conectados à Internet, mas em breve veremos esses dispositivos aumentarem sua inteligência e aumentarem o nível de análise que desejam façam. E como resultado disso, precisaremos levar esses conhecimentos mais e mais longe através da rede.
Por exemplo, aplicativos inteligentes e mídias sociais - se pensarmos nas mídias sociais e em alguns aplicativos inteligentes, eles ainda são muito centrais. Você sabe, existem apenas dois ou três data centers para pessoas como o Facebook. O Google ficou muito mais descentralizado, mas ainda há um número limitado de data centers em todo o mundo. Então, quando pensamos em personalização de conteúdo, você precisa pensar em um nível muito local. Muito disso está sendo feito no seu navegador ou em uma camada de rede de entrega de conteúdo local. E pensamos nos rastreadores de saúde e condicionamento físico - muitos dados que estão sendo coletados deles são analisados localmente e, portanto, as novas versões dos dispositivos Garmin e Fitbit que você coloca no pulso, tornam-se cada vez mais inteligentes no dispositivo . Agora, eles não enviam todos os dados sobre sua frequência cardíaca de volta a um servidor centralizado para tentar realizar as análises; eles estão construindo essa inteligência diretamente no dispositivo. Navegação no carro, costumava ser que o carro recebia constantemente atualizações e mapas de um local central, agora a inteligência está no carro e o carro está tomando decisões por si só e, eventualmente, os carros se engrandecem. Os carros conversarão entre si por meio de redes sem fio de alguma forma, que podem ser através de uma rede sem fio 3G ou 4G na próxima geração, mas eventualmente serão de dispositivo para dispositivo. E a única maneira de lidar com o volume disso é tornar os dispositivos mais inteligentes.
Já temos sistemas de aviso de emergência que coletam informações localmente e as enviam centralmente ou em uma rede mesh e tomam decisões sobre o que está acontecendo localmente. Por exemplo, no Japão, existem aplicativos que as pessoas executam em seus smartphones com acelerômetros no smartphone. Os acelerômetros do smartphone detectam vibrações e movimentos e podem determinar a diferença entre o movimento cotidiano normal e os tremores e choques de um terremoto. E esse telefone começará a alertá-lo imediatamente, localmente. O aplicativo atual sabe que detecta terremotos. Mas ele também compartilha esses dados por meio de uma rede em um hub distribuído e fala o modelo, para que as pessoas próximas a você sejam avisadas imediatamente ou o mais rápido possível, à medida que os dados fluem pela rede. E, finalmente, quando chega a um local central ou a uma cópia distribuída do local central, ele envia de volta para pessoas que não estão na área imediata, que não detectaram o movimento do planeta, mas precisam ser avisadas disso porque talvez um tsunami esteja chegando.
E infraestrutura de cidade inteligente - o conceito de infraestrutura inteligente, já estamos construindo o intelecto em edifícios e infraestrutura inteligentes. De fato, ontem estacionei meu carro na cidade em uma nova área onde parte da cidade estava sendo reformada e reconstruída. E eles refizeram todas as ruas, e há sensores nas ruas, e o parquímetro real sabe que quando eu dirijo com um carro, ele sabe que quando vou atualizar o limite de duas horas que o carro não se mexeu e, na verdade, não me deixou carregar e ficar por mais duas horas. Eu tive que entrar no carro, sair do espaço e depois recuar para enganá-lo para me permitir ficar lá por mais duas horas. Mas o interessante é que, eventualmente, estamos indo para o ponto em que não estamos apenas detectando o carro entrando na área como um sensor localizado, mas coisas como características ópticas nas quais o reconhecimento será aplicado com as câmeras que olham para minha placa, e ele saberá que eu simplesmente me afastei, recuei e o enganei, e isso não me deixa renovar e vou seguir em frente. E então distribuirá esses dados e garantirá que eu não possa fazer isso em nenhum outro lugar, além de enganar a rede continuamente. Porque tem que, por natureza, ficar mais inteligente, caso contrário, todos continuaremos a enganá-lo.
Há um exemplo disso em que, na verdade, eu vivi pessoalmente na tecnologia de firewall, no final dos anos 80 e início dos anos 90, um produto chamado Check Point FireWall-1. Uma tecnologia de firewall muito simples que usamos para criar regras e criar políticas e regras em torno de certas coisas, para dizer que tipos de tráfego através de certas portas e endereços IP e redes para obter um do outro, o tráfego da Web de um lugar para outro, indo do final do navegador e do cliente para o final do nosso servidor. Resolvemos esse problema retirando a lógica dos próprios firewalls e movendo-a para o ASIC, o circuito integrado específico do aplicativo. Ele estava controlando as portas nos comutadores Ethernet. Descobrimos que os computadores servidores, os computadores que estávamos realmente usando como servidores para tomar decisões como firewalls, não eram poderosos o suficiente para lidar com o volume de tráfego passando por eles em cada pequena inspeção de pacote. Resolvemos o problema movendo a lógica necessária para fazer a inspeção de pacotes e as detecções da Internet nos comutadores de rede que foram distribuídos e capazes de lidar com o volume de dados passando pelo nível da rede. Não nos preocupamos com isso no nível centralizado dos firewalls, mudamos para os switches.
Por isso, pedimos aos fabricantes que construíssem a capacidade de introduzir caminhos, regras e políticas no comutador Ethernet para que, no nível real da porta Ethernet, e talvez muita gente na piscina não esteja familiarizada com isso, porque estamos todos vivendo em um mundo sem fio agora, mas era uma vez que tudo tinha que ser conectado via Ethernet. Agora, no nível da porta Ethernet, estávamos fazendo a inspeção de pacotes para verificar se os pacotes tinham permissão para passar para o comutador e para a rede. Parte disso é o que estamos resolvendo agora em torno desse desafio de capturar dados na rede, especificamente a partir dos dispositivos IRT, inspecionando-os e fazendo análises e, provavelmente, análises em tempo real para tomar decisões sobre eles. E parte disso é obter insights em inteligência de negócios e informações de como os humanos tomam melhores decisões e outras análises e desempenho para o nível de máquina para máquina em que os dispositivos estão conversando com os dispositivos e tomando decisões.
E essa será uma tendência que devemos resolver no futuro imediato, porque, se não o fizermos, acabaremos com esse dilúvio de barulho. E vimos no mundo dos big data, vimos coisas como lagos de dados se transformarem em pântanos de dados, que acabamos com uma avalanche de ruídos que ainda não descobrimos como resolver as análises de processamento de uma maneira centralizada. moda. Se não resolvermos esse problema, na minha opinião, com a IoT imediatamente e obtermos rapidamente uma solução de plataforma, acabaremos em um lugar muito, muito ruim.
E com isso em mente, vou encerrar meu argumento de que acredito que uma das maiores mudanças que estão ocorrendo no espaço de big data e analytics agora está sendo impulsionada pela necessidade imediata de reagir ao impacto da Internet das coisas em análises de alto volume e em tempo real, pois precisamos mover as análises para a rede e, eventualmente, para a borda da rede, apenas para lidar com o grande volume dela, apenas para processá-las. E, finalmente, esperamos colocar a inteligência na rede e nos limites da rede em um modelo de hub e spoke, para que possamos realmente gerenciá-la e obter insights em tempo real e obter valor dela. E com isso vou passar para o nosso convidado e ver aonde essa conversa nos leva.
Shawn Rogers: Muito obrigado. Este é Shawn Rogers, da Dell Statistica, e garoto, só para começar, concordo totalmente com todos os principais tópicos que foram abordados aqui. E Rebecca, você começou com uma idéia da ideia de que esses dados não são novos e é notável para mim quanto tempo e energia são gastos discutindo os dados, os dados, os dados da IoT. E certamente é relevante, você sabe, Robin fez um bom argumento, mesmo se você estiver fazendo algo realmente simples e estiver usando um termostato uma vez por segundo, você faz isso 24 horas por dia e realmente tem, você sabe, alguns desafios interessantes de dados. Mas, no final das contas - e acho que muitas pessoas na indústria estão falando sobre os dados dessa maneira - isso não é realmente tão interessante e, para Rebecca, já faz um bom tempo, mas no passado, não conseguimos fazer bom uso disso. E acho que o setor de análise avançada e o setor de BI em geral estão começando a realmente virar a cabeça para a IoT. E Dez, no seu ponto final, sendo parte ou um dos pontos desafiadores do cenário de big data que eu acho muito verdadeiro. Acho que todo mundo está muito empolgado com o que podemos fazer com esse tipo de dados, mas, ao mesmo tempo, se não conseguirmos descobrir como aplicar insights, tomar medidas e, você sabe, obter análises onde estão os dados, acho teremos desafios que as pessoas não vêem realmente chegando.
Com isso dito, no espaço de análise avançada, somos grandes fãs do que achamos que pode acontecer com os dados da IoT, especialmente se estamos aplicando análises a eles. E há muita informação neste slide, e deixarei todo mundo caçar e bisbilhotar, mas se você olhar para diferentes setores, como o varejo da extrema direita, está vendo a oportunidade deles surgindo, para poder ser mais inovador ou ter algum economia de custos, otimização ou aprimoramento de processos é muito importante e eles estão vendo muitos casos de uso para isso. Se você olhar, da esquerda para a direita no slide, verá como cada um desses setores individuais está reivindicando novos recursos e novas oportunidades de diferenciação quando aplica a análise à IoT. E acho que a questão é: se você tentar seguir esse caminho, precisará não apenas se preocupar com os dados, como discutimos, e com a arquitetura, mas também com a melhor forma de aplique as análises a ela e onde elas precisam ocorrer.
Para muitos de nós na ligação de hoje, Robin e eu nos conhecemos há muito tempo e tivemos inúmeras conversas sobre arquiteturas tradicionais no passado, aquelas em torno de bancos de dados centralizados ou data warehouses corporativos e assim por diante. Ao longo da última década, descobrimos que fazemos um bom trabalho ao estender as limitações dessas infra-estruturas. E eles não são tão firmes ou fortes como gostaríamos que eles fossem hoje para apoiar todas as ótimas análises que estamos aplicando às informações e, claro, as informações estão quebrando a arquitetura também, você sabe, a velocidade dos dados, o volume de dados e assim por diante estão definitivamente ampliando as limitações de algumas de nossas abordagens e estratégias mais tradicionais para esse tipo de trabalho. Então acho que começa a exigir que as empresas adotem um ponto de vista mais ágil e talvez mais flexível, e essa é a parte, eu acho, que gostaria de falar um pouco sobre o lado da IoT.
Antes de fazer isso, levarei um momento apenas para permitir que todos atendam, com um pouco de conhecimento sobre o que é o Statistica e o que fazemos. Como você pode ver no título deste slide, o Statistica é uma análise preditiva, big data e visualização para a plataforma IoT. O produto em si tem pouco mais de 30 anos e competimos com os outros líderes do mercado com os quais você provavelmente conhece, na linha de capacidade de aplicar análises preditivas e análises avançadas aos dados. Vimos uma oportunidade de expandir nosso alcance de onde estávamos colocando nossas análises e começamos a trabalhar em algumas tecnologias há algum tempo, que nos posicionaram bastante bem para aproveitar o que tanto Dez e Robin falaram hoje, que é essa nova abordagem e onde você colocará as análises e como as mesclará com os dados. Nesse lado, há outras coisas que você precisa resolver com a plataforma e, como mencionei, o Statistica está no mercado há um bom tempo. Somos muito bons no lado da mistura de dados e acho que não falamos muito sobre o acesso a dados hoje, mas conseguimos acessar essas diversas redes e colocar as mãos nos dados corretos no o momento certo está se tornando cada vez mais interessante e importante para os usuários finais.
Por fim, vou comentar mais uma peça aqui, porque Dez fez um bom argumento sobre as próprias redes, tendo algum nível de controle e segurança sobre os modelos analíticos em todo o ambiente e como eles se ligam aos dados se tornando muito importantes. Quando entrei nesse setor alguns anos atrás - quase 20 acho que neste momento - quando conversamos sobre análises avançadas, era de uma maneira muito curadora. Apenas duas pessoas na organização tiveram suas mãos nela, elas a implantaram e deram às pessoas a resposta conforme necessário ou forneceram insights conforme necessário. Isso está realmente mudando e o que vemos são muitas pessoas que estavam trabalhando com uma ou mais maneiras diversificadas e flexíveis de acessar os dados, aplicando segurança e governança aos dados e, em seguida, conseguindo colaborar com eles. Essas são algumas das coisas importantes que o Dell Statistica analisa.
Mas quero mergulhar no tópico que está um pouco mais próximo do título de hoje, como devemos abordar os dados provenientes da Internet das coisas e o que você pode querer procurar quando estiver procurando soluções diferentes. O slide que eu tenho na sua frente agora é o tipo de visão tradicional e Dez e Robin meio que tocaram nisso, você sabe, essa ideia de conversar com um sensor, seja um automóvel, uma torradeira ou uma turbina eólica, ou o que você tem, e depois mover esses dados da fonte de dados para a sua rede de volta para um tipo centralizado de configuração, como Dez mencionava. E ela funciona muito bem e muitas empresas entram no espaço da IoT originalmente começando a fazê-lo com esse modelo.
A outra coisa que surgiu, se você olhar para a parte inferior do slide, é essa ideia de usar outras fontes de dados tradicionais, aumentar os dados da IoT e, nesse tipo de núcleo, se o seu núcleo é um data center ou pode estar na nuvem, isso realmente não importa, você pegaria um produto como o Statistica e, em seguida, aplicaria análises nesse ponto e forneceria essas informações aos consumidores à direita. E acho que este é o jogo da mesa neste momento. Isso é algo que você precisa fazer e precisa ter uma arquitetura aberta o suficiente para uma plataforma de análise avançada e conversar com todas essas, diversas fontes de dados diversas, todos esses sensores e todos esses destinos diferentes onde você tem os dados. E acho que isso é algo que você precisa fazer e acho que é verdade que muitos líderes do mercado são capazes de fazer esse tipo de coisa. Aqui, no Statistica, falamos sobre isso como análise central. Vá buscar os dados, leve-os de volta ao núcleo, processe-os, adicione mais dados, se necessário ou se for vantajoso, faça suas análises e compartilhe essas informações para ação ou para obter informações.
E, portanto, acho que esses certamente são do ponto de vista de uma função, provavelmente todos concordamos que, você sabe, essa é a necessidade básica e todos precisam fazer isso. Onde começa a ficar interessante é que você tem grandes quantidades de dados, provenientes de diversas fontes de dados, como sensores IoT, como mencionei, seja um carro, uma câmera de segurança ou um processo de fabricação, começa a se tornar uma vantagem de poder fazer a análise onde os dados estão realmente sendo produzidos. E a vantagem para a maioria das pessoas, penso, quando começamos a mover a analítica do núcleo para o limite é essa capacidade de difundir alguns dos desafios de dados que estão acontecendo, e Dez e Robin provavelmente comentarão sobre isso no final hoje, mas acho que você deve ser capaz de monitorar e executar ações nos dados no limite, para que nem sempre seja necessário mover todos esses dados para a sua rede. Robin falou sobre isso nas suas, mais ou menos, as imagens de arquitetura que ele desenhou, onde você tem todas essas fontes diferentes, mas geralmente há algum ponto de agregação. O ponto de agregação que vemos com frequência é no nível do sensor, mas ainda mais no nível do gateway. E esses gateways existem como uma espécie de intermediário no fluxo de dados das fontes de dados antes de você voltar ao núcleo.
Uma das oportunidades que o Dell Statistica aproveitou é a nossa capacidade de exportar um modelo da nossa plataforma de análise avançada centralizada para poder pegar um modelo e depois executá-lo na borda em uma plataforma diferente, como um gateway ou dentro de um banco de dados ou o que você tem. E acho que a flexibilidade que isso nos dá é o que é realmente o ponto interessante da conversa de hoje: você tem isso em sua infraestrutura hoje? Você é capaz de mover uma analítica para onde os dados estão, em vez de apenas sempre mover os dados para onde suas análises estão? E isso é algo em que o Statistica se concentra há algum tempo e, quando você olhar mais de perto os slides, verá que há outra tecnologia na nossa empresa irmã, Dell Boomi. O Dell Boomi é uma plataforma de integração de dados e integração de aplicativos na nuvem e, na verdade, utilizamos o Dell Boomi como um dispositivo de tráfego para mover nossos modelos do Dell Statistica, através do Boomi e dispositivos de ponta. E achamos que essa é uma abordagem ágil que as empresas vão exigir, por mais que gostem da versão que mostrei a você um minuto atrás, que é o tipo de ideia central de mover dados dos sensores até o momento. Ao mesmo tempo, as empresas vão querer fazê-lo da maneira que estou descrevendo aqui. E as vantagens de fazer isso estão em alguns dos pontos que Robin e Dez fizeram, ou seja, você pode tomar uma decisão e agir na velocidade dos seus negócios? Você pode mover as análises de um lugar para outro e economizar tempo, dinheiro, energia e complexidade de mover constantemente esses dados de volta ao núcleo.
Agora sou o primeiro a dizer que alguns dos dados de borda sempre terão méritos suficientemente altos, onde faria sentido armazenar esses dados e mantê-los e trazê-los de volta para a sua rede, mas que análise de borda permitirá que você fazer é a capacidade de tomar decisões na velocidade em que os dados realmente estão chegando, certo? Que você é capaz de aplicar o insight e a ação a uma velocidade em que está o maior valor possível. E eu acho que isso é algo que todos nós vamos procurar quando se trata de utilizar análises avançadas e dados da IoT é essa oportunidade de se mover na velocidade dos negócios ou na velocidade que o cliente exige. Acho que nossa posição é que acho que você precisa ser capaz de fazer as duas coisas. E acho que, muito em breve e muito rapidamente, à medida que mais empresas estiverem analisando conjuntos de dados mais diversos, especialmente os do lado da IoT, começarão a analisar o espaço do fornecedor e exigir o que a Statistica é capaz de fazer. Que é implantar um modelo no núcleo, como tradicionalmente fazemos há muitos anos, ou implantá-lo em plataformas que talvez não sejam tradicionais, como um gateway de IoT, e ser capaz de pontuar e aplicar análises aos dados na borda conforme os dados são produzidos. E acho que é aí que entra a parte mais empolgante dessa conversa. Porque, ao poder aplicar uma analítica no limite no momento em que os dados saem de um sensor, nos permite agir o mais rápido possível, mas também nos permite decidir, esses dados precisam voltar ao núcleo imediatamente? Podemos colocá-lo em lote aqui e depois enviá-lo novamente em pedaços e partes e fazer análises posteriores mais tarde? E é isso que estamos vendo muitos de nossos principais clientes.
A maneira como o Dell Statistica faz isso é que temos a capacidade de utilizar, por exemplo, por exemplo, você constrói uma rede neural dentro do Statistica e deseja colocar a rede neural em outro lugar no seu cenário de dados. Temos a capacidade de produzir esses modelos e todas as linguagens que você notou no canto direito lá - Java, PPML, C e SQL e assim por diante, também incluímos o Python e também podemos exportar nossos scripts - e, à medida que você sai da nossa plataforma centralizada, você pode implantar esse modelo ou algoritmo sempre que precisar. E, como mencionei anteriormente, usamos o Dell Boomi para colocá-lo e estacioná-lo onde precisamos executá-lo e, em seguida, podemos trazer os resultados de volta, ou podemos ajudar a recuperar dados ou pontuá-los e tomar medidas utilizando nosso mecanismo de regras . Todas essas coisas se tornam importantes quando começamos a analisar esse tipo de dados e pensamos novamente.
Isso é algo que a maioria de vocês no telefone precisará fazer, porque ficará muito caro e sobrecarregará sua rede, como Dez mencionou, para mover dados da esquerda desses diagramas para a direita desses diagramas. Tempo. Não parece muito, mas vimos clientes de fabricação com dez mil sensores em suas fábricas. E se você tem dez mil sensores em sua fábrica, mesmo se você estiver fazendo estes um segundo tipo de testes ou sinais, estará falando de oitenta e quatro mil linhas de dados de cada um desses sensores individuais por dia. E então os dados definitivamente se acumulam e Robin meio que mencionou isso. Anteriormente, mencionei alguns dos setores em que vemos pessoas fazendo coisas interessantes usando nosso software e dados de IoT: automação predial, energia, serviços públicos é um espaço realmente importante. Vemos muito trabalho sendo feito na otimização do sistema, até mesmo no atendimento ao cliente e, claro, nas operações e manutenção gerais, dentro de instalações de energia e dentro de edifícios para automação. E esses são alguns casos de uso que vemos bastante poderosos.
Já fizemos análises de borda antes, acho, que o termo foi cunhado. Como mencionei, temos raízes profundas no Statistica. A empresa foi fundada há quase 30 anos, então temos clientes voltando há algum tempo que estão integrando dados da IoT com suas análises e já há algum tempo. E a Alliant Energy é um dos nossos casos de uso ou clientes de referência. E você pode imaginar o problema que uma empresa de energia tem com uma planta física. Escalar além das paredes de tijolo de uma planta física é difícil e, portanto, empresas de energia como a Alliant estão procurando maneiras de otimizar sua produção de energia, basicamente aprimorando seu processo de fabricação e otimizando-o para o nível mais alto. E eles usam o Statistica para gerenciar os fornos em suas plantas. E para todos nós que voltamos aos nossos primeiros dias na aula de ciências, todos sabemos que os fornos produzem calor, o calor produz vapor, as turbinas giram, obtemos eletricidade. O problema para empresas como a Alliant é realmente otimizar como as coisas esquentam e queimam nesses grandes fornos de ciclone. E otimizar a produção para evitar os custos extras de poluição, deslocamento de carbono e assim por diante. E, portanto, você deve poder monitorar o interior de um desses fornos de ciclone com todos esses dispositivos, sensores e, em seguida, coletar todos esses dados do sensor e fazer alterações no processo de energia continuamente. E é exatamente isso que a Statistica faz para a Alliant desde 2007, antes mesmo do termo IoT ser super popular.
Para o ponto de Rebecca desde o início, os dados certamente não são novos. A capacidade de processá-lo e usá-lo corretamente é realmente onde as coisas interessantes estão acontecendo. Hoje falamos um pouco sobre assistência médica na pré-chamada e estamos vendo todos os tipos de aplicativos para pessoas fazerem melhor atendimento ao paciente, manutenção preventiva, gerenciamento da cadeia de suprimentos e eficiência operacional na assistência médica. E isso é bastante contínuo e há muitos casos de uso diferentes. O que nos orgulha muito aqui na Statistica é o nosso cliente Shire Biofarmaceuticals. E a Shire fabrica medicamentos especiais para doenças realmente difíceis de tratar. E quando eles criam um lote de seus remédios para seus clientes, é um processo extremamente caro e esse processo extremamente caro também leva tempo. Quando você pensa em um processo de fabricação, vê que os desafios estão unificando todos os dados, sendo suficientemente flexíveis em diferentes maneiras de colocar dados no sistema, validando as informações e, em seguida, podendo ser preditivos sobre como ajudamos esse cliente. E os processos que extraíam a maioria das informações de nossos sistemas de fabricação e, é claro, os dispositivos e sensores que acionam esses sistemas de fabricação. E é um ótimo caso de uso de como as empresas estão evitando perdas e otimizando seus processos de fabricação usando uma combinação de dados de sensores, dados de IoT e dados regulares de seus processos.
Então, você sabe, um bom exemplo de onde a manufatura, e especialmente a manufatura de alta tecnologia, estão beneficiando o setor de assistência médica nesse tipo de trabalho e dados. Acho que tenho alguns outros pontos que gostaria de destacar antes de encerrar e devolvê-lo a Dez e Robin. Mas você sabe, acho que essa ideia de poder levar sua análise a qualquer lugar do seu ambiente é algo que se tornará extremamente importante para a maioria das empresas. Estar vinculado ao formato tradicional de dados ETL de fontes de volta para locais centrais sempre terá um lugar na sua estratégia, mas não deve ser sua única estratégia. Você precisa adotar uma abordagem muito mais flexível hoje. Para aplicar a segurança que eu mencionei, evite a tributação da sua rede, para poder gerenciar e filtrar os dados à medida que saem da borda e determinar quais dados valem a pena manter a longo prazo, quais dados valem a pena ser movidos à nossa rede ou que dados precisam ser analisados no momento em que são criados, para que tomemos as melhores decisões possíveis. Essa abordagem analítica em qualquer lugar e em qualquer lugar é algo que levamos muito a sério na Statistica e é algo em que somos muito proficientes. E remonta a um desses slides que mencionei anteriormente, a capacidade de exportar seus modelos em uma variedade de idiomas, para que eles possam corresponder e se alinhar às plataformas em que os dados estão sendo criados. E é claro que ter um dispositivo de distribuição para esses modelos também é algo que trazemos para a mesa e estamos muito animados. Acho que a conversa de hoje é que, se realmente levarmos a sério esses dados que estão em nossos sistemas há um bom tempo e gostaríamos de encontrar uma vantagem competitiva e um ângulo inovador para utilizá-los, é preciso aplicar alguma tecnologia que permite que você se afaste de alguns desses modelos restritivos que usamos no passado.
Novamente, o que quero dizer é que, se você quiser fazer a IoT, acho que você deve conseguir fazer isso no centro, trazer os dados e combiná-los com outros dados e fazer suas análises. Mas também, por mais importante que seja, ou talvez ainda mais importante, é necessário ter essa flexibilidade para colocar a analítica com os dados e mover a analítica do lado central da sua arquitetura para o limite das vantagens que mencionei antes. Isso é um pouco sobre quem somos e o que estamos fazendo no mercado. E estamos muito empolgados com a IoT, achamos que definitivamente está chegando à maioridade e há grandes oportunidades para todos aqui influenciarem suas análises e processos críticos com esse tipo de dados.
Rebecca Jozwiak: Shawn, muito obrigado, foi uma apresentação realmente fantástica. E eu sei que Dez provavelmente está morrendo de vontade de fazer algumas perguntas, então Dez, eu vou deixar você ir primeiro.
Dez Blanchfield: Eu tenho um milhão de perguntas, mas me contenho porque sei que Robin também terá. Uma das coisas que estou vendo em toda parte é uma pergunta que surge e estou realmente interessada em ter uma ideia da sua experiência nisso, já que você está bem no coração das coisas. As organizações estão lutando com o desafio, e parece que algumas delas acabaram de ler "A Quarta Revolução Industrial", de Klaus Schwab, e depois tiveram um ataque de pânico. E aqueles que não estão familiarizados com este livro, é essencialmente uma visão de um cavalheiro, de Klaus Schwab, que eu acho que é um professor, que é o fundador e Presidente Executivo do Fórum Econômico Mundial de memória, e o livro é essencialmente sobre toda essa onipresente internet das coisas explode e parte do impacto no mundo em geral. As organizações com as quais estou conversando não têm certeza se devem ou não modernizar o ambiente atual ou investir tudo na construção de todos os novos ambientes, infraestrutura e plataformas. Também no Dell Statistica, você está vendo pessoas atualizando os ambientes atuais e implantando sua plataforma na infraestrutura existente, ou está vendo eles mudarem o foco para criar toda a nova infraestrutura e se preparar para esse dilúvio?
Shawn Rogers: Você sabe, tivemos a oportunidade de atender aos dois tipos de clientes e, estando no mercado pelo tempo que temos, você tem essas oportunidades para se espalhar. Temos clientes que criaram novas fábricas fabulosas nos últimos anos e as equiparam com dados de sensores, IoT, análises de ponta a ponta, de ponta a ponta durante todo esse processo. Mas devo dizer que a maioria de nossos clientes são pessoas que fazem esse tipo de trabalho há algum tempo, mas foram forçadas a ignorar esses dados. Você sabe, Rebecca afirmou isso de imediato - esses dados não são novos, esse tipo de informação está disponível em vários formatos diferentes há muito tempo, mas onde o problema estava se conectando a eles, movê-lo, trazê-lo para um lugar onde você possa fazer algo inteligente com ele.
E então eu diria que a maioria dos nossos clientes está olhando para o que eles têm hoje, e Dez, você já mencionou isso anteriormente, que isso faz parte da revolução do big data e eu acho que realmente importa é que é tudo revolução de dados, certo? Não precisamos mais ignorar certos dados do sistema ou de fabricação ou de automação predial; agora temos os brinquedos e as ferramentas certas para obtê-lo e fazer coisas inteligentes com ele. E acho que há muitos drivers nesse espaço que estão fazendo isso acontecer e alguns deles são tecnológicos. Você sabe, as soluções de infraestrutura de big data, como o Hadoop e outras, tornaram um pouco mais barato e um pouco mais fácil para alguns de nós pensar em criar um data lake desse tipo de informação. E agora estamos analisando a empresa para dizer: "Ei, temos análises em nosso processo de fabricação, mas elas seriam aprimoradas se pudéssemos adicionar alguma percepção desses processos?" E acho que é isso que nossos clientes estão fazendo. Não é tanto criar desde o início, mas aumentar e otimizar as análises que eles já possuem com dados novos para eles.
Dez Blanchfield: Sim, algumas coisas interessantes estão surgindo em algumas das maiores indústrias que já vimos, e você mencionou, a energia e os serviços públicos. A aviação está passando por esse boom, onde um dos meus dispositivos favoritos de todos os tempos, dos quais falo regularmente, o Boeing 787 Dreamliner e, certamente, o equivalente da Airbus, o A330, seguiram o mesmo caminho. Havia cerca de seis mil sensores no 787 quando foi lançado pela primeira vez, e acho que agora eles estão falando de quinze mil sensores na nova versão. E o curioso de conversar com algumas pessoas que estão nesse mundo foi que a idéia de colocar sensores nas asas e assim por diante, e o incrível do 787 em uma plataforma de design é que, você sabe, eles reinventaram tudo o avião. Como as asas, por exemplo, quando o avião decola, as asas se flexionam até doze metros e meio. Mas em extremos as asas podem flexionar na ponta de até 25 metros. Essa coisa parece um pássaro batendo. Mas o que eles não tiveram tempo de consertar foi a engenharia das análises de todos esses dados, para que eles tenham sensores que fazem os LEDs piscarem em verde e vermelho se algo ruim acontecer, mas na verdade eles não acabam descobrindo profundamente tempo real. E eles também não resolveram o problema de como mover o volume de dados, porque no espaço aéreo doméstico nos EUA diariamente existem 87.400 voos. Quando todos os aviões alcançam suas aquisições de um 787 Dreamliner, são 43 petabytes por dia de dados, porque esses aviões atualmente criam cerca de meio terabyte de dados cada. E quando você multiplica esses 87.400 vôos por dia nos Estados Unidos por ponto cinco ou meio terabyte, acaba com 43, 5 petabytes de dados. Fisicamente, não podemos mudar isso. Então, por design, estamos tendo que inserir as análises no dispositivo.
Mas uma das coisas que é interessante quando eu olho para toda essa arquitetura - e estou ansioso para ver o que você pensa sobre isso - é que nos mudamos para o gerenciamento de dados mestre, mais ou menos os primeiros princípios de gerenciamento de dados, puxando tudo em uma localização central. Temos lagos de dados e, em seguida, criamos pequenos tanques de dados, se desejar, extratos daquilo em que fazemos análises, mas distribuindo até o limite, uma das coisas que continua surgindo, principalmente de pessoas de banco de dados e gerenciadores de dados ou pessoas no ramo de gerenciamento de informações, é o que acontece quando tenho muitos pequenos lagos de dados em miniatura distribuídos? Que tipo de coisa foi aplicada a esse pensamento em relação à análise de borda em sua solução, pois, tradicionalmente, tudo viria centralmente com o data lake, agora terminamos com essas pequenas poças de dados em todos os lugares, e mesmo que possamos realize análises localmente para obter algumas dicas locais, quais são alguns dos desafios que você enfrentou e como resolveu isso, tendo esse conjunto de dados distribuídos e, principalmente, quando você obtém os microcosmos de lagos de dados e áreas distribuídas?
Shawn Rogers: Bem, acho que esse é um dos desafios, certo? À medida que nos afastamos, você sabe, transportando todos os dados de volta para o local central ou para o exemplo analítico central que eu dei e depois fazemos a versão distribuída é que você acaba com todos esses pequenos silos, certo? Assim como você descreveu, certo? Eles estão trabalhando um pouco, algumas análises estão em execução, mas como você as reúne novamente? E acho que a chave será a orquestração em tudo isso e acho que vocês concordarão comigo, mas estou feliz se não concordarem, pois acho que estamos acompanhando essa evolução há bastante tempo. às vezes.
Voltando aos dias de nossos amigos, o Sr. Inmon e o Sr. Kimball, que ajudaram a todos com a arquitetura de seus primeiros investimentos em data warehouse, o ponto é que nos afastamos desse modelo centralizado por um longo tempo. Adotamos essa nova idéia de permitir que os dados demonstrem sua gravidade para onde deveriam residir melhor dentro do seu ecossistema e alinhar os dados com a melhor plataforma possível para o melhor resultado possível. E acho que começamos a gastar uma abordagem mais orquestrada do nosso ecossistema como uma maneira abrangente de fazer as coisas, como é onde estamos tentando alinhar todas essas peças ao mesmo tempo. Que tipo de trabalho analítico ou de trabalho vou fazer com os dados, que tipo de dados são, que ajudarão a ditar onde devem morar. Onde está sendo produzido e que tipo de gravidade os dados têm?
Sabe, vemos muitos desses exemplos de big data em que as pessoas estão falando em ter lagos de dados de 10 e 15 petabytes. Bem, se você tem um data lake tão grande, é muito impraticável movê-lo e, portanto, você deve poder trazer análises para ele. Mas quando você faz isso, é o cerne da sua pergunta que eu acho que gera muitos novos desafios para todos orquestrarem o ambiente e aplicarem governança e segurança, e entenderem o que precisa ser feito com esses dados para selecioná-lo e obtenha o maior valor possível. E para ser sincero com você - eu adoraria ouvir sua opinião aqui - acho que estamos nos primeiros dias lá e acho que ainda há muito trabalho bom a ser feito. Eu acho que programas como o Statistica estão focados em dar a mais pessoas acesso aos dados. Definitivamente, estamos focados nessas novas pessoas, como cientista de dados de cidadãos que desejam direcionar a análise preditiva para lugares dentro da organização que talvez não fossem antes. E acho que esses são alguns dos primeiros dias, mas acho que o arco da maturidade terá que demonstrar um alto nível ou orquestração e alinhamento entre essas plataformas, e uma compreensão do que está nelas e por quê. E esse é um problema antigo para todos nós, pessoal de dados.
Dez Blanchfield: De fato, eu concordo plenamente com você e acho que a melhor coisa que estamos ouvindo aqui hoje é pelo menos o front-end do problema de realmente capturar os dados no nível do gateway, eu acho. da rede e a capacidade de fazer análises nesse ponto estão essencialmente resolvidas agora. E isso agora nos liberta para realmente começarmos a pensar no próximo desafio, que são os lagos de dados distribuídos. Muito obrigado por isso, foi uma apresentação fantástica. Eu realmente aprecio a chance de conversar com você sobre isso.
Vou passar para Robin agora porque sei que ele tem, e então Rebecca também recebeu uma longa lista de ótimas perguntas da platéia depois de Robin. Robin?
Dr. Robin Bloor: Ok. Shawn, gostaria que você dissesse um pouco mais e não estou tentando lhe dar a chance de anunciar, mas é realmente muito importante. Estou interessado em saber em que momento o Statistica realmente gerou o recurso de exportação do modelo. Mas também gostaria que você dissesse algo sobre o Boomi, porque tudo o que você disse até agora sobre o Boomi é que é ETL, e é de fato ETL. Mas, na verdade, é um ETL bastante capaz e, para o tipo de horário em que estamos falando, e algumas das situações que estamos discutindo aqui, isso é uma coisa muito importante. Você poderia falar com essas duas coisas para mim?
Shawn Rogers: Claro, sim, eu absolutamente posso. Você sabe, nosso movimento nessa direção foi certamente iterativo e foi uma espécie de processo passo a passo. Nesta semana, estamos nos preparando para lançar a Versão 13.2 do Statistica. E possui as atualizações mais recentes de todos os recursos sobre os quais estamos falando hoje. Mas, voltando à versão 13, um ano atrás, em outubro, anunciamos nossa capacidade de exportar modelos de nossa plataforma e denominamos NDAA na época. O acrônimo significava Native Distributed Analytics Architecture. O que fizemos foi dedicar muito tempo, energia e foco à abertura de nossa plataforma, com a oportunidade de usá-la como um centro de comando central para suas análises avançadas, mas também para implantar a partir daí. E nos primeiros lugares, Robin, que implantamos, fizemos uma adição realmente muito boa à plataforma de aprendizado de máquina. Por isso, tivemos a capacidade de implantar do Statistica na nuvem do Microsoft Azure para usar o poder do Azure para impulsionar o aprendizado de máquina, como você sabe, é muito intenso e é uma ótima maneira de utilizar as tecnologias em nuvem. E assim foi a primeira parte.
Agora, aqui estávamos exportando nossos modelos para o Azure e usando o Azure para executá-los e enviando os dados ou resultados de volta à plataforma Statistica. E então passamos para outras linguagens das quais queríamos poder exportar, e é claro que uma delas sendo Java, abre a porta para que agora comecemos a exportar nossos modelos para outros locais como o Hadoop, então deu nós uma peça lá também.
E, por fim, nos concentramos em poder produzir nossos modelos com esse release nos bancos de dados. E essa foi a primeira iteração e, para ser sincero com você, o jogo final foi a Internet das Coisas, mas ainda não estávamos lá com a Versão 13 em outubro passado. Desde então, chegamos lá e isso tem a ver com a capacidade de fazer todas as coisas que acabei de mencionar, mas depois com algum tipo de dispositivo de transporte. E voltando à pergunta de Dez sobre, qual é o desafio e como fazemos isso quando temos todas essas análises em execução? Bem, usamos o Boomi como uma espécie de hub de distribuição e, portanto, porque está na nuvem e é muito poderoso, como mencionei antes, é uma plataforma de integração de dados, mas também é uma plataforma de integração de aplicativos e usa JVMs para nos permitir estacionar e trabalhar em qualquer lugar em que você possa pousar uma máquina virtual Java. Foi isso que realmente abriu a porta para todos esses gateways, plataformas de computação de borda e servidores de borda, porque todos eles têm a computação e a plataforma disponíveis para executar uma JVM. E porque podemos executar a JVM em qualquer lugar, o Boomi mudou uma distribuição maravilhosa e, usando minha palavra anterior, um dispositivo de orquestração.
E isso está ficando muito importante porque todos nós, você sabe, acho que o cenário do avião há um minuto foi ótimo e mencionei, sabe, fabricantes como Shire, que têm dez mil sensores em uma de suas fábricas, você precisa começar a abordar o tipo de abordagem central para análises avançadas em algum momento. Ser ad hoc sobre isso realmente não funciona mais. Antes, o volume de modelos e algoritmos que estávamos executando era mínimo, mas agora está no máximo. Existem milhares deles em uma organização. Portanto, parte da nossa plataforma é baseada em servidor e, quando você possui nosso software corporativo, também tem a capacidade de ajustar, pontuar e gerenciar seus modelos em todo o ambiente. E isso também faz parte dessa coisa de orquestração. Precisávamos ter uma camada, Robin, que não apenas permitisse a obtenção de um modelo lá, mas também lhe fornecesse um canal para ajustar os modelos e substituí-los continuamente, sempre que necessário, porque isso não é algo que você pode fazer manualmente. Você não pode andar pela refinaria com um pen drive tentando fazer upload de modelos para gateways. Você precisa ter um sistema de transporte e gerenciamento entre eles e, portanto, a combinação do Statistica e do Boomi fornece isso aos nossos clientes.
Dr. Robin Bloor: Sim. Bem, eu vou ser muito breve, mas, você sabe, essa afirmação que foi feita antes sobre o data lake e a idéia de acumular petabytes em qualquer lugar, e o fato de ter gravidade. Sabe, quando você começou a falar sobre orquestração, isso me fez pensar no fato muito simples de que, colocar um data lake muito grande em um só lugar provavelmente significa que você realmente precisa fazer o backup e isso provavelmente significa que você precisa mover muitos dados de qualquer maneira. Você sabe, a arquitetura de dados real é muito mais, na minha opinião, muito mais na direção em que você está falando. O que é distribuí-lo para lugares sensatos, é provavelmente o que eu diria. E parece que você tem uma capacidade muito boa para fazer isso. Quero dizer, sou bem informado sobre o Boomi, então é meio que, de um jeito ou de outro, quase injusto que eu possa vê-lo e talvez o público não. Mas o Boomi é tão essencial, na minha opinião, em termos do que você está fazendo, porque possui recursos de aplicativos. E também porque a verdade é que você não faz esses cálculos analíticos sem querer executar algo em algum lugar por algum motivo ou outro. E Boomi tem um papel nisso, certo?
Shawn Rogers: Sim, com certeza. E, como você sabe das conversas anteriores, o Statistica possui um mecanismo completo de regras de negócios. E acho que isso é realmente importante quando analisamos por que fazemos isso. Sabe, eu brinquei de antemão que não há realmente nenhuma razão para fazer a IoT, a menos que você analise, utilize os dados para tomar melhores decisões ou tomar ações. E então o que focamos não era apenas ser capaz de divulgar o modelo, mas ser capaz de acompanhá-lo, um conjunto de regras. E como o Boomi é tão robusto em suas capacidades de mover coisas de um lugar para outro, dentro de um átomo do Boomi, também podemos incorporar a capacidade de acionar, alertar e agir.
E é aí que começamos a obter esse tipo de visualização sofisticada dos dados da IoT, onde dizemos: "Ok, esses dados valem a pena ser ouvidos". Mas, na verdade, você sabe, sabendo que "a luz está acesa, a luz está acesa, a luz está acesa, a luz está acesa ”não é tão interessante quanto quando a luz se apaga ou quando o detector de fumaça se apaga ou quando o que acontece com o nosso processo de fabricação fica fora de especificação. Quando isso ocorre, queremos ser capazes de agir imediatamente. E os dados se tornam quase secundários aqui neste momento. Como não é tão importante que salvemos todos esses sinais, “está tudo bem, está tudo bem, está tudo bem”, o importante é que notemos o “Ei, está ruim” e agimos imediatamente. Seja enviando um e-mail para alguém ou podemos envolver especialistas em domínio, ou se desencadeamos ou não uma série de outros processos para tomar ações imediatas, sejam elas corretivas ou em resposta às informações. E acho que é por isso que você precisa ter uma visão orquestrada disso. Você não pode se concentrar apenas em lidar com seus algoritmos em todo o lugar. Você precisa ser capaz de coordená-los e orquestrá-los. Você precisa ver o desempenho deles. E realmente, o mais importante, quero dizer, por que diabos você faria isso se não pode adicionar a oportunidade de tomar alguma ação imediata contra os dados?
Dr. Robin Bloor: Ok, Rebecca, acredito que você tenha perguntas da platéia?
Rebecca Jozwiak: Sim. Eu tenho uma tonelada de perguntas do público. Shawn, eu sei que você não queria esperar muito tempo até o topo da hora. O que você acha?
Shawn Rogers: Estou feliz. Continue. Eu posso responder algumas.
Rebecca Jozwiak: Vamos ver. Sei que uma das coisas que você mencionou foi que a IoT está nos primeiros dias e tem um grau de maturidade que terá que ocorrer e meio que fala dessa pergunta que um participante fez. Se a estrutura do IPv6 será robusta o suficiente para acomodar o crescimento da IoT nos próximos cinco ou dez anos?
Shawn Rogers: Ah, vou deixar Dez ecoar fora da minha resposta, porque acho que ele está mais próximo desse tipo de informação que eu sou. Mas sempre pensei que estamos em um caminho muito rápido para dobrar e quebrar a maioria das estruturas que temos. E embora eu pense que a adição desse novo tipo de especificação ou a direção que vamos seguir com as estruturas IPv6 é importante, e isso abre a porta para que tenhamos muito mais dispositivos e que possamos dar tudo o que desejamos. quer dar um endereço. Acho que tudo o que estou lendo e vendo com meus clientes e o número de endereços necessários, acho que em algum momento causará outra mudança nesse cenário. Mas eu não sou realmente um especialista em redes, então não posso dizer cem por cento que vamos quebrá-lo em algum momento. Mas minha experiência me diz que vamos interromper esse modelo em algum momento.
Rebecca Jozwiak: Eu não ficaria surpreso. Eu acho que estruturas estão meio que quebrando o peso de todos os tipos de coisas. E isso é lógico, certo? Quero dizer, você não pode enviar um e-mail com uma máquina de escrever. Outro participante está perguntando: "Você pode usar uma estrutura Hadoop?", Mas acho que posso mudar isso para dizer: como você usaria uma estrutura Hadoop para análises distribuídas?
Shawn Rogers: Bem, Robin me fez o favor de me fazer uma pergunta histórica e, desde a Versão 13, cerca de um ano atrás, para o Statistica, tivemos a capacidade de expulsar modelos do nosso sistema para o Hadoop. E trabalhamos de perto com todos os grandes sabores do Hadoop. Temos realmente grandes histórias de sucesso em torno da capacidade de trabalhar com a Cloudera como uma das principais distribuições do Hadoop com as quais trabalhamos. Mas como podemos produzir em Java, isso nos dá a capacidade de abrir e colocar nossas análises em qualquer lugar. Colocá-los em um cluster Hadoop é algo que fazemos de maneira normal, regular e diária para muitos de nossos clientes. A resposta curta é sim, absolutamente.
Rebecca Jozwiak: Excelente. E eu vou jogar mais uma em você e deixar você continuar suas férias. Outro participante está perguntando, com a análise da IoT e o aprendizado de máquina, você acha que todos os dados precisam ser armazenados para fins históricos e como isso afetará a arquitetura da solução?
Shawn Rogers: Bem, não acho que todos os dados tenham que ser armazenados. Mas acho que é muito interessante ter a capacidade de entreter, ouvir qualquer fonte de dados que desejamos em nossa organização, de onde ela vem. E acho que as mudanças que vimos no mercado nos últimos anos nos permitiram adotar essa abordagem de todos os dados, e parece realmente valer a pena. Mas será diferente para cada empresa e cada caso de uso. Sabe, quando analisamos dados de saúde, agora existem muitos problemas regulatórios, muitos de conformidade com os quais nos preocupar, e isso nos faz salvar dados que outras empresas talvez não entendam por que precisam ser salvos, certo ? Nos processos de fabricação, para muitos de nossos clientes de fabricação, há uma vantagem real de poder examinar historicamente seus processos e de olhar para grandes quantidades desses dados para aprender e construir melhores modelos a partir deles.
Eu acho que muitos dados precisarão ser mantidos e acho que temos soluções que tornam isso mais econômico e escalável hoje. Mas, ao mesmo tempo, acho que todas as empresas encontrarão valor em dados que não precisam manter em nível atômico, mas desejam analisar em tempo real e tomar decisões para impulsionar a inovação dentro a empresa deles.
Rebecca Jozwiak: Tudo bem. Não, público, eu não recebi as perguntas de todos hoje, mas as encaminharei para Shawn para que ele possa entrar em contato com você diretamente e responder a essas perguntas. Mas obrigado a todos por participarem. Muito obrigado a Shawn Rogers, da Dell Statistica, e a todos os nossos analistas, Dez Blanchfield e Dr. Robin Bloor. Você pode encontrar o arquivo aqui em insideanalysis.com, SlideShare, começamos a colocar nossas coisas de volta lá em cima e estamos reformulando nosso YouTube, então procure isso também. Muito obrigado pessoal. E com isso eu vou te despedir e até a próxima.