O poder da sugestão: como um catálogo de dados capacita os analistas

2026

Por Techopedia Staff, 22 de junho de 2016

Takeaway: A apresentadora Rebecca Jozwiak discute as vantagens dos catálogos de dados com Dez Blanchfield, Robin Bloor e David Crawford.

Você deve se registrar neste evento para ver o vídeo. Registre-se para ver o vídeo.

Rebecca Jozwiak: Senhoras e Senhores, Olá e bem-vindos às Hot Technologies de 2016. Hoje temos: “O poder da sugestão: como um catálogo de dados capacita os analistas”. Sou sua anfitriã Rebecca Jozwiak, substituindo nosso anfitrião habitual, Eric. Kavanagh hoje, enquanto ele está viajando pelo mundo, então obrigado por se juntar a nós. Este ano é quente, não é apenas quente no Texas onde estou, mas é quente em todo o lugar. Há uma explosão de todos os tipos de novas tecnologias saindo. Temos IoT, streaming de dados, adoção da nuvem, o Hadoop continua amadurecendo e sendo adotado. Temos automação, aprendizado de máquina e, é claro, tudo isso é sublinhado pelos dados. E as empresas estão se tornando cada vez mais dados direcionados a cada dia. E, claro, o objetivo disso é levar ao conhecimento e à descoberta e, você sabe, tomar melhores decisões. Mas, para realmente obter o máximo valor dos dados, deve ser fácil alcançá-lo. Se você a mantiver trancada, enterrada ou no cérebro de algumas pessoas na empresa, não será muito bom para a empresa como um todo.

E eu estava pensando sobre catalogação de dados e sobre o curso das bibliotecas, onde há muito tempo era para onde você ia, se precisava descobrir algo, se precisava pesquisar um tópico ou procurar alguma informação, ia para a biblioteca, e é claro que você foi ao catálogo de cartões ou à senhora mal-humorada que trabalhava lá. Mas também era divertido passear, se você apenas quisesse olhar e com certeza descobrisse algo legal, poderá descobrir alguns fatos interessantes que você não sabia, mas se realmente precisava descobrir algo, e você sabia o que estava procurando, precisava do catálogo de cartões e, claro, o equivalente da empresa é um catálogo de dados, que pode ajudar a iluminar todos os dados para nossos usuários enriquecerem, descobrirem, compartilharem, consumirem e realmente ajudarem. as pessoas acessam os dados de maneira mais rápida e fácil.

Hoje, temos Dez Blanchfield, nosso próprio cientista de dados, e o Dr. Robin Bloor, nosso analista-chefe, temos David Crawford, da Alation, que falará sobre a história de catalogação de dados de sua empresa, mas primeiro nós vamos liderar com Dez. Dez, estou passando a bola para você e o chão é seu.

Dez Blanchfield: Obrigado, obrigado por me receber hoje. Esse é um assunto no qual estou extremamente interessado, porque quase todas as organizações com as quais me deparo no meu trabalho do dia-a-dia, encontro exatamente o mesmo assunto sobre o qual falamos muito brevemente na conversa pré-show, e é isso que a maioria das organizações que estão no mercado há mais de alguns anos possui uma infinidade de dados enterrados na organização, em diferentes formatos e, de fato, tenho clientes com conjuntos de dados que remontam ao Lotus Notes, bancos de dados que ainda estão em execução em alguns países. casos como suas pseudo-internets, e eles estão todos enfrentando esse desafio de encontrar onde estão seus dados e como obter acesso a eles, quem fornecer acesso a eles, quando fornecer acesso a eles e como catálogo e como levá-lo a um local onde todos possam: A) estar ciente do que existe e do que está nele e B), como obter acesso e usá-lo. E um dos maiores desafios, é claro, é encontrá-lo, o outro grande desafio é saber o que está lá e como acessá-lo.

Talvez eu saiba que tenho dezenas de bancos de dados, mas, na verdade, não sei o que há lá ou como descobrir o que há lá, e, invariavelmente, como estamos descobrindo agora nos dados pré-show, você tende a andar pelo escritório e fazer perguntas, gritar através das paredes cúbicas e tentar descobrir, muitas vezes a minha experiência é que você pode até achar que está vagando até a recepção, a recepção e perguntando se alguém sabe quem você vai conversar. Muitas vezes, nem sempre é o pessoal de TI porque eles desconhecem o conjunto de dados porque alguém acabou de criá-lo, e pode ser algo simples como - muitas vezes, encontramos um projeto de algum tipo que se destaca no ambiente de TI e o gerente de projeto usou uma planilha de todas as coisas e obteve uma quantidade enorme de informações valiosas sobre ativos, contexto e nomes, e, a menos que você conheça esse projeto e conheça essa pessoa, simplesmente não conseguirá encontrar essas informações. Ele simplesmente não está disponível e você precisa se apossar desse arquivo original.

Há uma frase que tem sido ridicularizada em relação aos dados e eu não necessariamente concordo com isso, mas acho que é um pouco descartável, e isso é que uma certa quantidade de pessoas pensa que os dados são o novo petróleo, e eu sou Certamente, vamos abordar isso em alguns aspectos, ainda hoje. Mas o que notei, certamente fazendo parte dessa transformação, é que as organizações de negócios que aprenderam a valorizar seus dados obtiveram uma vantagem significativa sobre seus concorrentes.

Havia um artigo interessante da IBM, cerca de cinco ou seis anos atrás, e eles pesquisaram cerca de 4.000 empresas aqui na Austrália, e pegaram todas as informações, todos os dados de desempenho, todos os dados financeiros e os reuniram em uma panela fervendo e depois enviou para a Escola Australiana de Economia, e eles realmente começaram uma tendência comum aqui, e foi isso que as empresas que alavancaram a tecnologia invariavelmente obtiveram uma vantagem tão competitiva sobre seus pares e concorrentes em si que seus concorrentes quase nunca alcançam, e eu acho agora é esse o caso dos dados que vimos como as pessoas chamam de transformação digital, onde as organizações que descobriram claramente como encontrar os dados que obtiveram, disponibilizar esses dados e disponibilizá-los em alguns itens de consumo muito fáceis moda para a organização, sem necessariamente sempre saber por que a organização pode precisar, e obter uma vantagem significativa sobre os concorrentes.

Eu tenho alguns exemplos neste slide, que você pode ver. Minha única linha é: a interrupção em grande escala em quase todos os setores da indústria, na minha opinião, está sendo impulsionada por dados e, se as tendências atuais são algo a ser seguido, minha opinião é que apenas conseguimos começou porque quando as marcas de longa data finalmente acordam para o que isso significa e entram no jogo, elas entram no jogo no atacado. Quando alguns dos principais varejistas que possuem montanhas de dados começam a aplicar algumas análises históricas sobre os dados, se eles sabem que eles existem, alguns dos jogadores on-line receberão um pouco de atenção.

Mas com muitas dessas marcas, quero dizer que temos a Uber, a maior empresa de táxis do mundo. Eles não possuem táxis, então o que os torna mágicos, quais são seus dados? Airbnb, o maior provedor de acomodações, temos o WeChat, a maior companhia telefônica do mundo, mas eles não têm infraestrutura real, nem aparelhos, nem linhas telefônicas. Alibaba, o maior varejista do planeta, mas eles não possuem nenhum estoque. Facebook, a maior empresa de mídia do mundo. Acho que na última contagem eles tinham 1, 4 bilhão de usuários ativos de dados agora, o que é um número impressionante. Não está nem perto - acho que alguém afirmou que um quarto do planeta está lá todos os dias, e ainda assim, aqui está um provedor de conteúdo que na verdade não cria o conteúdo, todos os dados que eles servem não são criados por eles, ele é criado por seus assinantes, e todos nós conhecemos esse modelo.

O SocietyOne, do qual você pode ou não ter ouvido falar, é uma marca local, acho que em alguns países é um banco que realmente empresta empréstimos ponto a ponto; portanto, em outras palavras, não tem dinheiro. Tudo o que faz é gerenciar as transações e os dados ficam embaixo. Netflix, estamos todos muito, muito familiarizados com isso. Há uma linha interessante aqui. Quando o Netflix era legalmente capaz de ser usado na Austrália, quando foi anunciado oficialmente, você não precisava usar uma VPN para acessá-lo, muitas pessoas em todo o mundo tendem a usá-lo - se você não pode acessá-lo em sua área local - quando o Netfix foi lançado na Austrália, aumentou a largura de banda internacional em nossos links da Internet em 40%, então quase duplicou o uso da Internet na Austrália durante a noite, por apenas um aplicativo, um aplicativo hospedado na nuvem que não faz nada além de brincar com dados. É apenas uma estatística impressionante.

E, é claro, todos conhecemos a Apple e o Google, mas essas são as maiores empresas de software do planeta, mas elas não escrevem os aplicativos. Qual é a coisa consistente com todas essas organizações? Bem, são dados, e eles não chegaram lá porque não sabiam onde estavam seus dados e não sabiam como catalogá-los.

O que estamos descobrindo agora é que existe toda essa nova classe de ativos conhecida como dados, e as empresas estão acordando para isso. Mas eles nem sempre têm as ferramentas, o know-how e os motivos para mapear todos esses dados, catalogar e disponibilizá-los, mas descobrimos que empresas com quase nenhum ativo físico obtiveram alto valor de mercado em recorde de tempo por meio dessa nova classe de ativos de dados. Como eu disse, alguns dos jogadores antigos estão agora acordando e certamente trazendo isso à tona.

Sou um grande fã de levar o pessoal a uma jornada um pouco, por isso, nos dezoito centenas, no final dos dezoito centenas, e você estará mais do que familiarizado com isso no mercado americano, descobriu-se que, para realizar um censo a cada ano, mais ou menos, acho que eles os administravam a cada dez anos nesse ponto, mas se você realizar um censo a cada ano, poderá levar até oito ou nove anos para fazer a análise dos dados. Aconteceu que esse conjunto de dados foi deixado em caixas em locais de papel e quase ninguém conseguiu encontrá-lo. Eles continuaram divulgando esses relatórios, mas os dados reais eram muito difíceis de obter, temos uma situação semelhante com outro momento mundial significativo, por volta da década de 1940, com a Segunda Guerra Mundial, e esse é o Bletchley Park Bombe escrito BOMBE, e era uma ferramenta analítica massiva de processamento de números que passaria por pequenos conjuntos de dados e encontraria sinais nele, e seria usada para ajudar a decifrar códigos através do Enigma.

Novamente, isso foi essencialmente um dispositivo projetado, não muito para catalogar, mas para marcar e mapear dados, e tornar possível pegar padrões e encontrá-los dentro dos conjuntos de dados; nesse caso, quebrar códigos, encontrar chaves e frases e encontrar eles regularmente nos conjuntos de dados, e por isso passamos por essa jornada de encontrar coisas nos dados e liderar a catalogação de dados.

E então essas coisas surgiram, essas enormes estantes de máquinas de baixo custo, apenas máquinas prontas para uso. E fizemos algumas coisas muito interessantes, e uma das coisas que fizemos com elas é a criação de clusters de custo muito baixo que podem começar a indexar o planeta, e muito famosa essas grandes marcas que vieram e se foram, mas provavelmente a casa mais comum do Google marca da qual todos ouvimos falar - tornou-se um verbo real e você sabe que é bem-sucedido quando sua marca se torna um verbo. Mas o que o Google nos ensinou, sem perceber, possivelmente no mundo dos negócios, é que eles foram capazes de indexar o planeta inteiro para um determinado nível, catalogar os dados que estavam em todo o mundo e disponibilizá-los de uma maneira muito fácil, forma conveniente em uma pequena fórmula de uma linha, uma página da Web com quase nada nela, e você digita sua consulta, ela a encontra porque já havia rastreado o planeta, indexado e disponibilizado facilmente.

E o que percebemos foi: “Bem, espere, não estamos fazendo isso nas organizações - por que isso? Por que nós temos uma organização que pode mapear todo o planeta e indexá-lo, indexá-lo e indexá-lo, e disponibilizá-lo, podemos pesquisá-lo e, em seguida, clicar no item para encontrá-lo, como podemos não fizeram isso internamente? ”Então, agora existem muitas dessas pequenas prateleiras de máquinas que fazem isso para intranets e encontrar coisas, mas elas ainda estão apenas começando a entender a ideia de ir além da web tradicional página ou um servidor de arquivos.

Em vez de agora entrar nesta próxima geração de catálogo de dados de várias maneiras, descobrir o acesso a dados por meio de notas post-it e conversas com bebedouros não é realmente um método apropriado para a descoberta e catalogação de dados, e, de fato, acho que nunca foi mesmo. Não podemos mais liderar todo esse desafio para as pessoas apenas passando notas, postando notas e conversando sobre isso. Estamos bem e verdadeiramente fora da área agora em que essa abordagem de próxima geração para catalogação de dados chegou e se foi. Temos que abraçá-lo. Se esse fosse um problema fácil, já o teríamos resolvido de várias maneiras anteriormente, mas acho que não é fácil, apenas indexar e chamar os dados é apenas uma parte dele, sabendo o que há nos dados e criando metadados em torno do que descobrimos e disponibilizando-os de forma fácil e consumível, principalmente para autoatendimento e análises. Ainda é um problema que está sendo resolvido, mas muitas partes do quebra-cabeça em cinco anos estão bem e verdadeiramente resolvidas e disponíveis.

Como sabemos, os seres humanos que catalogam dados são uma receita para a falha, porque o erro humano é um dos maiores pesadelos com os quais lidamos no processamento de dados, e eu falo regularmente sobre esse tópico onde, na minha opinião, os humanos preenchendo formulários em papel é provavelmente o maior pesadelo lidamos com big data e análise, para constantemente ter que consertar as coisas que eles fazem, até coisas simples como datas e campos, pessoas colocando-as no formato errado.

Mas, como eu disse, vimos mecanismos de pesquisa na Internet indexando o mundo todos os dias, agora estamos pensando que isso pode ser feito em conjuntos de dados corporativos no processo de descoberta, e agora ferramentas e sistemas prontamente disponível como você está prestes a aprender hoje. Então, o truque, na minha opinião, é selecionar as ferramentas certas, as melhores para o trabalho. E mais apropriadamente, encontrando a parte certa para ajudá-lo a começar por esse caminho. E acredito que vamos ouvir isso hoje, mas antes de fazer isso, vou passar para a minha faculdade, Robin Bloor, e ouvir sua opinião sobre o assunto. Robin, posso passar para você?

Robin Bloor: Sim, certamente você pode. Vamos ver se isso funciona, ah sim. Ok, estou vindo de uma direção diferente da Dez, mas acabarei no mesmo lugar. Trata-se de conectar-se aos dados, então eu pensei em conhecer a realidade da conexão com os dados, ponto por ponto, na verdade.

Há um fato de que os dados estão mais fragmentados do que nunca. O volume de dados está crescendo fenomenalmente, mas, na realidade, as diferentes fontes de dados também estão crescendo a uma taxa incrível e, portanto, os dados estão se tornando cada vez mais fragmentados. Mas, por causa dos aplicativos de análise em particular - mas esses não são os únicos -, temos um bom motivo para nos conectarmos a todos esses dados, por isso estamos presos em um local difícil, em um mundo de dados fragmentados, e há oportunidade nos dados, como Dez o chamava, o novo petróleo.

Sobre os dados, bem, ele costumava viver no disco giratório, em sistemas de arquivos ou bancos de dados. Agora ele vive em um ambiente muito mais variado, em sistemas de arquivos, mas também nas instâncias do Hadoop atualmente, ou mesmo nas instâncias do Spark. Ele vive em várias espécies de banco de dados. Há pouco tempo, padronizamos alguns bancos de dados relacionais, bem, você sabe que saiu pela janela nos últimos cinco anos, porque há uma necessidade de bancos de dados de documentos e há uma necessidade de bancos de dados gráficos, para que você saiba que o jogo tem mudou. Então, ele viveu no disco giratório, mas agora vive no SSD. A mais recente quantidade de SSD - definitivamente a mais recente unidade SSD da Samsung - vinte gigabytes, o que é enorme. Agora ele vive na memória, no sentido de que a cópia principal dos dados pode estar na memória, e não no disco, não costumávamos criar sistemas como esse; nós fazemos agora. E vive na nuvem. O que significa que ele pode viver em qualquer uma dessas coisas, na nuvem, você não saberá necessariamente onde ela está na nuvem, apenas o endereço.

Apenas para esclarecer o assunto, o Hadoop até agora falhou como um armazenamento de dados extensível. Esperávamos que se tornasse um armazenamento de dados extensível em escala extensível, e se tornasse um sistema de arquivos para tudo, e isso aconteceria - arco-íris apareceriam no céu, basicamente, e unicórnios dançariam por aí, e nada disso aconteceu. O que significa que acabamos com um problema de transporte de dados e, às vezes, não há necessidade de transporte de dados, mas também é uma dificuldade. Atualmente, os dados realmente têm gravidade, uma vez que você entra nos multi-terabytes de dados, os coleta e joga, meio que faz com que latências apareçam na sua rede ou apareçam em vários lugares. Se você deseja transportar dados, o tempo é um fator. Hoje em dia, quase sempre existem alguns limites de quanto tempo você tem para obter uma coisa, um dado de um lugar para outro. Costumava haver o que pensávamos como janelas em lote, quando a máquina estava meio ociosa e, independentemente da quantidade de dados que você tivesse, você poderia simplesmente contorná-la e tudo funcionaria. Bem, isso se foi, estamos vivendo em um mundo muito mais em tempo real. Portanto, o tempo é um fator. Assim que você quiser mover os dados, se os dados tiverem gravidade, provavelmente não será possível movê-los.

O gerenciamento de dados é um fator no sentido de que você realmente precisa gerenciar todos esses dados, você não os obtém gratuitamente, e a replicação pode ser necessária para que os dados efetuem o trabalho necessário, porque pode não estar onde você colocou. Pode não ter recursos suficientes para executar o processamento normal dos dados. Portanto, os dados são replicados e os dados são replicados mais do que você imagina. Acho que alguém me disse há muito tempo que a parte média dos dados é replicada pelo menos duas vezes e meia. ESBs ou Kafka apresentam uma opção para fluxo de dados, mas atualmente exigem arquitetura. Atualmente, você realmente precisa pensar de uma maneira ou de outra sobre o que realmente significa lançar os dados. Portanto, para acessar dados onde estão, geralmente é preferível, desde que, é claro, você possa obter o desempenho necessário quando realmente busca os dados e isso depende do contexto. Portanto, é uma situação difícil, de qualquer maneira. Em termos de consultas de dados, costumávamos pensar em termos de SQL, surgimos realmente agora, você sabe, diferentes formas de consultas, SQL sim, mas adjacentes, também consultas de gráfico, o Spark é apenas um exemplo de fazendo gráfico, porque também precisamos fazer pesquisa de texto, mais do que já fizemos, também regex pesquisas de tipo, o que é realmente pesquisas complicadas de padrões e correspondência genuína de padrões, todas essas coisas estão realmente desaparecendo. E todos eles são úteis porque oferecem o que você está procurando ou o que você está procurando.

Hoje em dia, as consultas abrangem vários dados, portanto nem sempre isso é feito e, geralmente, o desempenho é terrível se você fizer isso. Portanto, depende das circunstâncias, mas as pessoas esperam poder consultar dados de várias fontes de dados; portanto, a federação de dados de um tipo ou de outro está se tornando cada vez mais atual. A virtualização de dados, que é uma maneira diferente de fazer isso, dependendo do desempenho, também é muito comum. As consultas de dados são na verdade parte de um processo, não o processo inteiro. Vale ressaltar que, se você estiver realmente analisando o desempenho da análise, a análise real pode demorar muito mais do que a coleta de dados, porque isso depende das circunstâncias, mas as consultas de dados são uma necessidade absoluta, se você deseja fazer alguma tipo de análise em várias fontes de dados e, na verdade, você realmente precisa ter recursos que abrangem.

Então, sobre catálogos. Os catálogos existem por uma razão, pelo menos estamos dizendo que, você sabe, é, temos diretórios e esquemas em bancos de dados, e temos cada catálogo e onde quer que você vá, encontrará um lugar e, na verdade, encontrará descubra que existe algum tipo de catálogo, e o catálogo global unificado é uma ideia obviamente tão boa. Mas muito poucas empresas têm isso. Eu me lembro, no ano de dois mil - o ano de dois mil em pânico - eu lembro que os comunistas não conseguiam nem definir quantos executáveis eles tinham, não importando quantos armazenamentos de dados diferentes eles tinham, e provavelmente é o caso agora, você sabe que a maioria das empresas não sabe ativamente no sentido global quais dados eles têm. Mas obviamente está se tornando cada vez mais necessário ter realmente um catálogo global ou, pelo menos, ter uma imagem global do que está acontecendo devido ao crescimento das fontes de dados e ao crescimento contínuo dos aplicativos, e é particularmente necessário para análises, porque você também de uma maneira, e há outros problemas aqui, como linhagem e problemas com os dados, e é necessário para a segurança, muitos aspectos da governança de dados, se você realmente não sabe quais dados possui, a idéia que você vai governar é simplesmente absurdo. Então, nisso, todos os dados são catalogados de alguma forma, é apenas um fato. A questão é se o catálogo é coerente e, na verdade, o que você pode fazer com ele. Então eu voltarei para Rebecca.

Rebecca Jozwiak: Ok, obrigado Robin. A seguir, temos David Crawford, da Alation, David. Vou passar a bola para você e você pode levá-la embora.

David Crawford: Muito obrigado. Eu realmente aprecio vocês me receberem nesse programa. Acho que vou começar isso, então acho que meu papel aqui é pegar um pouco dessa teoria e ver como ela está realmente sendo aplicada, e os resultados que somos capazes de gerar em clientes reais e assim você pode ver alguns no slide, quero falar sobre quais resultados poderemos ver nas possíveis melhorias analíticas. Então, para motivar a discussão, vamos falar sobre como eles chegaram lá. Portanto, tenho a sorte de trabalhar de perto com muitas pessoas realmente inteligentes, esses clientes, e só quero apontar alguns que foram realmente capazes de medir e falar sobre como um catálogo de dados afetou seu analista fluxo de trabalho. E apenas para ficar brevemente na frente, acho que uma das coisas que vemos mudar, com catálogos de dados versus soluções mediadas anteriores e uma das maneiras pelas quais as relações realmente pensam sobre as soluções que montamos, é começar pelos analistas e trabalhar para trás. Para dizer, vamos fazer isso sobre como ativar a produtividade dos analistas. Em vez de apenas conformidade, ou apenas um inventário, estamos criando uma ferramenta que torna os analistas mais produtivos.

Então, quando falo com um cientista de dados da empresa de serviços financeiros Square, há um cara, Nick, que estava nos contando como ele era, ele costumava levar várias horas para encontrar o conjunto de dados certo para iniciar um relatório, agora ele pode em questão de segundos, usando a pesquisa na participação de mercado, conversamos com o CTO que puxou os analistas que estavam usando o Square, desculpe-me, estava usando o Alation, para descobrir quais eram os benefícios que eles viram e relataram 50 aumento percentual de produtividade e que, um dos maiores varejistas do mundo, o eBay, eles têm mais de mil pessoas que fazem análises SQL regularmente, e eu trabalho em estreita colaboração com Deb Says, que é o projeto gerente da equipe de ferramentas de dados, e ela descobriu que, quando os consultores adotam Alation, adotam um catálogo, estão vendo o dobro da velocidade de escrever novas consultas no banco de dados.

Portanto, esses são resultados reais, são pessoas que estão aplicando o catálogo em sua organização e eu quero levá-lo através do que é necessário para configurar. Como um catálogo é estabelecido em uma empresa, e talvez a coisa mais importante a dizer, é que muito disso acontece automaticamente, então Dez falou sobre sistemas, aprendeu sobre sistemas e é exatamente isso que um catálogo de dados moderno faz. Portanto, eles instalam o Alation em seu data center e o conectam a várias fontes de metadados em seu ambiente de dados. Vou me concentrar um pouco nos bancos de dados e nas ferramentas de BI - a partir destes, extrairemos metadados técnicos, basicamente sobre o que existe. Certo, então que mesas? Quais relatórios? Quais são as definições de relatório? Portanto, eles extraem esses metadados técnicos e uma página de catálogo é criada automaticamente para cada objeto dentro desses sistemas e, em seguida, também extraem e colocam em camadas esses metadados técnicos, os dados de uso. Isso é feito principalmente pela leitura dos logs de consulta do banco de dados, e essa é uma fonte realmente interessante de informações. Portanto, sempre que um analista grava uma consulta, sempre que uma ferramenta de relatório, desenvolvida em casa ou pronta para uso, se uma ferramenta de relatório executa uma consulta para atualizar o painel, quando um aplicativo executa uma consulta para inserir dados para operar em um conjunto de dados - todas essas coisas são capturadas nos logs de consulta do banco de dados. Se você tem um catálogo ou não, eles são capturados no log de consulta com o banco de dados. O que um catálogo de dados pode fazer, e especialmente o que o catálogo da Alation pode fazer, é ler esses logs, fazer as consultas dentro deles e criar um gráfico de uso realmente interessante com base nesses logs, e colocamos isso em jogo para informar os usuários futuros dos dados sobre como os usuários anteriores dos dados os usaram.

Então, reunimos todo esse conhecimento em um catálogo e, para torná-lo real, essas são as integrações já implantadas nos clientes. Vimos Oracle, Teradata, Redshift, Vertica e muitos outros bancos de dados relacionais. No mundo do Hadoop, há uma variedade de SQL no Hadoop, uma espécie de meta-lojas relacionais no sistema de arquivos Hadoop, Impala, Tez, Presto e Hive, também vimos sucesso com provedores privados do Hadoop em nuvem, como Altiscale, e nós também pudemos conectar aos servidores Tableau, MicroStrategy e indexar os painéis, além de integrações com ferramentas de gráficos de ciência de dados como Plotly.

Então, nos conectamos a todos esses sistemas, conectamos esses sistemas aos clientes, extraímos os metadados técnicos, extraímos os dados de uso e classificamos automaticamente o catálogo de dados, mas dessa maneira, centralizar o conhecimento, mas apenas centralizar as coisas em um catálogo de dados, por si só não fornece os aumentos de produtividade realmente maravilhosos sobre os quais conversamos com o eBay, Square e a participação de mercado. Para fazer isso, precisamos realmente mudar a maneira como pensamos em fornecer conhecimento aos analistas. Uma das perguntas que eles estão pedindo para se preparar para isso foi "Como o catálogo realmente afeta o fluxo de trabalho de um analista?"

É nisso que passamos o dia todo pensando e, para falar sobre essa mudança de pensamento, de um modelo verso a outro, eu queria fazer uma analogia rápida com o que o mundo era antes e depois de ler em um Kindle. Portanto, é apenas uma experiência que alguns de vocês podem ter, quando estão lendo um livro físico, se deparam com uma palavra, não têm certeza de que sabem muito bem a definição dessa palavra, talvez possam adivinhar por contexto, não tão provavelmente vão se levantar do sofá, caminhar até sua estante de livros, encontrar seu dicionário, espaná-lo e virar para o lugar certo na lista alfabética de palavras para garantir que sim, você tenha essa definição correta e saiba as nuances disso. Então, isso realmente não acontece. Então você compra um aplicativo Kindle e começa a ler livros lá, e vê uma palavra que não tem muita certeza e toca nela. De repente, exatamente na mesma tela, está a definição de dicionário da palavra, com todas as suas nuances, diferentes exemplos de uso, e você desliza um pouco e obtém um artigo da Wikipedia sobre esse tópico, desliza novamente, você obtém uma ferramenta de tradução que pode traduzi-la para outros idiomas ou de outros idiomas e, de repente, seu conhecimento do idioma é muito mais rico e acontece muitas vezes, em comparação com quando você precisava ir e puxe esse recurso para si mesmo.

E, portanto, o que vou argumentar é que o fluxo de trabalho de um analista e a maneira como ele analisa a documentação dos dados é realmente muito semelhante à maneira como o leitor interage com o dicionário, seja físico ou através do Kindle, e o que nós, da maneira que realmente vimos esse aumento de produtividade, não está derramando o catálogo, mas conectando-o ao fluxo de trabalho do analista; portanto, eles me pediram para fazer uma demonstração aqui, e eu quero para tornar esse o foco desta apresentação. Mas eu só quero configurar o contexto para a demonstração. Quando pensamos em enviar o conhecimento de dados para os usuários quando eles precisam, pensamos que o lugar certo para fazer isso, o local em que eles gastam seu tempo e onde estão fazendo a análise é uma ferramenta de consulta SQL. Um local onde você escreve e executa consultas SQL. Então criamos um, e o construímos, e o que realmente é diferente de outras ferramentas de consulta é sua profunda integração com o catálogo de dados.

Portanto, nossa ferramenta de consulta se chama Alation Compose. É uma ferramenta de consulta baseada na Web e mostrarei a você em um segundo. Uma ferramenta de consulta baseada na Web que funciona em todos os logotipos do banco de dados que você viu no slide anterior. O que vou tentar demonstrar em particular é a maneira como as informações do catálogo chegam aos usuários. E faz isso através deste tipo de três maneiras diferentes. Ele faz isso através de intervenções, e é aí que alguém que é um administrador de dados, um administrador de dados ou um administrador ou gerente de alguma forma pode dizer: “Quero meio que interpor uma nota ou um aviso em o fluxo de trabalho e verifique se ele é entregue aos usuários no momento certo. ”Essa é uma intervenção e mostraremos isso.

As sugestões inteligentes são uma maneira de a ferramenta usar todo o seu conhecimento agregado do catálogo para sugerir objetos e partes de uma consulta enquanto você a escreve. O mais importante a saber é que ele realmente aproveita o log de consultas para fazer isso, sugerir coisas com base no uso e também encontrar partes de consultas que foram escritas anteriormente. E nós vamos mostrar isso.

E depois visualiza. As visualizações são: enquanto você digita o nome de um objeto, mostramos tudo o que o catálogo sabe, ou pelo menos as coisas mais relevantes que o catálogo sabe sobre esse objeto. Portanto, amostras dos dados, que os usaram antes, o nome lógico e a descrição desse objeto, surgem quando você os escreve sem precisar ir solicitá-los.

Portanto, sem mais conversas, chegarei à demonstração e esperarei que ela apareça. O que vou mostrar aqui é a ferramenta de consulta. É uma interface de gravação SQL dedicada. É uma interface separada do catálogo, em certo sentido. Dez e Robin conversaram sobre o catálogo, e eu estou pulando um pouco sobre a interface do catálogo diretamente para como ele é trazido diretamente para atender o fluxo de trabalho.

Estou apenas mostrando aqui um lugar onde posso digitar SQL e, na parte inferior, você verá que temos algumas informações aparecendo sobre os objetos que estamos referenciando. Então, vou começar a digitar uma consulta e pararei quando chegar a uma dessas intervenções. Então, digito "selecionar" e quero o ano. Eu quero o nome E eu vou procurar alguns dados salariais. Portanto, este é um conjunto de dados educacionais. Ele tem informações sobre instituições de ensino superior e estou analisando o salário médio do corpo docente que está em uma dessas tabelas.

Então, eu realmente digitei a palavra "salário". Não é exatamente o nome da coluna dessa maneira. Usamos os metadados lógicos e físicos para fazer sugestões. E o que eu quero destacar aqui é essa caixa amarela que aparece aqui. Diz que há um aviso nesta coluna. Não procurei por isso, não participei de uma aula sobre como usar esses dados corretamente. Chegou a mim e é um aviso sobre um acordo de confidencialidade que tem a ver com esses dados. Portanto, existem algumas regras de divulgação. Se eu quiser consultar esses dados, retirar os dados desta tabela, devo ter cuidado com a divulgação. Então você tem uma política de governança aqui. Existem alguns desafios de conformidade que facilitam muito o cumprimento dessa política quando eu a conheço no momento em que estou analisando os dados.

Então, eu tenho isso vindo para mim, e também vou dar uma olhada nas aulas. E aqui vemos as visualizações entrarem em jogo. Nesta coluna de ensino, eu vejo - há uma coluna de ensino na tabela da instituição, e estou vendo um perfil disso. O Alation extrai dados de amostra das tabelas e, nesse caso, está me mostrando algo que é bastante interessante. Está me mostrando a distribuição dos valores e está mostrando que o valor zero apareceu 45 vezes na amostra e mais do que qualquer outro valor. Então, tenho a sensação de que podemos estar perdendo alguns dados.

Se eu sou um analista avançado, isso já pode fazer parte do meu fluxo de trabalho. Especialmente se eu for particularmente meticuloso, onde eu faria várias consultas de criação de perfil antes do tempo. Sempre que estou me aproximando de um novo dado, sempre penso em qual é a nossa cobertura de dados. Mas se eu sou novo na análise de dados, se sou novo neste conjunto de dados, posso assumir que, se houver uma coluna, ela será preenchida o tempo todo. Ou posso assumir que, se não for preenchido, não será zero, será nulo ou algo parecido. Mas, neste caso, temos muitos zeros, e se eu fizesse uma média, eles provavelmente estariam errados, se eu apenas assumisse que esses zeros eram realmente zero em vez de dados ausentes.

Mas o Alation, ao trazer essa visualização para o seu fluxo de trabalho, pede que você dê uma olhada nessas informações e dá a alguns analistas iniciantes a chance de ver que há algo a ser observado aqui sobre esses dados. Então, nós temos essa visualização.

A próxima coisa que vou fazer é tentar descobrir de quais tabelas obter essas informações. Então, aqui vemos as sugestões inteligentes. Isso está acontecendo o tempo todo, mas em particular aqui, eu nem digitei nada, mas isso sugere as tabelas que eu gostaria de usar para esta consulta. E o mais importante a saber sobre isso é que ele tira proveito das estatísticas de uso. Portanto, em um ambiente como, por exemplo, o eBay, no qual você tem centenas de milhares de tabelas em um único banco de dados, é muito importante fazer essas ferramentas com uma ferramenta que pode atingir o trigo do joio e usar essas estatísticas de uso. sugestões vale alguma coisa.

Então, isso sugere esta tabela. Quando olho para a visualização, destacamos três das colunas que já mencionei na minha consulta. Então eu sei que tem três, mas não tem o nome. Eu preciso pegar o nome, então vou fazer uma junção. Quando faço uma junção, agora tenho novamente essas visualizações para me ajudar a encontrar onde está a tabela com o nome. Então, vejo que este tem um nome bem formatado e com letras maiúsculas. Parece ter uma linha com um nome para cada instituição, então vou pegar isso e agora preciso de uma condição de associação.

E então, aqui o que o Alation está fazendo é olhar novamente para os logs de consulta, vendo os tempos anteriores em que essas duas tabelas foram unidas e sugerindo maneiras diferentes de se juntar a elas. Mais uma vez, há alguma intervenção. Se eu olhar para uma delas, há um aviso que mostra que isso deve ser usado apenas para análise agregada. Provavelmente produzirá a coisa errada se você estiver tentando fazer algo através da instituição por instituição. Enquanto que este, com o OPE ID, é endossado como a maneira correta de ingressar nessas duas tabelas, se você deseja dados no nível da universidade. Portanto, faço isso, e é uma consulta curta, mas escrevi minha consulta sem necessariamente ter uma ideia do que são os dados. Na verdade, nunca examinei um diagrama de ER deste conjunto de dados, mas já sei bastante sobre esses dados porque as informações relevantes estão chegando a mim.

Portanto, essas são as três maneiras pelas quais um catálogo pode, por meio de uma ferramenta de consulta integrada, afetar diretamente o fluxo de trabalho enquanto você está escrevendo consultas. Mas um dos outros benefícios de ter uma ferramenta de consulta integrada a um catálogo é que, quando eu terminar a minha consulta e a salvo, posso colocar um título como "Taxa de matrícula da instituição e salário do corpo docente" e, em seguida, tenho um botão aqui que permite apenas publicá-lo no catálogo. Torna-se muito fácil para mim alimentar isso de volta. Mesmo que eu não o publique, ele está sendo capturado como parte do log de consulta, mas quando eu o publico, ele realmente se torna parte do caminho que é o local centralizado onde todo o conhecimento de dados está localizado.

Portanto, se eu clicar em Pesquisar todas as consultas em Alation, serei atendido - e aqui você verá um pouco mais da interface do catálogo - serei levado a uma pesquisa de consulta dedicada que me mostra uma maneira de encontrar consultas em toda a organização. E você vê que minha consulta recém-publicada está no topo. E alguns podem notar aqui em, à medida que capturamos as consultas, também capturamos os autores e meio que estabelecemos essa relação entre mim como autor e esses objetos de dados sobre os quais agora sei algo. E estou sendo estabelecido como um especialista nessa consulta e nesses objetos de dados. Isso é realmente útil quando as pessoas precisam aprender sobre dados e, em seguida, podem encontrar a pessoa certa para aprender. E se eu sou realmente novo em dados, seja um analista avançado - como analista avançado, eu posso olhar para isso e ver vários exemplos que me iniciariam em um novo conjunto de dados. Como alguém que pode não se sentir super conhecedor do SQL, posso encontrar consultas pré-criadas que são relatórios das quais posso tirar proveito.

Aqui está um de Phil Mazanett sobre as pontuações medianas do SAT. Clique nisso e eu recebo uma espécie de página de catálogo para a própria consulta. Ele fala sobre um artigo que foi escrito que faz referência a essa consulta, então há alguma documentação para eu ler, se eu quiser aprender como usá-la. E posso abri-lo na ferramenta de consulta clicando no botão Compor, e posso executá-lo aqui mesmo sem editá-lo. E, na verdade, você pode ver um pouco dos nossos recursos de relatórios leves, onde, quando você está escrevendo uma consulta, pode inserir uma variável de modelo como esta e cria uma maneira simples de criar um formulário para executar uma consulta com base em em alguns parâmetros.

Então é isso que eu tenho para a demo. Vou voltar aos slides. Apenas para recapitular, mostramos como um administrador, um administrador de dados, pode intervir colocando avisos em objetos que aparecem na ferramenta de consulta, como o Alation usa seu conhecimento sobre o uso de objetos de dados para fazer sugestões inteligentes, como ele traz em criação de perfil e outras dicas para melhorar os fluxos de trabalho dos analistas quando tocam objetos específicos e como todo esse tipo de retorno ao catálogo é realizado quando novas consultas são gravadas.

Obviamente, sou porta-voz em nome da empresa. Vou dizer coisas legais sobre catálogos de dados. Se você quiser ouvir diretamente de um de nossos clientes, Kristie Allen, da Safeway, dirige uma equipe de analistas e tem uma história muito interessante sobre um momento em que ela precisava realmente vencer o relógio para entregar um experimento de marketing e como toda ela A equipe usou o Alation para colaborar e se virar rapidamente nesse projeto. Para que você possa seguir este link bit.ly para conferir essa história, ou se quiser ouvir um pouco sobre como o Alation pode trazer um catálogo de dados para sua organização, estamos felizes em criar uma demonstração personalizada. Muito obrigado.

Rebecca Jozwiak: Muito obrigado, David. Tenho certeza de que Dez e Robin têm algumas perguntas antes de passar para as perguntas e respostas da platéia. Dez, você quer ir primeiro?

Dez Blanchfield: Absolutamente. Adoro a idéia desse conceito de consultas publicadas e vinculá-lo à origem da criação. Eu sou um defensor de longa data dessa idéia de uma loja de aplicativos interna e acho que essa é realmente uma ótima base para desenvolver isso.

Eu cheguei a ter uma ideia de algumas das organizações que você vê fazendo isso, e algumas das histórias de sucesso que elas poderiam ter com toda essa jornada, não apenas aproveitando sua ferramenta e plataforma para descobrir os dados, mas também também transformam seus traços culturais e comportamentais internos. Agora, com esse tipo de loja de aplicativos interna, onde você apenas faz o download, o conceito em que eles não apenas podem encontrá-lo, mas podem realmente começar a desenvolver pequenas comunidades com os detentores desse conhecimento.

David Crawford: Sim, acho que fomos surpreendidos. Acreditamos no valor do compartilhamento de consultas, tanto do meu passado como gerente de produtos da Adtech quanto de todos os clientes com quem conversamos, mas ainda me surpreendo com a frequência com que é uma das primeiras coisas que os clientes fale como o valor que eles obtêm do Alation.

Eu estava testando o usuário da ferramenta de consulta em um de nossos clientes, chamado Invoice2go, e eles tinham um gerente de produto relativamente novo e disseram - ele realmente me disse, sem ser solicitado durante o teste do usuário: “Na verdade, eu não faria isso. estar escrevendo SQL, exceto que isso é facilitado pela Alation. ”E é claro, como PM, eu meio que digo:“ Como assim, como fizemos isso? ”E ele disse:“ Bem, na verdade é apenas porque posso efetuar login e visualizar todas essas consultas existentes. ”Começar com uma lista em branco com SQL é uma coisa incrivelmente difícil de fazer, mas modificar uma consulta existente em que você pode ver o resultado lançado e pode dizer: "Ah, eu só preciso dessa coluna extra" ou "Eu preciso filtrá-la para um intervalo específico de datas", é uma coisa muito mais fácil de fazer.

Vimos algumas dessas funções auxiliares, como gerentes de produto, talvez pessoas em operações de vendas, que começam a aprender e que sempre quiseram aprender SQL e começaram a aprender usando este catálogo. Também vimos que muitas empresas tentaram criar código aberto. Tentei criar esse tipo de coisa internamente, onde eles rastreiam as consultas e as disponibilizam, e há alguns desafios complicados de design para torná-las úteis. O Facebook teve uma ferramenta interna que eles chamaram de HiPal que capturou todas as consultas escritas no Hive, mas o que você descobre é que, se você não meio que cutuca os usuários da maneira certa, acaba tendo um lista muito longa de instruções selecionadas. E, como um usuário que está tentando descobrir se uma consulta é útil para mim ou se é boa, se eu apenas examinar uma longa lista de instruções selecionadas, levarei muito mais tempo para obter algo de valor lá do que começando do zero. Nós pensamos com muito cuidado sobre como criar um catálogo de consultas que traz as coisas certas para a frente e as fornece de uma maneira útil.

Dez Blanchfield: Eu acho que todos nós passamos por essa jornada desde muito jovens, até a idade adulta, de várias maneiras. Um monte de tecnologias. Eu, pessoalmente, passei por essa mesma coisa genuína, aprendendo a cortar código. Examinava revistas e, em seguida, livros, estudava até um certo nível, e então precisava ir e realmente obter mais treinamento e educação sobre isso.

Mas, inadvertidamente, descobri que, mesmo quando estava aprendendo e lendo revistas, lendo livros e cortando programas de outras pessoas e indo a cursos, ainda acabava aprendendo tanto ao fazer os cursos quanto conversava com outras pessoas. pessoas que tiveram algumas experiências. E acho que é uma descoberta interessante que, agora que você traz isso para a análise de dados, estamos basicamente vendo o mesmo paralelo, que os seres humanos são invariavelmente bastante inteligentes.

A outra coisa que estou realmente interessada em entender é que, em um nível muito alto, muitas organizações perguntam: "Quanto tempo leva para chegar a esse ponto?" Qual é o ponto de inflexão no tempo quando as pessoas chegam sua plataforma instalada e eles começaram a descobrir os tipos de ferramentas? A rapidez com que as pessoas vêem isso se transformar em um momento realmente imediato do "a-ha", onde percebem que não estão mais se preocupando com o ROI porque está lá, mas agora estão realmente mudando a maneira como fazem negócios ? E eles descobriram uma arte perdida e esperam poder fazer algo muito, muito divertido com ela.

David Crawford: Sim, eu posso tocar um pouco. Eu acho que quando instalamos, uma das coisas legais, uma das coisas que as pessoas gostam em um catálogo diretamente conectado aos sistemas de dados é que você não começa em branco onde precisa preenchê-lo página por página. E isso é verdade em soluções de dados anteriores, nas quais você começaria com uma ferramenta vazia e precisava começar a criar uma página para tudo o que deseja documentar.

Como documentamos tantas coisas automaticamente extraindo os metadados, basicamente alguns dias após a instalação do software, você pode ter uma imagem do seu ambiente de dados que esteja pelo menos 80% presente na ferramenta. E acho que assim que as pessoas começam a escrever consultas com a ferramenta, elas são salvas automaticamente de volta no catálogo e, assim, começam a aparecer também.

Não quero exagerar em afirmar isso. Eu acho que duas semanas é uma estimativa conservadora muito boa, de um mês. Duas semanas a um mês, uma estimativa conservadora de realmente mudar e sentir que você está obtendo valor com isso, como se estivesse começando a compartilhar algum conhecimento e poder ir lá e descobrir coisas sobre seus dados.

Dez Blanchfield: É realmente surpreendente, quando você pensa sobre isso. O fato de algumas das grandes plataformas de dados que você indexar e catalogar efetivamente levará às vezes até um ano para implementar, implantar e manter a posição correta.

A última pergunta que tenho para você antes de entregar a Robin Bloor, são conectores. Uma das coisas que imediatamente me impressiona é que você obviamente tem todo esse desafio resolvido. Portanto, há algumas perguntas muito rapidamente. Primeiro, com que rapidez os conectores são implementados? Obviamente, você começa com a maior plataforma, como os Oracles e os Teradatas e assim por diante, e os DB2s. Mas com que frequência você vê novos conectores e qual o tempo de resposta que eles levam? Eu imagino que você tenha uma estrutura padrão para eles. E quão fundo você vai neles? Por exemplo, os Oracles e IBMs do mundo, e até Tereadata, e algumas das plataformas de código aberto mais populares. Eles estão trabalhando diretamente com você? Você está descobrindo isso sozinho? Você precisa ter conhecimento interno dessas plataformas?

Como é desenvolver um conector e qual o nível de envolvimento com essas parcerias para garantir que esses conectores estejam descobrindo tudo o que é possível?

David Crawford: Sim, claro, é uma ótima pergunta. Eu acho que, na maior parte, podemos desenvolver os conectores. Certamente o fizemos quando éramos uma startup mais jovem e não tínhamos clientes. Podemos desenvolver as conexões certamente sem precisar de acesso interno. Nunca obtemos acesso especial aos sistemas de dados que não estão disponíveis ao público e, muitas vezes, sem a necessidade de informações internas. Aproveitamos os serviços de metadados disponíveis pelos próprios sistemas de dados. Muitas vezes, essas podem ser bastante complexas e difíceis de trabalhar. Eu conheço o SQL Server em particular, a maneira como eles gerenciam o log de consultas, há várias configurações diferentes e é algo em que você realmente precisa trabalhar. Você precisa entender as nuances, os botões e os botões para configurá-lo corretamente, e é algo em que trabalhamos com os clientes, já que o fizemos várias vezes antes.

Mas, até certo ponto, são tipos de APIs públicas disponíveis ou interfaces públicas que nós utilizamos. Temos parcerias com várias dessas empresas, o que é fundamental para a certificação, para que elas se sintam confortáveis em dizer que trabalhamos e também podem nos fornecer recursos para testes, às vezes acesso antecipado talvez a uma plataforma que está sendo lançada para garantir que trabalhamos nas novas versões.

Para mudar uma nova conexão, eu diria novamente, tentando ser conservador, digamos seis semanas a dois meses. Depende de como é semelhante. Assim, alguns trabalhos do Postgre parecem muito semelhantes ao Redshift. Redshift e Vertica compartilham muitos de seus detalhes. Para que possamos tirar proveito dessas coisas. Mas sim, seis semanas a dois meses seria justo.

Também temos APIs, para que - pensemos no Alation como uma plataforma de metadados, portanto, se algo não estiver disponível para alcançar e agarrar automaticamente, existem maneiras de você mesmo escrever o conector e enviá-lo ao nosso sistema para que tudo ainda é centralizado em um único mecanismo de pesquisa.

Dez Blanchfield: Fantástico. Obrigado. Então, vamos entregá-lo a Robin, porque tenho certeza que ele também tem uma infinidade de perguntas. Robin?

Rebecca Jozwiak: Robin pode estar mudo.

Dez Blanchfield: Você ficou mudo.

Robin Bloor: Sim, certo. Desculpe, me mudo. Quando você implementa isso, qual é o processo? Estou meio curioso porque pode haver muitos dados em muitos lugares. Então, como isso funciona?

David Crawford: Sim, claro. Entramos, primeiro, é como um processo de TI para garantir que o servidor seja provisionado, para garantir que as conexões de rede estejam disponíveis, as portas estejam abertas para que possamos acessar os sistemas. Todos sabem com que sistemas desejam começar. Saber dentro de um sistema de dados que - e às vezes nós realmente os ajudaremos. Nós os ajudaremos a dar uma olhada inicial no log de consultas para entender quem está usando o quê e quantos usuários eles têm em um sistema. Portanto, ajudaremos a descobrir onde - em geral, se eles têm centenas ou milhares de pessoas que podem estar acessando bancos de dados, na verdade não sabem onde estão acessando, para que possamos descobrir a partir do consulta registra quantas contas de usuário únicas você realmente efetua login e executa consultas aqui em mais ou menos um mês.

Portanto, podemos tirar proveito disso, mas geralmente apenas nos mais importantes. Nós os configuramos e, em seguida, há um processo de dizer: "Vamos priorizar". Há uma série de atividades que podem acontecer em paralelo. Eu me concentraria no treinamento para usar a ferramenta de consulta. Depois que as pessoas começam a usar a ferramenta de consulta, muitas pessoas adoram o fato de ser apenas uma única interface para todos os seus diferentes sistemas. Eles também adoram o fato de ser baseado na Web e não envolver nenhuma instalação se não quiserem. Do ponto de vista da segurança, eles gostam de ter um tipo de ponto de entrada único, do ponto de vista da rede, entre o tipo de uma rede corporativa de TI e o datacenter em que vivem as fontes de dados de produção. E assim, eles configuram o Alation como uma ferramenta de consulta e começam a usar o Compose como um ponto de acesso para todos esses sistemas.

Então, quando isso acontece, o que focamos no treinamento é entender quais são algumas das diferenças entre uma ferramenta de consulta baseada na Web ou baseada no servidor e uma que você teria na área de trabalho e algumas das nuances do uso naquela. E, ao mesmo tempo, o que tentaremos fazer é identificar os dados mais valiosos, aproveitando novamente as informações do log de consultas e dizendo: “Ei, você pode entrar e ajudar as pessoas a entendê-las. Vamos começar a publicar consultas representativas nessas tabelas. ”Às vezes, é a maneira mais eficaz de estimular as pessoas rapidamente. Vamos dar uma olhada no seu próprio histórico de consultas, publicar essas coisas para que elas apareçam como as primeiras consultas. Quando as pessoas olham para uma página da tabela, elas podem ver todas as consultas que tocaram nessa tabela e podem começar a partir daí. E então vamos começar a adicionar títulos e descrições a esses objetos, para que sejam mais fáceis de encontrar e pesquisar, para que você conheça algumas das nuances de como usá-lo.

Garantimos uma análise completa do log de consultas, para que possamos gerar linhagem. Uma das coisas que fazemos é examinar o log de consulta nos momentos em que os dados são movidos de uma tabela para outra, e isso nos permite colocar uma das perguntas mais frequentes sobre uma tabela de dados: de onde veio isso? Como eu confio nisso? E, portanto, o que podemos mostrar não é apenas de quais outras tabelas elas vieram, mas como foram transformadas ao longo do caminho. Novamente, isso é alimentado pelo log de consulta.

Portanto, garantimos que essas coisas estejam configuradas e que estamos inserindo a linhagem no sistema, e almejando os pedaços de metadados mais valiosos e mais alavancados que possamos estabelecer nas páginas da tabela, para que quando você pesquisa, encontra algo útil.

Robin Bloor: Ok. A outra pergunta - há muitas perguntas da platéia, então não quero ocupar muito tempo aqui - a outra pergunta que meio que vem à mente é: apenas os pontos problemáticos. Muitos softwares são comprados porque as pessoas estão, de uma maneira ou de outra, tendo dificuldades com alguma coisa. Então, qual é o ponto de dor comum que leva as pessoas à Alation?

David Crawford: Sim. Eu acho que existem alguns, mas acho que um dos que ouvimos com bastante frequência é a integração de analistas. "Vou precisar contratar 10, 20, 30 pessoas no curto prazo, que terão que produzir novas idéias a partir desses dados, como eles vão acelerar?" Então a integração de analistas é algo que certamente enfrentar. Além disso, os analistas seniores estão dispensando o tempo todo respondendo perguntas de outras pessoas sobre dados. Isso é muito frequente também. E ambos são essencialmente problemas de educação.

E então eu diria que outro lugar em que vemos as pessoas adotando o Alation é quando desejam configurar um ambiente de dados totalmente novo para alguém trabalhar. Eles querem anunciar e comercializar isso internamente para que as pessoas aproveitem. Tornar o Alation o front-end desse novo ambiente analítico é muito atraente. Ele possui a documentação, um único ponto de introdução ao - um único ponto de acesso aos sistemas, e esse é outro lugar onde as pessoas virão até nós.

Robin Bloor: Ok, eu vou passar para Rebecca porque o público está tentando chegar até você.

Rebecca Jozwiak: Sim, temos muitas perguntas realmente boas do público aqui. E David, este foi colocado especificamente para você. É de alguém que aparentemente tem alguma experiência com pessoas que usam mal as consultas, e ele diz que, quanto mais capacitamos os usuários, mais difícil é controlar o uso responsável dos recursos de computação. Então, você pode se defender contra a propagação de frases de consulta equivocadas, mas comuns?

David Crawford: Sim, eu vejo essa pergunta. É uma ótima pergunta - uma pergunta que recebemos com bastante frequência. Eu já vi a dor em empresas anteriores, nas quais você precisa treinar usuários. Por exemplo, “Esta é uma tabela de logs, com registros que remontam há anos. Se você deseja escrever uma consulta nesta tabela, é realmente necessário limitar por data. ”Então, por exemplo, esse treinamento foi realizado em uma empresa anterior antes de ter acesso ao banco de dados.

Temos algumas maneiras de tentar resolver isso. Eu diria que acho que os dados do log de consulta são realmente valiosos para resolvê-lo. Ele fornece outra visão do que o banco de dados faz internamente com seu planejador de consultas. E o que fazemos é uma dessas intervenções - temos as intervenções manuais que mostrei, e isso é útil, certo? Portanto, em uma junção específica, por exemplo, você pode dizer: "Vamos depreciar isso". Ele terá uma grande bandeira vermelha quando aparecer em sugestões inteligentes. Então essa é uma maneira de tentar chegar às pessoas.

Outra coisa que fazemos é automatizada nas intervenções em tempo de execução. Isso realmente usará a árvore de análise da consulta antes de executá-la para ver, inclui um determinado filtro ou algumas outras coisas que fazemos lá também. Mas um dos mais valiosos e o mais simples de explicar é: ele inclui um filtro? Assim, como no exemplo que acabei de fornecer, esta tabela de log, se você deseja consultá-la, precisa ter um intervalo de datas, você pode especificar na página da tabela que você exige que o filtro de período seja aplicado. Se alguém tentar executar uma consulta que não inclua esse filtro, ele realmente os interromperá com um grande aviso e dirá: "Você provavelmente deve adicionar um SQL com essa aparência à sua consulta". Eles podem continuar se eles querem. Na verdade, não vamos proibi-los completamente de usá-lo - é uma consulta também, é necessário, no final do dia, executar consultas. Mas colocamos uma barreira bem grande na frente deles e damos a eles uma sugestão, uma sugestão concreta aplicável para modificar a consulta para melhorar seu desempenho.

Na verdade, também fazemos isso automaticamente em alguns casos, novamente observando o log de consulta. Se percebermos que uma porcentagem realmente grande de consultas nesta tabela tira proveito de um filtro específico ou de uma cláusula de junção específica, na verdade, abriremos isso. Vamos promover isso para uma intervenção. Na verdade, isso aconteceu comigo em um conjunto de dados interno. Temos dados de clientes e temos IDs de usuário, mas o ID do usuário definido, pois é mais ou menos - temos IDs de usuário em todos os clientes. Como não é exclusivo, é necessário emparelhá-lo com um ID de cliente para obter uma chave de associação exclusiva. Eu estava escrevendo uma consulta e tentei analisar alguma coisa, e ela apareceu e disse: “Ei, todo mundo parece se juntar a essas tabelas com o ID do cliente e o ID do usuário. Tem certeza de que não quer fazer isso? ”E isso realmente me impediu de fazer algumas análises incorretas. Portanto, funciona tanto para a precisão da análise quanto para o desempenho. Então é assim que lidamos com esse problema.

Rebecca Jozwiak: Isso me parece eficaz. Você disse que não necessariamente impedirá as pessoas de consumir recursos, mas ensina a elas que o que estão fazendo pode não ser o melhor, certo?

David Crawford: Nós sempre assumimos que os usuários não são maliciosos - damos a eles as melhores intenções - e tentamos ser bastante abertos dessa maneira.

Rebecca Jozwiak: Tudo bem. Aqui está outra pergunta: “Qual é a diferença entre um gerenciador de catálogos, como sua solução, e uma ferramenta MDM? Ou ele realmente depende de um principal diferente, ampliando a escolha das tabelas de consulta, enquanto o MDM o faria automaticamente, mas com o mesmo principal subjacente da coleta de metadados. "

David Crawford: Sim, acho que quando olho para as soluções tradicionais de MDM, a principal diferença é filosófica. É tudo sobre quem é o usuário. Como eu disse no início da minha apresentação, Alation, acho que, quando fomos fundados, fomos fundados com o objetivo de permitir que os analistas produzissem mais insights, para produzi-los mais rapidamente, para serem mais precisos nos insights que eles produzir. Acho que esse nunca foi o objetivo de uma solução tradicional de MDM. Essas soluções tendem a ser direcionadas a pessoas que precisam produzir relatórios de quais dados foram capturados no SCC ou internamente para algum outro tipo de finalidade de auditoria. Às vezes, pode habilitar analistas, mas é mais frequente que, se permitir um profissional em seu trabalho, é mais provável que habilite um arquiteto de dados como um DBA.

Quando você pensa sobre as coisas do ponto de vista de um analista, é quando começa a criar uma ferramenta de consulta que uma ferramenta MDM nunca faria. É aí que você começa a pensar em desempenho e precisão, além de entender quais dados se relacionam às minhas necessidades comerciais. Todas essas coisas surgem em nossas mentes quando projetamos a ferramenta. Ele entra nos nossos algoritmos de busca, no layout das páginas do catálogo e na capacidade de contribuir com conhecimento de toda a organização. Isso inclui o fato de termos construído a ferramenta de consulta e o catálogo diretamente nele, então acho que realmente vem disso. Qual usuário você tem em mente primeiro?

Rebecca Jozwiak: Ok, bom. Isso realmente ajudou a explicar. que estava morrendo de vontade de procurar os arquivos porque precisava sair, mas ele realmente queria que sua pergunta fosse respondida. Ele disse que foi mencionado no início que existem várias linguagens, mas o SQL é a única linguagem alavancada no componente Compor?

David Crawford: Sim, é verdade. E uma das coisas que eu notei, como testemunhei a explosão dos diferentes tipos de bancos de dados, de documentos, de gráficos e de armazenamento de valores-chave, é que eles são realmente poderosos para o desenvolvimento de aplicativos. Eles podem atender a necessidades específicas muito bem, de maneiras melhores do que os bancos de dados relacionais.

Mas quando você os traz de volta à análise de dados, quando você os traz de volta - quando deseja fornecer essas informações para as pessoas que irão fazer relatórios ad hoc ou cavar ad hoc nos dados, eles sempre retornam a um relacionamento, pelo menos, interface para os humanos. Parte disso é apenas porque o SQL é a língua franca da análise de dados, o que significa que, para os humanos, é também para as ferramentas que se integram. Acho que esse é o motivo pelo qual o SQL no Hadoop é tão popular e há tantas tentativas para resolvê-lo, porque, no final das contas, é isso que as pessoas sabem. Provavelmente existem milhões de pessoas que sabem escrever SQL, e eu não arriscaria milhões que sabem escrever uma consulta de estrutura de pipeline de agregação Mongo. E que é uma linguagem padrão usada para integração em uma grande variedade de plataformas. Então, tudo o que está dizendo, raramente nos pedem para sair dela, porque essa é a interface que a maioria dos analistas usa, e é um local em que nos concentramos, especialmente no Compose, que nos concentramos em escrever SQL.

Eu diria que a ciência de dados é o lugar onde eles mais se aventuram, e por isso recebemos perguntas ocasionais sobre o uso do Pig ou SAS. Essas são coisas que definitivamente não tratamos no Compose e que gostaríamos de capturar no catálogo. E eu estou vendo também R e Python. Temos algumas maneiras pelas quais criamos interfaces para que você possa usar as consultas escritas em Alation nos scripts R e Python; portanto, desde que muitas vezes você é cientista de dados e trabalha em uma linguagem de script, seu dados de origem estão em um banco de dados relacional. Você começa com uma consulta SQL e depois a processa ainda mais e cria gráficos dentro do R e Python. E criamos pacotes que você pode importar para os scripts que extraem as consultas ou os resultados da consulta do Alation, para que você possa ter um fluxo de trabalho misto lá.

Rebecca Jozwiak: Ok, ótimo. Sei que passamos um pouco da hora, apenas vou fazer mais uma ou duas perguntas. Sei que você falou sobre todos os diferentes sistemas aos quais você pode se conectar, mas no que diz respeito aos dados hospedados externamente e internamente, eles podem ser pesquisados juntos na sua visão única, na sua única plataforma?

David Crawford: Claro. Existem algumas maneiras de fazer isso. Quero dizer, hospedado externamente, imagino, estou tentando pensar exatamente no que isso pode significar. Isso pode significar um banco de dados que alguém está hospedando na AWS para você. Isso pode significar uma fonte de dados pública de data.gov. Nós nos conectamos diretamente aos bancos de dados efetuando login como outro aplicativo, com uma conta de banco de dados, e é assim que extraímos os metadados. Portanto, se tivermos uma conta e uma porta de rede aberta, podemos acessá-la. E então, quando não temos essas coisas, temos algo chamado fonte de dados virtual, que permite enviar a documentação essencialmente, seja automaticamente, escrevendo seu próprio conector ou preenchendo-a fazendo o mesmo que um upload CSV, para documentar os dados juntamente com os dados internos. Tudo isso é colocado no mecanismo de pesquisa. Torna-se referenciável dentro de artigos e outras documentações e conversas dentro do sistema. É assim que lidamos quando não podemos conectar diretamente a um sistema.

Rebecca Jozwiak: Ok, isso faz sentido. Vou apenas fazer mais uma pergunta para você. Um participante é perguntando: "Como o conteúdo de um catálogo de dados deve ser validado, verificado ou mantido, à medida que os dados de origem são atualizados, à medida que os dados de origem são modificados etc."

David Crawford: Sim, é uma pergunta que recebemos muito, e acho que uma das coisas que nós - uma de nossas filosofias, como eu disse, não acreditamos que os usuários sejam maliciosos. Assumimos que eles estão tentando contribuir com o melhor conhecimento. Eles não entrarão e deliberadamente enganarão as pessoas sobre os dados. Se isso é um problema na sua organização, talvez o Alation não seja a ferramenta certa para você. Mas se você assume boas intenções pelos usuários, pensamos nisso como algo em que as atualizações chegam e, geralmente, o que fazemos é colocar um administrador responsável por cada objeto de dados ou cada seção dos dados. E podemos notificar esses administradores quando são feitas alterações nos metadados e eles podem lidar com isso dessa maneira. Eles vêem as atualizações chegarem, eles as validam. Se não estiverem certos, eles podem voltar e modificá-los e informar, e esperamos chegar até o usuário que contribuiu com as informações e ajudá-los a aprender.

Portanto, essa é a principal maneira de pensar em fazê-lo. Esse tipo de sugestão da multidão e da gerência dos comissários de bordo, então temos algumas capacidades em torno disso.

Rebecca Jozwiak: Ok, bom. E se você pudesse deixar as pessoas saberem como elas podem começar melhor com o Alation e aonde elas podem ir especificamente para obter mais informações. Eu sei que você compartilhou isso um pouco.ly. Esse é o melhor lugar?

David Crawford: Alation.com/learnmore Eu acho que é um ótimo caminho a percorrer. Para se inscrever em uma demonstração, o site Alation.com possui muitos recursos excelentes, white papers de clientes e notícias sobre nossa solução. Então eu acho que é um ótimo lugar para começar. Você também pode enviar um e-mail.

Rebecca Jozwiak: Ok, ótimo. E eu sei, participantes, desculpe-me por não ter respondido a todas as perguntas hoje, mas, caso contrário, elas serão encaminhadas para David, sua equipe de vendas ou alguém da Alation, para que possam ajudar a responder suas perguntas e ajudar a entender o que Alation faz ou o que eles fazem melhor.

E com isso, pessoal, eu vou em frente e nos assino. Você sempre pode encontrar os arquivos em InsideAnalysis.com. Você também pode encontrá-lo em Techopedia.com. Eles tendem a atualizar um pouco mais rápido, então verifique isso com certeza. E muito obrigado a David Crawford, Dez Blanchfield e Robin Boor hoje. Foi um ótimo webcast. E com isso, eu te darei adeus. Obrigado pessoal. Tchau tchau.

David Crawford: Obrigado.