Q:
Pode haver muitos dados no big data?
UMA:A resposta para a pergunta é um retumbante SIM. Pode haver absolutamente muitos dados em um projeto de big data.
Existem inúmeras maneiras pelas quais isso pode acontecer e várias razões pelas quais os profissionais precisam limitar e organizar os dados de várias maneiras para obter os resultados certos. (Leia 10 grandes mitos sobre big data.)
Em geral, os especialistas falam sobre diferenciar o "sinal" do "ruído" em um modelo. Em outras palavras, em um mar de big data, os dados de insight relevantes se tornam difíceis de segmentar. Em alguns casos, você está procurando uma agulha no palheiro.
Por exemplo, suponha que uma empresa esteja tentando usar big data para gerar insights específicos sobre um segmento de uma base de clientes e suas compras em um período de tempo específico. (Leia O que o big data faz?)
A absorção de uma quantidade enorme de ativos de dados pode resultar na entrada de dados aleatórios que não são relevantes ou até produzir um viés que inclina os dados em uma direção ou outra.
Isso também diminui drasticamente o processo, pois os sistemas de computação precisam lidar com conjuntos de dados cada vez maiores.
Em tantos tipos diferentes de projetos, é altamente importante que os engenheiros de dados selecionem os dados para conjuntos de dados restritos e específicos - no caso acima, esses seriam apenas os dados para o segmento de clientes em estudo, apenas os dados para a época estrutura em estudo e uma abordagem que elimina identificadores adicionais ou informações básicas que podem confundir coisas ou desacelerar os sistemas. (Função ReadJob: engenheiro de dados.)
Para mais, vejamos como isso funciona na fronteira do aprendizado de máquina. (Leia Machine Learning 101.)
Os especialistas em aprendizado de máquina falam sobre algo chamado "ajuste excessivo", em que um modelo excessivamente complexo leva a resultados menos eficazes quando o programa de aprendizado de máquina é liberado com novos dados de produção.
A adaptação excessiva acontece quando um conjunto complexo de pontos de dados corresponde muito bem a um conjunto de treinamento inicial e não permite que o programa se adapte facilmente a novos dados.
Agora tecnicamente, o ajuste excessivo é causado não pela existência de muitas amostras de dados, mas pela coroação de muitos pontos de dados. Mas você poderia argumentar que ter muitos dados também pode ser um fator que contribui para esse tipo de problema. Lidar com a maldição da dimensionalidade envolve algumas das mesmas técnicas que foram feitas em projetos anteriores de big data, enquanto os profissionais tentavam identificar o que estavam alimentando os sistemas de TI.
O ponto principal é que o big data pode ser extremamente útil para as empresas ou pode se tornar um grande desafio. Um aspecto disso é se a empresa possui os dados corretos em jogo. Os especialistas sabem que não é aconselhável simplesmente despejar todos os ativos de dados em uma tremonha e apresentar idéias dessa maneira - em novos sistemas de dados nativos da nuvem e sofisticados, há um esforço para controlar, gerenciar e selecionar dados para obter mais precisão e precisão. uso eficiente de ativos de dados.