Q:
Por que ensacar no aprendizado de máquina diminui a variação?
UMA:A agregação de bootstrap, ou "empacotamento", no aprendizado de máquina diminui a variação através da criação de modelos mais avançados de conjuntos de dados complexos. Especificamente, a abordagem de empacotamento cria subconjuntos que geralmente se sobrepõem para modelar os dados de uma maneira mais envolvente.
Uma noção interessante e direta de como aplicar o ensacamento é coletar um conjunto de amostras aleatórias e extrair a média simples. Em seguida, usando o mesmo conjunto de amostras, crie dezenas de subconjuntos construídos como árvores de decisão para manipular os resultados finais. A segunda média deve mostrar uma imagem mais verdadeira de como essas amostras individuais se relacionam em termos de valor. A mesma idéia pode ser aplicada a qualquer propriedade de qualquer conjunto de pontos de dados.
Download grátis: Machine Learning e por que é importante |
Como essa abordagem consolida a descoberta em limites mais definidos, diminui a variação e ajuda na super adaptação. Pense em um gráfico de dispersão com pontos de dados um pouco distribuídos; usando um método de ensacamento, os engenheiros "diminuem" a complexidade e orientam as linhas de descoberta para parâmetros mais suaves.
Alguns falam sobre o valor do ensacamento como "dividir e conquistar" ou um tipo de "heurística assistida". A idéia é que, por meio da modelagem de conjuntos, como o uso de florestas aleatórias, aqueles que usam ensacamento como técnica podem obter resultados de dados com variação mais baixa. Em termos de diminuir a complexidade, o ensacamento também pode ajudar com o ajuste excessivo. Pense em um modelo com muitos pontos de dados: digamos, conectar os pontos com 100 pontos não alinhados. A linha de dados visuais resultante será irregular, dinâmica e volátil. Em seguida, "elimine" a variação reunindo conjuntos de avaliações. Na aprendizagem em conjunto, isso geralmente é pensado como juntar vários "alunos fracos" para fornecer um resultado colaborativo de "aprendizado forte". O resultado é uma linha de dados mais suave, com contornos e menos variação no modelo.
É fácil ver como a ideia de ensacamento pode ser aplicada aos sistemas de TI corporativos. Os líderes empresariais geralmente querem uma "visão geral" do que está acontecendo com produtos, clientes etc. Um modelo com excesso de equipamento pode retornar menos dados digeríveis e mais resultados "dispersos", onde a ensacamento pode "estabilizar" um modelo e torná-lo mais útil para usuários finais.