Q:
O que é uma maneira simples de descrever preconceitos e variações no aprendizado de máquina?
UMA:Existem inúmeras maneiras complicadas de descrever preconceitos e variações no aprendizado de máquina. Muitos deles utilizam equações matemáticas significativamente complexas e mostram através de gráficos como exemplos específicos representam várias quantidades de viés e variância.
Aqui está uma maneira simples de descrever preconceito, variação e o trade-off de polarização / variação no aprendizado de máquina.
Na sua essência, o viés é uma simplificação excessiva. Pode ser importante adicionar à definição de viés alguma suposição ou erro assumido.
Se um resultado altamente tendencioso não estivesse errado - se estivesse no dinheiro - seria altamente preciso. O problema é que o modelo simplificado contém algum erro, por isso não está no alvo - o erro significativo continua se repetindo ou até mesmo amplificado à medida que o programa de aprendizado de máquina funciona.
A definição simples de variação é que os resultados são muito dispersos. Isso geralmente leva ao excesso de complexidade do programa e a problemas entre os conjuntos de teste e treinamento.
Alta variação significa que pequenas mudanças criam grandes mudanças nas saídas ou nos resultados.
Outra maneira de simplesmente descrever a variação é que há muito ruído no modelo e, portanto, fica mais difícil para o programa de aprendizado de máquina isolar e identificar o sinal real.
Portanto, uma das maneiras mais simples de comparar desvios e variações é sugerir que os engenheiros de aprendizado de máquina tenham de percorrer uma linha tênue entre muito viés ou simplificação excessiva e muita variação ou supercomplexidade.
Outra maneira de representar esse poço é com um gráfico de quatro quadrantes mostrando todas as combinações de alta e baixa variação. No quadrante de baixa tendência / baixa variação, todos os resultados são reunidos em um cluster preciso. Em um resultado de alta distorção / baixa variação, todos os resultados são reunidos em um cluster impreciso. Em um resultado de viés baixo / alta variação, os resultados são espalhados em torno de um ponto central que representaria um cluster preciso, enquanto em um resultado de alto viés / alta variação, os pontos de dados são dispersos e imprecisos coletivamente.
