Q:
Por que uma matriz de confusão é útil no ML?
UMA:Existem várias maneiras de discutir por que uma matriz de confusão é valiosa no aprendizado de máquina (ML) - mas uma das maneiras mais simples é explicar que a matriz de confusão é um recurso de visualização de dados.
Uma matriz de confusão permite que os espectadores vejam rapidamente os resultados do uso de um classificador ou outro algoritmo. Ao usar uma tabela simples para mostrar resultados analíticos, a matriz de confusão resume seus resultados em uma visualização mais digerível.
A matriz de confusão usa terminologia específica para organizar os resultados. Existem verdadeiros positivos e verdadeiros negativos, bem como falsos positivos e falsos negativos. Para uma matriz de confusão mais complicada ou baseada na classificação de comparação, esses valores podem ser mostrados como sendo classes reais e previstas para dois objetos distintos.
Independentemente da terminologia semântica, os resultados são agrupados em uma tabela quadrada (ou retangular).
Essa visão facilita para os analistas verem quão preciso um algoritmo estava na classificação de resultados. (Leia Novos Geradores Colocam Algoritmos Modernos para Trabalhar no Art. ASCII.)
A utilidade da matriz de confusão tem a ver com a complexidade dos projetos de ML e também com a maneira como as informações são formatadas e entregues aos usuários. Imagine uma série de resultados lineares, incluindo falsos positivos, falsos negativos, verdadeiros positivos e verdadeiros negativos. (Leia Machine Learning 101.)
Um usuário teria que tabular todos esses resultados lineares em um gráfico para entender como o algoritmo funcionava e quão preciso era. Com a matriz de confusão, essas informações são simplesmente apresentadas em um poderoso modelo visual.
Por exemplo, suponha que a máquina seja solicitada a classificar 20 imagens, das quais cinco são frutas e cinco são vegetais. Se uma matriz de confusão contém o seguinte conteúdo (da parte superior esquerda no sentido horário): 7, 5, 3, 5, a matriz está mostrando que sete foram corretamente identificados como vegetais, enquanto três foram corretamente classificados como frutas.
Os outros 10, como representados, são resultados em que o programa não conseguiu identificar corretamente a imagem.
A matriz de confusão será útil em todos os tipos de análises de ML. Ao observar esse recurso, os usuários podem descobrir como lidar com problemas como dimensionalidade e sobreajuste e outras maneiras de otimizar um algoritmo.