Índice:
Definição - O que significa Outlier Detection?
A detecção de outlier é o processo de detecção e subsequente exclusão de outliers de um determinado conjunto de dados.
Um outlier pode ser definido como um dado ou observação que se desvia drasticamente da norma ou da média do conjunto de dados. Um outlier pode ser causado simplesmente por acaso, mas também pode indicar erro de medição ou que o conjunto de dados fornecido tenha uma distribuição pesada.
Aqui está um cenário simples na detecção de outlier, um processo de medição produz consistentemente leituras entre 1 e 10, mas em alguns casos raros, obtemos medições maiores que 20.
Essas medidas raras além da norma são chamadas de outliers, pois ficam "fora" da curva de distribuição normal.
Techopedia explica a detecção de outlier
Na verdade, não existe um método matemático padronizado e rígido para determinar um erro externo, porque ele realmente varia de acordo com o conjunto ou a população de dados; portanto, sua determinação e detecção se tornam subjetivas. Através da amostragem contínua em um determinado campo de dados, as características de um outlier podem ser estabelecidas para facilitar a detecção.
Existem métodos baseados em modelos para detectar discrepantes e eles assumem que todos os dados são retirados de uma distribuição normal e identificarão observações ou pontos, considerados improváveis com base na média ou desvio padrão, como discrepantes. Existem vários métodos para detecção de outlier:
- Teste de Outriers do Grubb - Isso se baseia na suposição de que os dados são de uma distribuição normal e remove um outlier de cada vez, com a repetição do teste até que não sejam encontrados mais outliers.
- Teste Q de Dixon - Também baseado na normalidade do conjunto de dados, esse método testa dados incorretos. Observou-se que isso deve ser usado com moderação e nunca mais de uma vez em um conjunto de dados.
- Critério de Chauvenet - É usado para analisar se o discrepante é falso ou ainda está dentro dos limites e deve ser considerado como parte do conjunto. A média e o desvio padrão são obtidos e a probabilidade de ocorrência do erro é calculada. Os resultados determinarão se deve ou não ser incluído.
- Critério de Pierce - Um limite de erro é definido para uma série de observações, além das quais todas as observações serão descartadas, pois já envolvem um erro tão grande.
