Índice:
Definição - O que significa Dirty Data?
Dados sujos referem-se a dados que contêm informações incorretas. Também pode ser usado quando se refere a dados que estão na memória e ainda não foram carregados em um banco de dados. A remoção completa de dados sujos de uma fonte é impraticável ou praticamente impossível.
Os seguintes dados podem ser considerados dados sujos:
- Dados enganosos
- Dados duplicados
- Dados incorretos
- Dados imprecisos
- Dados não integrados
- Dados que violam regras de negócios
- Dados sem formatação generalizada
- Dados incorretamente pontuados ou ortográficos
Techopedia explica Dirty Data
Além da entrada de dados incorreta, dados sujos podem ser gerados devido a métodos inadequados no gerenciamento e armazenamento de dados. Alguns tipos de dados sujos são explicados abaixo:
- Dados incorretos - para garantir que os dados sejam válidos ou corretos, o valor digitado deve estar em conformidade com os valores válidos do campo. Por exemplo, o valor digitado no campo mês deve variar de 1 a 12 ou a idade de um indivíduo deve ser menor que 130. A correção do valor dos dados pode ser imposta de forma programática por meio de tabelas de pesquisa ou com verificações de edição.
- Dados imprecisos - é possível que um valor de dados possa estar correto, mas não preciso. Às vezes, é prático examinar outros arquivos ou campos para descobrir se o valor dos dados é preciso com base no contexto em que é usado. Ainda assim, a precisão geralmente só pode ser validada pela verificação manual.
- Violações de regra de negócios - Dados que violam regras de negócios são outro tipo de dados sujos. Por exemplo, uma data efetiva deve sempre vir antes de uma data de validade. Outro exemplo de violação de regras de negócios pode ser a reivindicação de seguro de um paciente do Medicare, onde o paciente ainda pode estar abaixo da idade da aposentadoria e deixa de ter direito ao Medicare.
- Dados inconsistentes - A redundância de dados não verificada leva a inconsistências nos dados. Cada organização é afetada com dados inconsistentes e repetitivos. Isso é particularmente típico nos dados do cliente.
- Dados incompletos - Dados com valores ausentes são o principal tipo de dados incompletos.
- Dados duplicados - Dados duplicados podem ocorrer devido a envios repetidos, junção incorreta de dados ou erro do usuário.
Para aumentar a qualidade dos dados e evitar dados sujos, as organizações devem incorporar metodologias para garantir a integridade, validade, consistência e correção dos dados.
