O processo de “limpar a base de dados” é algo que alguns investigadores mais ansiosos (e menos cuidadosos) muitas vezes saltam para testar imediatamente as hipóteses.
Não façam isso.
Trabalhar com uma base de dados que não está limpa é a mesma coisa que cozinhar alimentos sujos e aos quais são se tirou as pontas secas e podres.
Trabalhar uma base de dados cujos dados estão bem introduzidos (sem gralhas) e bem codificada é ESSENCIAL. Depois há outras coisas importantes como a verificação de missing values, etc.
Mas uma coisa de cada vez – e já lá chegaremos.
Fiquem antes de mais com a ideia que realmente é mesmo preciso fazer o trabalho chato e “de sapa” que é verificar e corrigir a vossa base de dados.
Lindo. E como é que isso se faz?
Em primeiro lugar, uma pessoa tem de encarar o bicho de frente.
Isso mesmo: linha por linha convém ver
- se há células em branco (onde se devem inserir os códigos definidos para “missing values”)
- um bom truque para isto é usar o “sort ascending” em cada coluna (variável) do SPSS, já que assim ficam automaticamente no topo da lista as células vazias.
- se há valores fora do leque de opções (fora do máximo ou mínimo de uma escala, por exemplo, o que pode indicar um erro de digitação. Por exemplo: se a vossa escala vai de 1 a 7 e vos aparece uma célula com “33” o mais provável é que a resposta do sujeito tenha sido “3”, mas vocês se tenham enganado a passar para a base de dados)
Se a base for pequena, Tabachnik e Fidel (2007) sugerem mesmo que se faça uma “proofread” – que é inglês para pegar nos questionários e verificar se ficou tudo bem inseridinho na base de dados. Se a base for enorme (como aquela em que estou a trabalhar) – não se metam nisso!
A ideia do proofread é tentar aproveitar tantos dados originais como possível (que é o mais valioso numa boa análise estatística: dados originais, numéricos, e contínuos, é a preferência para estas bandas!); se não for exequível, há outras coisas que podem (e devem) fazer.
Verifiquem ainda, nesta primeira fase se as vossas variáveis estão adequadamente classificadas como “nominal”, “ordinal” ou “scale”.
- nominal – os dados organizados por classes que não se podem hierarquizar.
- ordinal – os dados são ordenáveis, mas não há um zero absouto ou a distância de um ponto da ordem para o outro é subjetivo ou variável
- scale – numeração que é contínua
Regras fundamentais para se lidar com bases de dados
Os dados são a cosa mais preciosa de uma base de dados. parece óbvio, mas não é.
Guardem a vossa base de dados sempre com um nome diferente em cada dia e tentem n\ao deitar fora a primeira versão ou a versão anterior a cada alteração major à forma como a base está desenhada (e.g. a base antes de computarem valores ou reclassificarem variáveis; antes e depois de substituirem os missing values, etc.)
(continua)
Olá Helena,
existe alguma forma de limpar a base de dados de forma automatica?
Preciso de eliminar vários respondents que não responderam ao survey até ao fim mas a amostra é de 3000 para cima.
Obrigada