[quartas quantitativas] limpar a base de dados #1

Diapositivo1

 

O processo de “limpar a base de dados” é algo que alguns investigadores mais ansiosos (e menos cuidadosos) muitas vezes saltam para testar imediatamente as hipóteses.

Não façam isso.

Trabalhar com uma base de dados que não está limpa é a mesma coisa que cozinhar alimentos sujos e aos quais são se tirou as pontas secas e podres.

Trabalhar uma base de dados cujos dados estão bem introduzidos (sem gralhas) e bem codificada é ESSENCIAL. Depois há outras coisas importantes como a verificação de missing values, etc.

Mas uma coisa de cada vez – e já lá chegaremos.

Fiquem antes de mais com a ideia que realmente é mesmo preciso fazer o trabalho chato e “de sapa” que é verificar e corrigir a vossa base de dados.

 

Lindo. E como é que isso se faz?

Em primeiro lugar, uma pessoa tem de encarar o bicho de frente.

Isso mesmo: linha por linha convém ver

  1. se há células em branco (onde se devem inserir os códigos definidos para “missing values”)
    1. um bom truque para isto é usar o “sort ascending” em cada coluna (variável) do SPSS, já que assim ficam automaticamente no topo da lista as células vazias.
  2. se há valores fora do leque de opções (fora do máximo ou mínimo de uma escala, por exemplo, o que pode indicar um erro de digitação. Por exemplo: se a vossa escala vai de 1 a 7 e vos aparece uma célula com “33” o mais provável é que a resposta do sujeito tenha sido “3”, mas vocês se tenham enganado a passar para a base de dados)

Se a base for pequena, Tabachnik e Fidel (2007) sugerem mesmo que se faça uma “proofread” – que é inglês para pegar nos questionários e verificar se ficou tudo bem inseridinho na base de dados. Se a base for enorme (como aquela em que estou a trabalhar) – não se metam nisso!

A ideia do proofread é tentar aproveitar tantos dados originais como possível (que é o mais valioso numa boa análise estatística: dados originais, numéricos, e contínuos, é a preferência para estas bandas!); se não for exequível, há outras coisas que podem (e devem) fazer.

Verifiquem ainda, nesta primeira fase se as vossas variáveis estão adequadamente classificadas como “nominal”, “ordinal” ou “scale”.

  • nominal – os dados organizados por classes que não se podem hierarquizar.
  • ordinal – os dados são ordenáveis, mas não há um zero absouto ou a distância de um ponto da ordem para o outro é subjetivo ou variável
  • scale – numeração que é contínua

Regras fundamentais para se lidar com bases de dados

Os dados são a cosa mais preciosa de uma base de dados. parece óbvio, mas não é.

Guardem a vossa base de dados sempre com um nome diferente em cada dia e tentem n\ao deitar fora a primeira versão ou a versão anterior a cada alteração major à forma como a base está desenhada (e.g. a base antes de computarem valores ou reclassificarem variáveis; antes e depois de substituirem os missing values, etc.)

(continua)

Um pensamento sobre “[quartas quantitativas] limpar a base de dados #1

  1. Olá Helena,

    existe alguma forma de limpar a base de dados de forma automatica?

    Preciso de eliminar vários respondents que não responderam ao survey até ao fim mas a amostra é de 3000 para cima.

    Obrigada

Deixe uma Resposta

Preencha os seus detalhes abaixo ou clique num ícone para iniciar sessão:

Logótipo da WordPress.com

Está a comentar usando a sua conta WordPress.com Terminar Sessão / Alterar )

Imagem do Twitter

Está a comentar usando a sua conta Twitter Terminar Sessão / Alterar )

Facebook photo

Está a comentar usando a sua conta Facebook Terminar Sessão / Alterar )

Google+ photo

Está a comentar usando a sua conta Google+ Terminar Sessão / Alterar )

Connecting to %s