Preparação de dados para tratamento

É habitual ter recolhido os dados em papel ou mesmo em computador.

No entanto por vezes o formato dos dados que recolhe não está no formato mais adequado para ser efectuado o seu tratamento estatístico.

 

Por exemplo. pode ter variáveis como o sexo, onde nas respostas tem escrito por extenso, homem ou mulher.

Para ser feito o tratamento estatístico deverá ter isto substituido por números com valores diferentes. Se tiver um 1 e um 0 uma média da coluna pode dizer-lhe logo a percentagem de cada sexo.

 

Noutros casos pode ter variáveis ordinais. Por exemplo, ensino básico, 12º ano, licenciatura e mestrado. Neste caso existe uma ordem entre eles pelo que uma codificação possível será 1 para ensino básico, 2 para 12º ano, 3 para licenciatura e 4 para mestrado. Poderá ter mais números se tiver mais classificações.

 

Existem casos onde são só variáveis nominais. Por exemplo, localidade. Neste casos não é possível fazer grande tratamento dos dados. Se pretender comparar cidades com arredores, norte com sul ou litoral com interior terá que criar colunas adicionais nas quais irá colocar um 1 ou um 0 conforme a localidade de quem responda tenha essas características.

Nestes casos, mesmo que seja para agrupar terá que ter atenção se os nomes estão escritos sempre da mesma forma.

 

Outro caso comum é ter perguntas com respostas múltiplas. Por exemplo, que redes utiliza ? e onde as respostas podem ser facebook, skype, etc.

Nestes casos deverá criar novas colunas para cada valor possível e colocar um 1 ou um 0 conforme as respostas dadas. Habitualmente o 1 indicará que usa uma determinada rede.

 

Tenha também atenção que ao passar dados entre várias plataformas por vezes pode perder parte da informação devido aos formatos usados. Em excel por exemplo se colocar 2-5 pode ficar com uma data em vez do intervalo 2 a 5.

 

Campos de texto muito compridos também pode ser cortados na passagem entre plataformas.

Ao ter muitos campos por vezes irá ter mais respostas vazias e nesses casos poderá ficar com linhas que não podem entrar nalgumas análises mais complexas como análise de cluster onde se exige que todos os campos estejam preenchidos.

Leave your comment