“Finding the question is often more important than finding the answer.”
John Tukey

1 Instruções

Para realização desta atividade será preciso estar conectado à internet para que possa importar os dados.

As respostas para estes exercícios estão disponíveis aqui.

2 Pacotes e funções para importar base de dados via console

Dados Tipo Função Pacote
separado por vírgula (.csv) read.csv() utils (default)
outros formatos delimitados “;”, “” , etc read.table() utils (default)
Stata version 7-12 (.dta) read.dta() foreign
Stata version 13-14 (.dta) readdta() haven
SPSS (.sav) read.spss(), read_spss() foreign, haven
SAS (.sas7bdat) read.sas7bdat(), read_sas() sas7bdat, haven
Excel (.xls, .xlsx) read_excel() readxl

3 Exercícios

Exercício 1: Importe a base de dados sobre rendimento escolar “school.sav” (SPSS) do diretório data ou diretamente do endereço web:

https://github.com/danielmarcelino/Datasets/raw/master/Hox2000/school.sav

Exercício 2: Explore a estrutura dos dados.

  • Peça um sumário descritivo de todas as variáveis.

  • Apresente as primeiras linhas do data frame para entender melhor o que ele contém.

Exercício 3: Use a função attach() para deixar as variáveis da base de dados facilmente acessíveis.

4 Principais funções para descrição de dados

Comando Descrição
sum(vec) soma (total) todos os elementos de vec
mean(vec) média dos elementos de vec
median(vec) median de vec
min(vec), max(vec) o menor ou maior elemente de vec
sd(vec), var(vec) desvio padronizado e variância de vec
range(vec) intervalo dos valores de vec
quantile(vec) quartis ou separatrizes que dividem os dados em vec em 4 partes iguais
length(vec) retorna o número de elementos em vec
summary(vec) apresenta um sumário contendo cinco estatísticas básicas (five-numbers).

Exercício 4: Produza algumas estatísticas descritivas para a variável CLASSIZE. Queremos descobrir:

  • Qual é a média para CLASSIZE encontrada na amostra?

  • Qual é a mediana para CLASSIZE encontrada na amostra?

  • Qual é o menor valor para CLASSIZE encontrado na amostra?

  • Qual é o maior valor para CLASSIZE encontrado na amostra?

  • Qual é o desvio padrão de CLASSIZE encontrado na amostra?

  • Qual é variância de CLASSIZE encontrada na amostra?

  • Qual é o intervalo dos valores de CLASSIZE encontrado na amostra?

  • Quais são os 25º e 75º percentis para o tamanho da classe (CLASSIZE) encontrados na amostra?

Exercício 5: Substitua os valores da variável PUPILSEX de modo que ‘0’ se torne ‘F’ e ‘1’ se torne ‘M’.

Exercício 6: Como você poderia substituir os valores da variável PUPILSEX como no exercício anterior, mas sem que o data frame estivesse disponível (sem usar attach())?