Capítulo 2 Carregando os dados no ambiente
Como rotina em uma análise de dados, um dos primeiros passos é criar, carregar ou importar o conjunto de dados no ambiente R. O formato mais comumente utilizado para o armazenamento de dados em várias colunas é o de data frame. Existem várias maneiras de se carregar os dados e criar data frames, dependendo do tamanho do conjunto e formato disponível. Muitas vezes, queremos apenas criar conjuntos de sequencias ou números, que pode ser feito com as funções básicas que já foram vistas, não necessitando carregar arquivo externo. Comumente, os dados são organizados em planilhas eletrônicas, as quais devem ser importadas para o ambiente. Na sequencia, serão apresentadas as formas mais comuns de ter os dados no R para análise.
2.1 Usando o argumento text
Uma forma de carregar rapidamente dados no ambiente é por meio do argumento text. Você pode copiar (ctrl + c) os dados de uma planilha e colar (ctrl + v) conforme o exemplo abaixo, entre aspas, após o argumento text da função read.table
. Cada coluna será definida uma vez que tenha espaço entre os elementos. Pode ser útil para criar conjuntos pequenos. Abaixo, um exemplo de criação do conjunto survey.
survey <- read.table(h=T, text="
campo ano severidade
25 2010 3
25 2010 4
25 2010 10
25 2010 23
25 2010 34
26 2010 2
26 2010 4
26 2010 5
")
Verificar a estrutura do conjunto criado com a função str
.
str(survey)
2.2 Importando do excel
Normalmente conjuntos de dados maiores são criados em planilhas eletrônicas e salvos em extensões do excel como xls ou xlsx. Há alguns pacotes que permitem importar arquivos do excel. Dentre as várias funções, destaca-se a read_excel
do pacote readxl.
??readxl
Vamos importar o arquivo fungicidewheat.xlsx e atribuir ao data frame wheat. Lembrando que deve-se incluir o caminho do arquivo, caso ele não se encontre no mesmo diretório onde está salvo o arquivo .r ou .rmd.
library(readxl) # carrega o pacote no ambiente
wheat <- read_excel("data/fungicidewheat.xlsx") # leitura com a função read_excel
head (wheat)[ ,1:4] # mostra apenas as 4 primeiras colunas
## # A tibble: 6 x 4
## treat time dose rep
## <chr> <chr> <dbl> <dbl>
## 1 Ionic liquid Curative 0.5 1
## 2 Ionic liquid Curative 0.5 2
## 3 Ionic liquid Curative 0.5 3
## 4 Ionic liquid Curative 0.5 4
## 5 Ionic liquid Curative 0.5 5
## 6 Ionic liquid Curative 2 1
2.3 Dados em outros arquivos
Muitos arquivos de dados estão disponíveis em formatos csv (comma separated values) ou txt (texto). Esses arquivos também podem ser salvos nesse formato, a partir de uma planilha eletrônica. Vamos utilizar a função read_csv
do pacote readr. Saber mais sobre o readr
library(readr) # carrega o pacote
wheat2 <- read_csv("data/fungicidewheat.csv") # importa o arquivo csv
## Parsed with column specification:
## cols(
## treat = col_character(),
## time = col_character(),
## dose = col_double(),
## rep = col_double(),
## total_spikes = col_double(),
## dis_spikes = col_double(),
## total_spikelets = col_double(),
## dis_spikelets = col_double(),
## total_seeds = col_double(),
## inf_seeds = col_double()
## )
2.4 Dados em pacotes
O R vem com muitos arquivos de dados que são carregados quando da inicialização do programa, bastando apenas entrar com o nome do arquivo ou atribuir os dados a um dataframe. A função data()
mostra todos os arquivos de dados com uma breve descrição. Entre com o nome do arquivo para visualizá-lo. Vamos carregar o conjunto de dados Orange
. Note que entrando com o nome do conjunto os dados ele não carrega no “Environment”, mas apenas é mostrado. Veja a diferença abaixo.
head(Orange) # apenas 6 primeiras linhas
## Tree age circumference
## 1 1 118 30
## 2 1 484 58
## 3 1 664 87
## 4 1 1004 115
## 5 1 1231 120
## 6 1 1372 142
data(Orange)
Pode-se atribuir o conjunto Orange a um determinado vetor. Vamos atribuir os dados na forma de um data fame com o nome laranja, assim ele ficará armazenado no ambiente.
laranja <- data.frame(Orange) # usa o comando data.frame
head(laranja)
## Tree age circumference
## 1 1 118 30
## 2 1 484 58
## 3 1 664 87
## 4 1 1004 115
## 5 1 1231 120
## 6 1 1372 142
2.5 Dados de pacotes
Pacotes do R geralmente possuem arquivos de dados para demonstrar o uso das funções. Vamos carregar o pacote agricolae e visualizar o conjunto de dados com o nome ralstonia
.
library(agricolae)
data(ralstonia) # o conjunto ralstonia foi carregado no ambiente
2.6 Referências na web
[DataCamp tutorial] (https://www.datacamp.com/community/tutorials/r-data-import-tutorial)