library(dplyr)
Pacotes
PacoteDplyr
O dplyr é um pacote do R voltado para manipulação e transformação de dados de forma rápida, clara e intuitiva. Ele faz parte do tidyverse, o conjunto de pacotes para ciência de dados no R. Seu principal objetivo é facilitar o trabalho com data frames, permitindo filtrar, selecionar, agrupar, ordenar, resumir e transformar dados de maneira organizada.
Principais funções:
filter()
– Seleciona linhas com base em condições.
select()
– Seleciona colunas específicas.
mutate()
– Cria novas colunas ou transforma colunas existentes.
arrange()
– Ordena as linhas por uma ou mais colunas.
summarise()
– Resume os dados, gerando estatísticas (média, soma, etc).
group_by()
– Agrupa os dados por categorias para realizar resumos em cada grupo.
Trabalhando em um conjunto de dados
Carregar o pacote
Importar dados
library(gsheet)
<- gsheet2tbl("https://docs.google.com/spreadsheets/d/1bq2N19DcZdtax2fQW9OHSGMR0X2__Z9T/edit?gid=465348652#gid=465348652")
dados_nuvem
<- gsheet2tbl("https://docs.google.com/spreadsheets/d/1bq2N19DcZdtax2fQW9OHSGMR0X2__Z9T/edit?gid=983033137#gid=983033137")
dados_mg
<- gsheet2tbl("https://docs.google.com/spreadsheets/d/1bq2N19DcZdtax2fQW9OHSGMR0X2__Z9T/edit?gid=1118819738#gid=1118819738") dados_survey
Manipulação
|>
dados_survey group_by(species) |>
count() #Conta quantas observações existem em dados_survey para cada species.
# A tibble: 2 × 2
# Groups: species [2]
species n
<chr> <int>
1 Fgra 552
2 Fspp 114
|>
dados_survey group_by(residue) |>
count() #Conta quantas observações existem para cada tipo de residue.
# A tibble: 3 × 2
# Groups: residue [3]
residue n
<chr> <int>
1 corn 169
2 soybean 281
3 <NA> 216
|>
dados_survey group_by(state, residue) |>
count() #Conta o número de observações para cada combinação de state e residue.
# A tibble: 3 × 3
# Groups: state, residue [3]
state residue n
<chr> <chr> <int>
1 PR <NA> 216
2 RS corn 169
3 RS soybean 281
<- dados_survey |>
RS filter(state== "RS")
<- dados_survey |>
PR filter(state== "PR") #filtrando dados por estado criando dois data frames
<- rbind(RS, PR) #Combina os dois em um único data frame.
combinado
<- dados_survey |>
survey_b select(year, state, species) #Cria survey_b contendo apenas as colunas year, state e species.
<- dados_survey |>
survey_2009 select(year, state, species) |>
filter(year== 2009)
<- dados_survey |>
survey_2010 select(year, state, species) |>
filter(year== 2010)
<- dados_survey |>
survey_2011 select(year, state, species) |>
filter(year== 2011) #Filtra dados por ano
Pacote janitor
O pacote é utilizado para limpeza e organização de dados, focado em deixar nomes de colunas limpos e consistentes; gerar tabelas de contingência prontas para relatórios; facilitar detecção de valores duplicados ou ausentes. Ele é extremamente útil em análises exploratórias, relatórios e pré-processamento de dados, tornando o fluxo de trabalho mais limpo e rápido.
Principais funções:
clean_names()
- Limpa os nomes das colunas, transformando-os em nomes minúsculos e separados por _
, removendo espaços e caracteres especiais.
tabyl()
- Cria tabelas de frequência (contingência) de forma rápida.
adorn_*
-Funções para adicionar percentuais, totais de linha/coluna e formatação em tabelas geradas por tabyl()
:
adorn_totals()
– adiciona totais.adorn_percentages()
– adiciona percentuais.adorn_rounding()
– arredonda valores.
library(janitor)
|> tabyl(state, species) #Gera uma tabela cruzada mostrando quantas observações existem de cada species por state. survey_b
state Fgra Fspp
PR 150 66
RS 402 48
|> tabyl(species, year) #Gera uma tabela cruzada mostrando quantas observações existem de cada species por year. survey_b
species 2009 2010 2011
Fgra 225 187 140
Fspp 40 29 45
Pacote tidyr
É um pacote do tidyverse que fornece ferramentas para arrumar (tidy) dados no R, deixando-os em um formato limpo e organizado, o que facilita análises e visualizações.
Principais funções:
pivot_longer()
- transforma colunas em linhas. Útil para converter formato largo ➔ formato longo.
pivot_wider()
- Transforma linhas em colunas. Útil para converter formato longo ➔ formato largo.
separate()
- Separa uma coluna em múltiplas colunas, com base em um separador.
unite()
- Combina múltiplas colunas em uma única coluna.
library(tidyr)
# Transformação para formato largo usando pivot_wider
<- dat_mg %>%
dat_mg2 pivot_wider(names_from = "trat", values_from = "comp") %>%
select(-rep) # Remove coluna 'rep' se presente
# Visualização das colunas, estrutura e primeiras linhas
names(dat_mg2)
[1] "Mg2" "control"
glimpse(dat_mg2)
Rows: 10
Columns: 2
$ Mg2 <dbl> 9.0, 12.5, 10.0, 8.0, 13.2, 11.0, 10.8, 9.5, 10.8, 10.4
$ control <dbl> 13.72, 15.91, 15.70, 14.20, 15.90, 16.54, 18.00, 14.40, 16.41,…
head(dat_mg2)
# A tibble: 6 × 2
Mg2 control
<dbl> <dbl>
1 9 13.7
2 12.5 15.9
3 10 15.7
4 8 14.2
5 13.2 15.9
6 11 16.5
#glimpse() para ver tipos de dados + primeiros valores por coluna (estrutura).
#head() para ver as primeiras linhas dos dados (conteúdo).