Editado 2 Semanas atrás por ExtremeHow Equipe Editorial
RStudioVisualização de dadosggplot2PacotesGráficosCiência de dadosAnáliseFerramentasProgramaçãoBibliotecas
Tradução atualizada 2 Semanas atrás
A visualização de dados é uma habilidade importante em termos de analisar e entender dados. No mundo da ciência de dados, R é uma das linguagens de programação mais populares devido às suas excelentes capacidades para estatísticas e visualização de dados. Este documento irá orientá-lo sobre como realizar visualização de dados no RStudio usando ggplot2
e outros pacotes importantes do R. Cobriremos tudo, desde a instalação de pacotes até técnicas avançadas de plotagem.
A visualização de dados envolve apresentar dados em um contexto visual, como um gráfico ou mapa, para facilitar a compreensão dos dados. No R, vários pacotes permitem criar essas visualizações, mas o ggplot2
é um dos mais versáteis e amplamente utilizados.
ggplot2
é baseado na gramática dos gráficos, uma filosofia para mapear dados em um espaço visual. Esta filosofia permite que gráficos complexos sejam criados a partir de dados de forma controlada programaticamente.
Antes de começarmos a trabalhar com ggplot2
, precisamos garantir que temos R e RStudio instalados em nosso computador. Uma vez instalados, abra RStudio e instale o pacote ggplot2
inserindo o seguinte comando no console:
install.packages("ggplot2")
Além disso, usaremos vários outros pacotes para aprimorar nossas capacidades de visualização, como dplyr
para manipulação de dados e tidyr
para limpeza de dados. Você pode instalá-los usando:
install.packages("dplyr") install.packages("tidyr")
Após a instalação do ggplot2
, ele pode ser carregado em uma sessão R da seguinte forma:
library(ggplot2)
A estrutura básica de um gráfico ggplot2
inclui:
Por exemplo, para criar um gráfico de dispersão básico:
ggplot(data = mtcars, aes(x = wt, y = mpg)) + geom_point()
Aqui, o conjunto de dados mtcars
é utilizado, e as variáveis wt
(peso do carro) e mpg
(milhas por galão) são mapeadas para os eixos x e y, respectivamente. A função geom_point()
é usada para criar um gráfico de dispersão.
ggplot2
fornece um conjunto de funções para customizar a aparência do seu gráfico:
ggtitle()
- Adiciona um título ao gráfico.xlab()
e ylab()
– Rotular os eixos.theme()
– Modifica configurações não relacionadas aos dados.Vamos melhorar nosso gráfico de dispersão anterior:
ggplot(data = mtcars, aes(x = wt, y = mpg)) + geom_point(color = "blue", size = 3) + ggtitle("Gráfico de dispersão do peso do carro vs. MPG") + xlab("peso") + ylab("milhas por galão") + theme_minimal()
Isso criará um gráfico com pontos azuis, um título e rótulos de eixos personalizados, tudo dentro de um tema minimalista.
Facetamento é uma forma de criar múltiplos gráficos baseados na mesma variável em um conjunto de dados. Isso pode ser útil para entender padrões em diferentes subgrupos:
ggplot(data = mtcars, aes(x = wt, y = mpg)) + geom_point() + facet_wrap(~cylinder)
Isso cria um gráfico de dispersão separado para cada valor distinto na variável cyl
, que representa o número de cilindros do carro.
Uma característica poderosa do ggplot2
é que ele pode sobrepor múltiplas geometrias e componentes em um único gráfico. Por exemplo, podemos adicionar uma linha de suavização a um gráfico de dispersão:
ggplot(data = mtcars, aes(x = wt, y = mpg)) + geom_point() + geom_smooth(method = "lm") // modelo linear
A função geom_smooth()
adiciona uma linha de melhor ajuste usando um modelo linear.
Além do ggplot2
, outros pacotes como dplyr
e tidyr
são frequentemente usados como auxiliares para limpeza e manipulação de dados:
dplyr
é um pacote R que fornece um conjunto de funções para manipulação de dados:
mutate()
– Cria novas variáveis.filter()
– Filtra linhas com base em condições.summarise()
– Resume os dados e fornece resumos como média, mediana, etc.Por exemplo, para encontrar a média de mpg de cada grupo de cilindros:
library(dplyr) mtcars %>% group_by(cylinder) %>% summary(average_mpg = mean(mpg))
tidyr
é usado para 'arrumar' os dados. Ele remodela o data frame:
pivot_longer()
− Converte formato largo para formato longo.pivot_wider()
– Converte formato longo para formato largo.Para converter um conjunto de dados de formato largo para longo:
library(tidyr) # Assumimos um conjunto de dados chamado 'wide_data' long_data <- pivot_longer(wide_data, cols = starts_with("measurement"), names_to = "type", values_to = "value")
ggplot2
possui muitas técnicas avançadas para criar gráficos detalhados e sofisticados. Aqui estão algumas:
Anotações adicionam texto e rótulos para destacar partes específicas do gráfico:
ggplot(data = mtcars, aes(x = wt, y = mpg)) + geom_point() + annotate("text", x = 5, y = 30, label = "alta eficiência", color = "red")
Temas personalizados podem mudar completamente a aparência do seu gráfico. Você pode instalar e usar temas adicionais do pacote ggthemes
:
install.packages("ggthemes") Library(ggthemes) ggplot(data = mtcars, aes(x = wt, y = mpg)) + geom_point() + theme_economist()
A visualização de dados é uma ferramenta essencial na análise de dados, e o ggplot2
oferece uma maneira robusta e flexível de criar gráficos atraentes. Este guia abrangente cobriu os aspectos fundamentais da visualização de dados usando ggplot2
no RStudio e introduziu pacotes adicionais como dplyr
e tidyr
para lidar com tarefas de manipulação de dados.
Dominar o básico dessas ferramentas permitirá que você crie gráficos informativos e atraentes. Lembre-se de que a visualização de dados não é apenas sobre criar gráficos, mas também sobre transmitir informações de forma eficaz.
Bom planejamento!
Se você encontrar algo errado com o conteúdo do artigo, você pode