Prefácio
Quem trabalha com análise de dados sabe a importância e o potencial de comunicação que um gráfico possui. Figuras e ilustrações facilitam a transmissão de uma mensagem e o convencimento de um público. Em um mundo cada vez mais digitalizado e visual, o resultado de uma análise pode ser compartilhado com o mundo inteiro em questões de segundos, ao clique de um botão.
Em contraste, raros são os cursos de universidades e instituições de pesquisa que oferecem algum tipo de treinamento formal na construção de gráficos baseados em dados. Por tentativa e erro, professores e alunos aprendem “na marra”, sem uma clara noção de estrutura, qualidade e aplicabilidade. Curiosamente, discussões sobre uso de software de análise de dados se assemelham a discussões sobre futebol em uma mesa de bar: muita paixão e pouca razão. Em uma triste inércia, grupos de pesquisa se utilizem de softwares defasados, implicando a proliferação de práticas de pesquisa individualizadas e pouco eficientes.
A versão inicial deste livro surgiu como uma extensão do capítulo 10 da minha outra obra, Análise de Dados Financeiros e Econômicos com o R (M. S. Perlin 2021). Em uma leitura pós-publicação, meu sentimento foi que, enquanto o material anterior se justificava no sentido de mostrar a mecânica de criação de figuras específicas da área de finanças e economia, faltava um conteúdo mais abrangente e completo sobre o tópico.
Neste livro, Visualização de Dados com o R, escrevo sobre tudo aquilo que aprendi em mais de doze anos de carreira como professor, cientista de dados e consultor de empresas. Primeiro, iremos estudar os fundamentos e princípios a serem seguidos na criação de figuras baseadas em dados. Em seguida estudaremos a forma de trabalho com o R. Ao longo do caminho, teremos diversos exemplos de visualização de dados reais.
Como ler o livro
O livro foca na didática e foi escrito para o público em geral. O formato foi escolhido para que o leitor consiga aplicar as técnicas no seu dia a dia. Todos os exemplos de código são reproduzíveis em seu próprio computador. O material, porém, exige algum conhecimento sobre programação com o R. Sempre que possível, tentei simplificar e destilar o funcionamento do código no texto.
A melhor maneira de utilizar o material do livro é replicando os exemplos apresentados em cada capítulo. Como falei antes, cada pedaço de código é auto-suficiente e foi criado para que rodes no seu próprio computador.
Como sugestão, uma maneira didática de aprender as técnicas do livro é:
Procure primeiro entender o que o código está fazendo antes de utilizá-lo. Esse é o passo mais importante pois é assim que se aprende programação, construindo conexões entre o gráfico na sua cabeça, e aquele produzido pelo código no computador.
Replique o código original do exemplo no seu próprio computador, de preferência escrevendo o código e não copiando e colando via Control+C. A digitação vai facilitar a memorização de comandos e estruturas de procedimentos. Quando se sentir confortável em digitar os mesmos comandos, podes atalhar o processo via cópia do código e colagem. Após a execução, confira se a figura obtida no seu próprio computador está idêntica a aquela apresentada no livro.
Modifique o código para que a figura tenha algo diferente (título, nome dos eixos, fontes e cores, ..). Assim memorizará onde cada elemento gráfico e textual pode ser modificado. Em outras palavras, a modificação de código já existente facilitará a criação de conexões entre o código e o gráfico de saída.
Utilize outras fontes de dados com o mesmo código.
A replicação de código vai ajudar a memorização da sintaxe do R e do ggplot2 (Wickham, Chang, et al. 2022). No começo certamente será difícil, mas não se desmotive. Tudo que vale a pena é difícil. Com o tempo, irás pegar o jeito e absorver a necessária fluência para produzir figuras de forma autônoma.
Instalação do R e RStudio
O primeiro passo para aproveitar o material é instalar e configurar a sua máquina para reproduzir os códigos do livro. Abaixo destaco os programas necessários, ordem de instalação, e links para download de arquivos de instalação:
R: motor de programação, cuja instalação já inclui módulos básicos. Disponível gratuitamente em https://www.r-project.org/.
R-Tools (apenas usuários do Windows): ferramentas para a compilação de pacotes do R. Disponível em https://cran.r-project.org/bin/windows/Rtools/.
RStudio (opcional): Interface de programação voltada ao R. Apesar de não ser estritamente necessário, o RStudio facilita muito o trabalho, e recomendo a todos a instalação e o uso do programa. Disponível em https://www.rstudio.com/products/rstudio/.
Caso tiver algum problema na instalação, podes encontrar um tutorial completo no Capítulo 12 de (M. S. Perlin 2021).
Pacote vdr
Todo o material construído neste livro é aberto ao público e reproduzível. Para facilitar a importação dos dados, construí um módulo do R chamado vdr (Marcelo S. Perlin 2022), o qual pode ser instalado de forma prática e fácil. Com ele será possível importar dados para a sua sessão do R e rodar todos os exemplos no seu próprio computador.
Assumindo que já tens o R e RStudio instalados, vamos prosseguir com a instalação do pacote. Para isto, inicie o RStudio e execute as seguintes linhas de comando no prompt:
# package remotes is needed..
install.packages('remotes')
# install vdr from github
remotes::install_github(
'msperlin/vdr',
dependencies = TRUE
)
Pronto. Após a instalação, todos requisitos estarão disponíveis no seu computador. Reforço que o comando anterior já instala todos os módulos necessários para reproduzir os exemplos do livro.
Após a instalação, teste o carregamento do módulo com o seguintes comando:
Pronto! Se tudo der certo, verás uma mensagem anterior informando que o pacote vdr foi carregado corretamente. Caso tenha tido uma mensagem de erro, refaça as etapas até que os comandos anteriores rodem sem problema.
Recursos na Internet
Na internet é possível encontrar uma variedade de conteúdo sobre visualização de dados. Esta é uma eficiente maneira de se manter atualizado nas melhores práticas e buscar inspiração para futuros trabalhos. Abaixo destaco alguns links com material de alta qualidade e que merecem a sua atenção:
Instagram – LatinoMetrics https://www.instagram.com/latinometrics/?hl=en – Grupo especializado em visualizações de dados da América Latina. Apresenta gráficos muito interessantes sobre o Brasil e outros países do continente americano.
Instagram – Statspanda – Página especializada em visualizações de dados em diferentes tópicos. O conteúdo é direto e fácil de entender.
Reddit – Dataisbeautiful – Fórum online do Reddit, voltado a agregação de conteúdo relativo a visualização de dados. Aqui é possível encontrar uma variada gama de gráficos e fontes relacionados a dados.
Exercícios
O final de cada capítulo apresenta exercícios a serem resolvidos pelo leitor. O gabarito dos exercícios, incluindo saída de código, está disponível através do pacote vdr e função vdr::exercises_compile_solution() :
dir_solution <- "~"
vdr::exercises_compile_solution(dir_output = dir_solution)
A execução do código anterior criará um arquivo .html na pasta “Documentos” (atalho de ~
), com todas as soluções dos exercícios. Para abrir o arquivo, localize o mesmo na referida pasta e clique duas vezes. Deves abrir o arquivo com seu navegador de internet de preferência, tal como o Chrome ou Firefox. Alternativamente, caso não conseguir compilar o arquivo de soluções localmente, podes baixá-lo diretamente do meu site3.
Convenções
No decorrer do livro usarei código ao longo do texto, como o apresentado a seguir:
# Code example
my_object <- 1:10
# print object
print(my_object)
R> [1] 1 2 3 4 5 6 7 8 9 10
O código anterior está mostrando na tela o conteúdo do objeto my_object
, o qual contém uma sequência entre 1 e 10. A saída do código é registrada no texto com o símbolo R>
, como em R> [1] 1
. Verás este mesmo padrão por todo o livro.
Além disso, note o uso de comentários com o hashtag (#
). Estes não são compilados pelo interpretador do R e servem para escrever texto no código. Note também que usarei a língua inglesa para definir comentários e código em si. Esta decisão pode não ser muito intuitiva, porém todo código deve respeitar padrões internacionais e o uso de uma língua comum, neste caso o inglês. No papel de instrutor, entendo que é importante aprender a maneira correta desde o início e, por isso, minha escolha por escrever códigos em inglês. Mas, não se assuste, o vocabulário necessário é reduzido e acessível.
Ao longo do livro usaremos diversas funções, de diferentes módulos. Para organizar o texto e facilitar o entendimento da origem das funções, estas serão indicadas com o formato nativo do R. Por exemplo, função geom_line
do pacote ggplot2
será representada como ggplot2::geom_line(). Isto é, o pacote de origem é indicado primeiro, seguido pelo símbolo de separação (::
), seguido pelo nome da função. Para evitar repetições desnecessárias, o nome do pacote aparece somente na primeira menção da função no texto.
Espero que goste e aproveite o conteúdo do livro. Esta e demais obras são parte de um projeto pessoal na montagem de um conteúdo prático sobre o uso do R e, assim, popularizar o uso da plataforma na produção de ciência. Caso tiver alguma dúvida sobre o conteúdo, sugestões ou reclamações, sinta-se convidado a entrar em contato comigo pelo email marceloperlin@gmail.com.
Boa leitura.
Marcelo S. Perlin, 23/11/2022.