Prefácio

Quem trabalha com análise de dados sabe a importância e o potencial de comunicação que um gráfico possui. Figuras e ilustrações facilitam a transmissão de uma mensagem e o convencimento de um público. Em um mundo cada vez mais digitalizado e visual, o resultado de uma análise pode ser compartilhado com o mundo inteiro em questões de segundos, ao clique de um botão.

Em contraste, raros são os cursos de universidades e instituições de pesquisa que oferecem algum tipo de treinamento formal na construção de gráficos baseados em dados. Por tentativa e erro, professores e alunos aprendem “na marra”, sem uma clara noção de estrutura, qualidade e aplicabilidade. Curiosamente, discussões sobre uso de software de análise de dados se assemelham a discussões sobre futebol em uma mesa de bar: muita paixão e pouca razão. Em uma triste inércia, grupos de pesquisa se utilizem de softwares defasados, implicando a proliferação de práticas de pesquisa individualizadas e pouco eficientes.

A versão inicial deste livro surgiu como uma extensão do capítulo 10 da minha outra obra, Análise de Dados Financeiros e Econômicos com o R (M. S. Perlin 2021). Em uma leitura pós-publicação, meu sentimento foi que, enquanto o material anterior se justificava no sentido de mostrar a mecânica de criação de figuras específicas da área de finanças e economia, faltava um conteúdo mais abrangente e completo sobre o tópico.

Neste livro, Visualização de Dados com o R, escrevo sobre tudo aquilo que aprendi em mais de doze anos de carreira como professor, cientista de dados e consultor de empresas. Primeiro, iremos estudar os fundamentos e princípios a serem seguidos na criação de figuras baseadas em dados. Em seguida estudaremos a forma de trabalho com o R. Ao longo do caminho, teremos diversos exemplos de visualização de dados reais.

Como ler o livro

O livro foca na didática e foi escrito para o público em geral. O formato foi escolhido para que o leitor consiga aplicar as técnicas no seu dia a dia. Todos os exemplos de código são reproduzíveis em seu próprio computador. O material, porém, exige algum conhecimento sobre programação com o R. Sempre que possível, tentei simplificar e destilar o funcionamento do código no texto.

A melhor maneira de utilizar o material do livro é replicando os exemplos apresentados em cada capítulo. Como falei antes, cada pedaço de código é auto-suficiente e foi criado para que rodes no seu próprio computador.

Como sugestão, uma maneira didática de aprender as técnicas do livro é:

  1. Procure primeiro entender o que o código está fazendo antes de utilizá-lo. Esse é o passo mais importante pois é assim que se aprende programação, construindo conexões entre o gráfico na sua cabeça, e aquele produzido pelo código no computador.

  2. Replique o código original do exemplo no seu próprio computador, de preferência escrevendo o código e não copiando e colando via Control+C. A digitação vai facilitar a memorização de comandos e estruturas de procedimentos. Quando se sentir confortável em digitar os mesmos comandos, podes atalhar o processo via cópia do código e colagem. Após a execução, confira se a figura obtida no seu próprio computador está idêntica a aquela apresentada no livro.

  3. Modifique o código para que a figura tenha algo diferente (título, nome dos eixos, fontes e cores, ..). Assim memorizará onde cada elemento gráfico e textual pode ser modificado. Em outras palavras, a modificação de código já existente facilitará a criação de conexões entre o código e o gráfico de saída.

  4. Utilize outras fontes de dados com o mesmo código.

A replicação de código vai ajudar a memorização da sintaxe do R e do ggplot2 (Wickham, Chang, et al. 2022). No começo certamente será difícil, mas não se desmotive. Tudo que vale a pena é difícil. Com o tempo, irás pegar o jeito e absorver a necessária fluência para produzir figuras de forma autônoma.

Instalação do R e RStudio

O primeiro passo para aproveitar o material é instalar e configurar a sua máquina para reproduzir os códigos do livro. Abaixo destaco os programas necessários, ordem de instalação, e links para download de arquivos de instalação:

  1. R: motor de programação, cuja instalação já inclui módulos básicos. Disponível gratuitamente em https://www.r-project.org/.

  2. R-Tools (apenas usuários do Windows): ferramentas para a compilação de pacotes do R. Disponível em https://cran.r-project.org/bin/windows/Rtools/.

  3. RStudio (opcional): Interface de programação voltada ao R. Apesar de não ser estritamente necessário, o RStudio facilita muito o trabalho, e recomendo a todos a instalação e o uso do programa. Disponível em https://www.rstudio.com/products/rstudio/.

Caso tiver algum problema na instalação, podes encontrar um tutorial completo no Capítulo 12 de (M. S. Perlin 2021).

Pacote vdr

Todo o material construído neste livro é aberto ao público e reproduzível. Para facilitar a importação dos dados, construí um módulo do R chamado vdr (Marcelo S. Perlin 2022), o qual pode ser instalado de forma prática e fácil. Com ele será possível importar dados para a sua sessão do R e rodar todos os exemplos no seu próprio computador.

Assumindo que já tens o R e RStudio instalados, vamos prosseguir com a instalação do pacote. Para isto, inicie o RStudio e execute as seguintes linhas de comando no prompt:

# package remotes is needed..
install.packages('remotes')

# install vdr from github
remotes::install_github(
    'msperlin/vdr', 
    dependencies = TRUE
    )

Pronto. Após a instalação, todos requisitos estarão disponíveis no seu computador. Reforço que o comando anterior já instala todos os módulos necessários para reproduzir os exemplos do livro.

Após a instalação, teste o carregamento do módulo com o seguintes comando:

Pronto! Se tudo der certo, verás uma mensagem anterior informando que o pacote vdr foi carregado corretamente. Caso tenha tido uma mensagem de erro, refaça as etapas até que os comandos anteriores rodem sem problema.

Recursos na Internet

Na internet é possível encontrar uma variedade de conteúdo sobre visualização de dados. Esta é uma eficiente maneira de se manter atualizado nas melhores práticas e buscar inspiração para futuros trabalhos. Abaixo destaco alguns links com material de alta qualidade e que merecem a sua atenção:

Exercícios

O final de cada capítulo apresenta exercícios a serem resolvidos pelo leitor. O gabarito dos exercícios, incluindo saída de código, está disponível através do pacote vdr e função vdr::exercises_compile_solution() :

dir_solution <- "~"
vdr::exercises_compile_solution(dir_output = dir_solution)

A execução do código anterior criará um arquivo .html na pasta “Documentos” (atalho de ~), com todas as soluções dos exercícios. Para abrir o arquivo, localize o mesmo na referida pasta e clique duas vezes. Deves abrir o arquivo com seu navegador de internet de preferência, tal como o Chrome ou Firefox. Alternativamente, caso não conseguir compilar o arquivo de soluções localmente, podes baixá-lo diretamente do meu site3.

Convenções

No decorrer do livro usarei código ao longo do texto, como o apresentado a seguir:

# Code example
my_object <- 1:10

# print object
print(my_object)
R>  [1]  1  2  3  4  5  6  7  8  9 10

O código anterior está mostrando na tela o conteúdo do objeto my_object, o qual contém uma sequência entre 1 e 10. A saída do código é registrada no texto com o símbolo R>, como em R> [1] 1. Verás este mesmo padrão por todo o livro.

Além disso, note o uso de comentários com o hashtag (#). Estes não são compilados pelo interpretador do R e servem para escrever texto no código. Note também que usarei a língua inglesa para definir comentários e código em si. Esta decisão pode não ser muito intuitiva, porém todo código deve respeitar padrões internacionais e o uso de uma língua comum, neste caso o inglês. No papel de instrutor, entendo que é importante aprender a maneira correta desde o início e, por isso, minha escolha por escrever códigos em inglês. Mas, não se assuste, o vocabulário necessário é reduzido e acessível.

Ao longo do livro usaremos diversas funções, de diferentes módulos. Para organizar o texto e facilitar o entendimento da origem das funções, estas serão indicadas com o formato nativo do R. Por exemplo, função geom_line do pacote ggplot2 será representada como ggplot2::geom_line(). Isto é, o pacote de origem é indicado primeiro, seguido pelo símbolo de separação (::), seguido pelo nome da função. Para evitar repetições desnecessárias, o nome do pacote aparece somente na primeira menção da função no texto.

Espero que goste e aproveite o conteúdo do livro. Esta e demais obras são parte de um projeto pessoal na montagem de um conteúdo prático sobre o uso do R e, assim, popularizar o uso da plataforma na produção de ciência. Caso tiver alguma dúvida sobre o conteúdo, sugestões ou reclamações, sinta-se convidado a entrar em contato comigo pelo email .

Boa leitura.

Marcelo S. Perlin, 23/11/2022.