Capítulo 2 Princípios de Visualização de Dados

O que torna a figura de Jeremy Siegel tão impactante? Qual foi o processo de criação da figura? Neste capítulo vamos responder estas questões através da discussão de princípios e componentes visuais de um gráfico de dados. Discutiremos elementos centrais e independentes da plataforma. Ou seja, podes aplicar os mesmos princípios para gráficos produzidos em outras linguagens de programação.

Este é um tema complexo e existem ótimas referências a serem consultadas. Aqui focaremos na prática de criação de figuras, deixando a teoria de lado. Como referência complementar, recomendo os seguintes livros:

2.1 Por que criamos uma figura?

Primeiro, e mais importante, é preciso reforçar que a razão principal da análise de dados é a comunicação de ideias. De forma simplificada, é seu trabalho analisar informações retiradas de um banco de dados e sugerir possíveis efeitos no mundo real. Um relatório técnico é nada mais do que uma opinião profissional sobre determinado problema. O mesmo é verdadeiro para um trabalho acadêmico, onde se testa uma hipótese baseada nos dados, ou o estudo de uma decisão empresarial, tal como maneiras de se obter maior impacto em campanhas de marketing.

Assim sendo, um sólido parecer técnico pode ter seu impacto ofuscado por uma baixa capacidade de comunicação (Schwabish 2014). O poder de um argumento é multiplicado pela sua capilaridade, a facilidade com que o mesmo pode ser transmitido para o seu público. Veja que, de nada adianta realizar um excelente trabalho técnico na análise de dados, se a comunicação escrita e visual não transmite a mensagem desejada. De fato, um dos erros frequentes que encontro na revisão de trabalhos acadêmicos é o foco na técnica, deixando de lado a venda do peixe. Enquanto a parte técnica e científica é certamente importante, a comunicação do material potencializa o impacto do conteúdo para com seu público.

2.1.1 Transmissão de informação

O primeiro princípio na criação de gráficos é que uma figura deve justificar a sua existência e conversar com a sua audiência. Um erro muito comum por parte de alunos é tentar criar os mais variados gráficos sem se perguntar se os mesmos adicionam informações novas na análise, ou se o público irá entendê-los. Só porque você pode fazer um gráfico, não significa que você deve mostrá-lo. O valor de um conteúdo está diretamente relacionado às novas informações que ele traz na análise, e a capacidade do público em entendê-las.

Ao decidir sobre os elementos de um gráfico, atenha-se àqueles que ajudam a transmitir a sua mensagem. Não hesite em cortar material. Em um documento escrito, sempre que você encontrar uma figura que não seja sendo discutida em pelo menos dois parágrafos do texto, não tenha receio em retirá-la do documento. Se não consegues escrever mais do que dois parágrafos sobre uma figura, provavelmente não é importante.

Uma figura conversa com o seu público quando todos os elementos do gráfico convergem para a mensagem. Assim, utilize todas as ferramentas disponíveis – cores, formas, tamanhos e transparência – para transmitir uma mensagem clara e objetiva. Na prática, sugiro as seguintes ações:

  • Use cores e formas para distinguir grupos dentro dos dados. Se um grupo é mais importante do que outros, diferencie o mesmo usando uma cor ou forma específica;

  • Use cores para transmitir sentimentos e adjetivos tais como bom/ruim, alto/baixo, lucro/prejuízo;

  • Use tamanhos, cores e a transparência de linhas e formas para indicar graus de importância nos resultados. Por exemplo, se estiver comparando a inflação de países diferentes em relação ao Brasil, realce o caso brasileiro no gráfico com uma cor ou densidade mais forte;

2.1.2 Manipulação da atenção

Use e abuse de formas visuais de chamar a atenção. Em outras palavras, facilite e direcione a análise para o seu público, sempre verificando se os gráficos produzidos indicam uma mensagem clara e direta. Destaque nos gráficos o que o público deve procurar e como lê-lo. Como regra de bolso, o melhor gráfico é aquele que não precisa ser explicado.

Assim, entendas o limite do conhecimento e expectativas do seu público. Ao comunicar uma figura, não espere que todos tenham o mesmo conhecimento técnico que você. O que é óbvio para você, que está semanas (ou anos) trabalhando no mesmo problema, pode ser confuso para outros. Entenda o que seu público espera e qual a motivação para ler o seu conteúdo. Por exemplo, não apresente para um grupo de executivos o mesmo material que apresenta para o seu orientador acadêmico. Cada qual possuem diferentes demandas e características, e irão avaliar o trabalho de acordo com suas expectativas. Não é incomum um gráfico ser elogiado pelo público em geral, e rechaçado pelo público técnico.

A forma de digestão visual de um gráfico é importante. No momento em que um gráfico é analisado, os olhos do leitor irão percorrer o material sistematicamente. Enquanto as pessoas podem processar dados visuais de forma diferentes, a sequência de avaliação tende a seguir a forma como lemos, de cima pra baixo. Assim, os seguintes elementos são avaliados em sequência:

  1. título;
  2. subtítulo;
  3. miolo da figura (linhas e formas), incluindo cores, formas e transparências;
  4. textos dos eixos horizontais e verticais;
  5. outros elementos do gráfico.

Assim, use a sequência dos elementos em uma narrativa sobre a mensagem. O título e subtítulo são elementos extremamente importantes pois definem a primeira mensagem do gráfico. Assim, use textos claros e sugestivos no título e subtítulo do gráfico, os quais devem indicar como analisar o miolo da figura.

Um erro comum de professores que trabalham em consultoria é tratar o público corporativo da mesma forma que o universitário. Minha experiência sugere que o público corporativo, focado em problemas empresariais, está mais interessado no impacto real, isto é, como o que está sendo apresentado afetará a prática da empresa, em linhas simples e fáceis de entender. Para este tipo de público, o foco deve ser em claridade das informações e sugestão de ações reais. Evite, assim, justificativas técnicas e científicas que o público provavelmente não entenderá e/ou necessitará de muito tempo para explicar. Lembre que o público corporativo não está interessado em questionar as suas decisões técnicas, mas sim solucionar um problema.

2.1.3 Independência do elemento gráfico

Todas as informações técnicas, como origem e período de dados, devem ser claramente indicadas no título, subtítulo ou legenda do gráfico. Se o público precisar buscar informações adicionais para entender o gráfico, então existe espaço para melhoria. É mais fácil dizer do que fazer, mas tente comunicar o máximo de informações possíveis, desde que não polua o gráfico. Lembre-se de que existe um sensível equilíbrio entre uma estética elegante, e os detalhes técnicos que o seu público espera. Assim sendo, use e abuse de elementos textuais tais como títulos e subtítulos para acrescentar informações relevantes ao entendimento do problema. Em resumo, busque criar gráficos que podem ser entendidos sem explicação adicional, onde os elementos textuais – títulos, subtítulos, eixos e legendas – fornecem todas as informações necessárias para se entender a figura.

2.1.4 Herança e reprodutibilidade

A ciência e a análise de dados evoluem na forma de blocos de construção, um encima do outro. Sempre verifique os gráficos produzidos em suas referências de texto. Eles guiarão sobre o que seu público espera. Da mesma forma, você pode até usar figuras de artigos anteriores para comparar seus resultados, o que é especialmente conveniente quando o mesmo conjunto de dados são usados. Por isso, sempre informe qual a origem dos dados utilizados no gráfico, facilitando que outra pessoa, ou até mesmo você mesmo, replique o gráfico no futuro.

Ao escrever um código de criação de figuras, tenha a certeza de que o mesmo é facilmente reproduzível no futuro. A melhor versão de um código de visualização de dados é aquela que, com mínimas modificações, executa corretamente daqui a cinco anos. Assim, faço as minhas sugestões:

  • Evite qualquer trabalho manual para a criação de gráficos. Plataformas de programação e análise de dados, tal como o R e o Python, facilitam todo o processo;

  • Automatize o processo de importação e manipulação de dados para que, daqui a alguns anos, possa replicar o gráfico com dados atualizados;

  • Escreva códigos que se adaptem aos dados, e nunca o contrário. Se alguma modificação nos dados de entrada exige modificação no código, então vale a pena revisar o trabalho. Ao manter um código que se adapta aos dados, fica mais fácil manter a reprodutibilidade da análise ao longo do tempo.

Uma maneira eficiente de transitar o mesmo material entre diferentes públicos é primeiro criar uma versão básica do gráfico, e depois adaptar o conteúdo às demandas de cada público. Assim, a partir do mesmo modelo de gráfico, podes modificar os elementos facilmente em cada cenário. Convenientemente, o uso do R e pacote ggplot2 facilita este processo pois se utiliza de um sistema de camadas, onde a primeira camada é a versão básica e, conforme necessidade, adicionamos e removemos camadas de acordo com o público.

2.2 Visualizando a inflação para o Brasil

Agora que já entendemos a teoria, vamos para a prática. No gráfico a seguir, Figura 2.1, é apresentado uma série de inflação histórica para o Brasil, retirada do sistema de séries temporais do Banco Central do Brasil.

Gráfico de exemplo para a inflação Brasileira

Figure 2.1: Gráfico de exemplo para a inflação Brasileira

A inflação refere-se ao aumento sistemático de preços em um país e é geralmente definida como o aumento de preço em uma cesta de produtos. Observar e entender a inflação é tarefa de todo economista: a inflação tem efeitos negativos em toda a economia, corroendo o poder de compra de consumidores e desincentivando o consumo. No Brasil, o índice de inflação mais popular é o IPCA, calculado e comunicado pelo IBGE (Instituto Brasileiro de Geografia e Estatística).

O gráfico anterior mostra o IPCA (Índice de Preço ao Consumidor Amplo) mensal entre 2015 e 2022. A olho nu, ler este gráfico e retirar alguma conclusão é tarefa quase impossível:

  • Qual o objetivo do gráfico? Por que o mesmo está sendo mostrado?
  • O que os valores do eixo vertical representam exatamente?
  • De onde os dados saíram e como o gráfico pode ser replicado?
  • Mais importante, qual a mensagem transmitida?

Entender o gráfico anterior requere tempo e esforço cerebral. Como regra, toda vez que um gráfico forçar a audiência a pensar demais, existe um alto risco do material ser irrelevante para o mundo real. Na dificuldade do entendimento da figura em menos de cinco segundos, provavelmente o leitor irá ignorar a imagem e prosseguir para o próximo elemento do texto. Aposto que você, ao observar o gráfico, fez a mesma coisa. Ou seja, o gráfico rompe dois princípios básicos de visualização de dados, a justificativa de existência e manipulação da atenção. Uma versão melhorada é apresentada a seguir, Figura 2.2.

Um erro muito comum de iniciantes é utilizar o template original do gráfico, isto é, exportar o primeiro gráfico criado, sem muito esforço na construção de algo atrativo. Saiba que um olho treinado e experiente conhece muito bem o template básico e isso vai pesar em qualquer avaliação. Além de mostrar certa preguiça por parte do criador, o qual simplesmente aceitou a primeira versão do gráfico, também reforça a falta de capacidade na utilização das ferramentas de programação.

Gráfico melhorado para a inflação Brasileira

Figure 2.2: Gráfico melhorado para a inflação Brasileira

Comparando a primeira com a segunda versão, vemos as seguintes diferenças:

  1. Elementos textuais – o título e o subtítulo em 2.2 já indicam o que estamos analisando no gráfico e qual a mensagem, neste caso a variabilidade da inflação mensal. Em outras palavras, estamos analisando como a inflação varia ao longo do tempo, com seus altos e baixos. Note também a variação do tom da letra do título com o uso do negrito e tamanho da fonte para reforçar o objetivo do gráfico. Abaixo, na direita, vemos a origem e a identificação dos dados, neste caso o sistema de séries temporais do Banco Central do Brasil (BCB-SGS), série de número 433. Dado que a origem dos dados é pública, qualquer pessoa pode acessar e reproduzir o mesmo gráfico.

  2. Elementos gráficos – Uso de cores para distinguir os períodos de alta inflação dos períodos de baixa, reforçando e salientando a variação da inflação entre os meses. Círculo azuis e vermelhos mostram os pontos máximos e mínimos da inflação mensal no período analisado.

  3. reprodutibilidade – Uma mudança nos dados não exige mudança no código pois todos os elementos são baseados nos dados de entrada. Para demonstrar a reprodutibilidade do gráfico, a seguir, Figura 2.3, apresentamos o mesmo gráfico para três períodos diferentes.

Gráfico da inflação Brasileira para diferentes períodos

Figure 2.3: Gráfico da inflação Brasileira para diferentes períodos

Note as semelhanças e as diferenças entre os painéis de 2.3. Além dos elementos de barra e cores, todas as datas e os valores do texto são calculados a partir dos dados. Mais importante, depois de montado o código, a criação dos três gráficos é muito fácil. Reforçando, o esforço para construir um gráfico com reprodutibilidade se concentra na concepção inicial. Depois do código pronto, a reutilização é eficiente e instantânea.

2.3 Exercícios

A solução dos exercícios de final de capítulo pode ser compilada localmente com o comando vdr::exercises_compile_solution(). Alternativamente, podes baixar uma versão do arquivo compilado no site do livro5.


Q.1

O grupo LatinoMetrics produz e distribui um conteúdo muito interessante de visualização de dados econômicos para a América Latina. Observando o material do Instagram, visualize as seis últimas imagens disponibilizadas na página principal. Observando as figuras como um todo, destaque os elementos comuns na criação das imagens. Isto, é, destaque os elementos visuais que foram repetidos entre uma figura e outra.


Q.2

No Reddit é possível encontrar o grupo r/dataisugly, o qual contém inúmeros posts sobre visualizações de dados realizadas da forma errada. Na data de 27/09/2022 foi publicado a seguinte mensagem no fórum:

Publicação do reddit/dataisuglu em 27/09/2022

Analise o gráfico e, sem buscar a resposta no fórum, indique qual o problema com o gráfico.