Capítulo 1 Introdução
Um pesquisador necessita ter conhecimento sobre análise de dados (ou estatística) durante a sua formação. Ao longo de sua vida profissional, deve continuar se atualizando sobre as tendências e novas ferramentas da metodologia científica, especialmente se o trabalho envolve experimentos ou levantamentos de dados.
Além de ter que saber como escrever um artigo científico, ou outro produto da pesquisa como um relatório técnico para agência de fomento ou comunicação em evento, o pesquisador tem na estatística o suporte às conclusões de um trabalho. A publicação científica na forma de um artigo em revista com corpo editorial é um dos principais e mais valorizados produtos da pesquisa. Um pesquisador é considerado produtivo com base no número de artigos publicados, associado à qualidade dos trabalhos com base em inúmeras métricas, tais como fator de impacto da revista, número de citações do trabalho e o índice H do pesquisador.
Para se ter um bom artigo científico deve-se utilizar os métodos apropriados para o planejamento da pesquisa e da coleta, preparo e a análise dos dados, dos quais dependerão os resultados. Não raro os estudantes concentrarem a maior parte do tempo na condução do trabalho (bancada ou campo) e relativamente pouco em revisão bibliográfica, leitura crítica, redação científica e análise e visualização dos dados. Essas atividades são tão ou mais importantes do que a condução do trabalho, principalmente se o mesmo almeja uma carreira na academia. São raros os estudantes que, durante a pós-graduação, cursam disciplinas de metodologia científica ou de análise de dados aplicada às situações reais e operacionais do a dia do pesquisador - o mais comum é cursar um disciplina de estatística que tem um enfoque mais teórico
1.1 Estatística e computação
Na área de ciências biológicas e agrárias é muito comum os trabalhos acadêmicos serem baseados em uma pesquisa observacional ou experimental, ou a combinação de ambas, a qual é baseada em evidências, os dados da pesquisa. Assim, saber como planejar as etapas da pesquisa, especialmente a forma de obtenção, preparo e análise estatística dos dados, é fundamental para o sucesso da mesma. O estudante deve ter um conhecimento mínimo necessário para conduzir o seu trabalho e, idealmente, aprender a conduzir a análise de maneira independente ou bem assessorado. Para isso, depende-se dos programas computacionais.
Quando há alguma dificuldade, ou mesmo para que tem facilidade em utilizar programas estatísticos, é desejável consultar um estatístico ou pesquisador da área, se não o orientador, que tenha bom domínio de métodos quantitativos para orientar sobre a análise mais apropriadas. Importante lembra que isso deve ser feito antes da condução do experimento!
Um fato muito comum e que leva a erros que são propagados pelos pesquisadores é negligenciar a estatística e lembrar dela apenas quando da definição de um teste de hipótese. Para se ter noção do quanto a estatística é negligenciada em trabalhos de pesquisa, basta observar quantas linhas são dedicadas à descrição da análise de dados na seção de metodologia em artigos científicos. Poucos trabalhos mencionam detalhes ou justificam as decisões que foram tomadas no processo de análise. Apenas citar o teste utilizado e o programa computacional é colocar algo de extrema importância para a validade das conclusões em um segundo plano.
A análise estatística é usualmente conduzida em um ambiente computacional de familiaridade do pesquisador ou de alguém que o auxilia na condução da pesquisa. Comumente, todo o processo é conduzido em diversos programas que executam tarefas diferentes. Por exemplo:
- Planilha eletrônica para organizar os dados
- Planilha ou programa de estatística para análise exploratória
- Um programa geral ou específico para realizar os procedimentos ou testes estatísticos
- Um programa para gerar os gráficos para publicação
Um pesquisador que objetiva que sua pesquisa seja reproduzida terá dificuldade em documentar todos os passos de uma análise que utiliza vários programas e, em sua maioria, com programas de movimento de mouse (clique em menus). O problema é resolvido quando se utiliza um ambiente computacional que permita conduzir essas etapas.
Não são muitas opções que existem nesse sentido. A minha de preferência é o ambiente computacional e estatístico R que tem, no ambiente de desenvolvimento integrado RStudio, uma excelente opção para trabalhar com tudo que o pesquisador precisa para conduzir as análises, bem como produzir relatórios de análise que integram textos e códigos interpretáveis.
Nesta disciplina, o estudante aprenderá sobre boas práticas da análise de dados em sua rotina de trabalho. Com hábitos simples, persistência, sistemática e dedicação em um ambiente computacional como o R, o pesquisador moderno estará adotando práticas que, além de poder melhorar a qualidade e confiabilidade nos resultados da análise, que contribua para a maior transparência da ciência.
Dentre os ambientes de programação disponíveis, as ferramentas mais usadas para implementar uma pesquisa reproduzível de maneira efetiva (dados, análises e saídas são combinados, idealmente, em um único ambiente de programação), são baseados em duas linguagens principais: Python e R, cujos produtos principais são Jupyter Notebooks e RMarkdown, respectivamente. Esses pacotes ou rotinas facilitam sobremaneira a documentação e reprodução das análises bem como aceleram a obtenção dos resultados e visualizações assim que novos dados forem adicionados ou reanálises são necessárias.
Além de aprender a utilizar esses programas, é importante que o pesquisador aprenda a usar efetivamente planilhas eletrônicas para reunir e organizar os dados que serão usados na pesquisa. Por princípio, as planilhas eletrônicas como Excel, Libre Office Calc, Numbers e Google Sheets são usadas apenas para armazenar os dados e não para processar, transformar, visualizar ou fazer sumários prévios. O motivo é muito simples: esses procedimentos todos feitos com movimentos de mouse não são reproduzíveis! além disso, na pesquisa reproduzível os dados originais obtidos pelo pesquisador ou recebidos/coletados de outras fontes devem ser mantidos na sua forma original. Caso seja modificado de forma que é mais fácil fazer em uma planilha como renomear variáveis, é importante manter sempre uma planilha original como referência.
1.2 A pesquisa reproduzível
A reprodutibilidade em ciência é um tema que tem despertado a atenção de pesquisadores, agências de fomento e a mídia acadêmica nos últimos anos. São frequentes os relatos de que um estudo que foi repetido gerou resultados diferentes ou mesmo discordantes de um estudo anterior. Os próprios pesquisadores tem se manifestado com grande preocupação com uma alegada “crise de reprodutibilidade” na ciência.
As possíveis causas e algumas soluções para minimizar o problema vem sendo discutidas e algumas ações implementadas. É importante que o estudante e o pesquisador em geral tenham conhecimento sobre a correta definição dos termos para melhorar a comunicação. Reprodutibilidade tem diferentes significados dependendo do contexto. Aqui, definimos como:
Pesquisa reproduzível é aquela em que um pesquisador consegue obter o mesmo resultado de um estudo prévio usando os mesmos materiais (dados) e métodos (estatística) da pesquisa original.
Portanto, é necessário que o pesquisador que deseja reproduzir um estudo tenha 1) acesso aos dados e 2) saiba os detalhes de como a análise foi feita
Os resultados discordantes, ou inconsistentes, em diferentes estudos se refere, na verdade, à replicabilidade, ou a reprodutibilidade inferencial, segundo alguns autores. Em ciência, parte-se do princípio que os resultados de uma pesquisa publicados em revistas com corpo editorial tenham sido obtidos segundo os princípios que regem os métodos e a ética científica. No entanto, os editores e revisores, quase sempre, não tem como verificar se todos os passos do trabalho, especialmente a análise dos dados, foram executados corretamente, uma vez que avaliam apenas o artigo científico e, raramente, algum material suplementar quando esse está disponível.
Um artigo científico é escrito e submetido para publicação segundo convenções da academia que definem o conteúdo mínimo para que o trabalho seja avaliado pelos pares. Normalmente esse conteúdo consiste no texto, gráficos e tabelas e, idealmente, um material suplementar. Organizar todo esse material de forma sistemática exige tempo do pesquisador, o que acaba desencorajando muitos pesquisadores que não adotam rotinas de boas práticas da pesquisa reproduzível. É nesse contexto que entram rotinas de programação em ambientes computacionais.
Segundo Yihui Xie, um dos principais desenvolvedores do R da empresa RStudio de programas (ex. knitr, rMarkdown, bookdown, etc) que visam facilitar a pesquisa reproduzível:
O produto final da pesquisa não é somente o artigo científico, mas tambémm o ambiente computacional completo utilizado para produzir os resultados no artigo como os códigos e os dados necessários para a reprodução dos resultados e avanço da pesquisa (Xie et al. 2014).
1.3 Boas práticas
Para um estudante ou cientista que está iniciando um projeto é importante que as boas práticas da pesquisa reproduzível sejam incorporadas no seu dia a dia, e que sejam implementadas desde a concepção e o planejamento do mesmo.
São atividades que dependem essencialmente de capacidade organizacional e planejamento do tempo e documentação das etapas do processo. É preciso seguir rotinas e gerar documentos que seguem certas normas de padronização, especialmente se o trabalho é feito de forma colaborativa. Analogamente, é como escrever e formatar um artigo científico que deve ser estruturado e apresentado segundo determinadas normas. Aqui, o produto gerado não é somente o documento do manuscrito e um punhado de gráficos, mas sim tudo que foi gerado durante a pesquisa, e que precisa estar bem organizado e formatado para uso posterior e publicação/divulgação. Para obter sucesso na pesquisa, é preciso:
- Ser diligente e sistemático
- Aprender novas ferramentas (computacionais)
- Aprender a organizar arquivos diversos
- Documentar todas as etapas do trabalho
No dia a dia, os pesquisadores não sobrevivem sem os computadores como ferramenta central de trabalho. Atualmente, não é preciso ser um “nerd” para que se possa utilizar com bastante eficiência os computadores para ser eficiente e produtivo no trabalho. Em algumas áreas da pesquisa é necessário maior envolvimento com linguagens de programação ou programas específicos que exigem um maior esforço de aprendizado da lógica da programação.
No entanto, o mais importante e desafiador é certamente aprender a sistemática de trabalho do que ser um expert em programação - mas é necessário sim aprender o básico de uma linguagem de programação (R ou Python) para implementar as boas práticas. Durante nossa formação acadêmica não recebemos nenhum ou muito pouco treinamento em como preparar e organizar de maneira apropriadas os arquivos diversos incluindo dados, códigos, gráficos, tabelas, manuscrito, figuras, etc. Apender uma rotina de análise de dados é fundamental para a) facilitar o nosso próprio trabalho de análise-reanálise; b) permitir o uso dos dados e códigos por colaboradores e c) documentar a análise, ou seja, explicar o que, por que e como foi feito.
Quando não somos treinados a trabalhar dessa maneira é muito comum:
- criarmos um número grande arquivos e versões desnecessárias que dificultam o processo;
- gerarmos inconsistência e redundância nas análises;
- não termos um controle adequado de versões e dificuldade quando é solicitado o compartilhamento do trabalhos;
- levarmos um tempo longo para organizar o trabalho que só o próprio pesquisador entende (quando entende!).
Práticas que deveriam ser simples como refazer um gráfico ou estatísticas, após receber os pareceres de revisores, se tornam um verdadeiro pesadelo para alguns pesquisadores, o que contribui para o atraso na publicação de artigos.
1.4 Sugestão de leituras
Esta seção estará sendo atualizada a cada semestre com sugestões de leituras no tema pesquisa reproduzível utilizando o ambiente R.
Primeiros passos no R/RStudio - Using Projects
Textos e tutoriais - R for data science - Data Analysis and Visualization in R for Ecologists