Governo do Estado de Nevada (EUA)

Guia ajuda a entender pesquisas acadêmicas

Estudos tanto podem obscurecer quanto iluminar debate sobre educação

26/04/2017

Redação Jeduca

tenha em mente

- Uma regra de ouro é saber quem financiou o estudo

- Saiba a importância de se ter um grupo de controle (que não foi submetido a uma determinada intervenção) para fazer comparações.

- Como medir o efeito prático de uma intervenção ou política pedagógica?

- É reconfortante esperar de pesquisas a palavra final sobre alguma política ou prática educacional, mas isso raramente acontece. O melhor que elas fazem é dar pistas sobre o que funciona, quando e para quem, porque escolas, classes e comunidades variam muito entre si

- O "valor p" e a possibilidade de os resultados de um estudo terem sido obtidos por acaso

Tradução: Mariana Tokarnia

Repórteres de educação precisam se aventurar de tempos em tempos pelo universo da pesquisa acadêmica para desenvolver pautas sobre como avaliar o desempenho de escolas, medir o impacto da qualificação de professores ou os resultados de um programa de alfabetização.

Mas é um desafio entender as pesquisas, com sua linguagem, seus números e fórmulas matemáticas muitas vezes impenetráveis. Alguns conhecimentos e competências básicos podem ajudar o jornalista a navegar com mais segurança pelo mundo acadêmico e melhorar a qualidade da cobertura.

Pesquisas têm a capacidade tanto de iluminar quanto de obscurecer o debate sobre educação. Quando um governo lança uma nova política, por exemplo, pesquisas servem de referência para antecipar resultados ou efeitos não previstos dessa mudança. Mas também podem contribuir para reforçar preconceitos contra iniciativas bem-intencionadas. Os jornalistas têm de saber identificar estudos confiáveis e como fazer uma análise correta dos resultados.

Conseguindo ajuda

Quando recebe um estudo, uma das providências básicas que o jornalista deve adotar é analisar as notas técnicas e o apêndice com as referências bibliográficas. Neles o repórter terá uma lista de acadêmicos citados pelos autores da pesquisa e pode procurá-los para que comentem o trabalho.

Se o jornalista decidir procurar outros estudos sobre o mesmo tema, um meio de ganhar tempo é concentrar as buscas em meta-análises – que são, essencialmente, pesquisas sobre pesquisas. Nas meta-análises, pesquisadores fazem a revisão de até centenas de estudos sobre um determinado tema para, por exemplo, calcular o impacto de uma determinada política ou intervenção. Qualquer que seja o assunto, os autores de meta-análises estão provavelmente entre as fontes mais capacitadas para dar um panorama do que dizem as pesquisas na área.

Questões-chave

É reconfortante esperar de pesquisas a palavra final sobre alguma política ou prática educacional, mas na verdade isso raramente acontece. O melhor que os estudos fazem é dar pistas sobre o que funciona, quando e para quem, porque escolas, classes e comunidades variam muito entre si. Um programa de alfabetização que dá resultados em uma área de alta renda pode não funcionar tão bem em uma comunidade rural carente.

Pior do que isso, pesquisas podem produzir retratos enviesados de um tema. Esse risco existe, por exemplo, quando um grupo de interesse tenta direcionar o debate público divulgando seu próprio estudo em busca de manchetes que reafirmem seus pontos de vista.

Repórteres devem ter sempre em mente que a melhor maneira de dissecar uma pesquisa é ir direto à fonte e ler o texto completo. Além disso, há algumas perguntas-chave que podem ajudar o jornalista a entender as limitações de um estudo e pinçar dados relevantes.

- Quem pagou pela pesquisa?

Uma regra de ouro do jornalismo é desconfiar de informações divulgadas por partes interessadas em um tema específico. Mas também é importante levar em conta que muitas vezes é difícil levantar recursos de fontes sem nenhuma ligação com o assunto investigado.

Além disso, nem todo estudo produzido por um grupo de advocacy (que defende uma causa ou política) é necessariamente tendencioso ou de baixa qualidade. Um olhar mais minucioso sobre a pesquisa em si (e talvez a opinião de outras fontes com conhecimento sobre o assunto) deve ser o fator decisivo quanto ao seu mérito.

- Onde o estudo foi publicado?

Pesquisas publicadas em revistas científicas, que usam a metodologia do peer review (revisão por pares), tendem a ter mais credibilidade. O modelo da revisão por pares exige que o texto passe pela análise de acadêmicos de competência reconhecida no assunto tratado.

- Como foi escolhido o público do estudo?

Os repórteres devem estar sempre atentos ao risco de direcionamento – como o de selecionar, por exemplo, apenas os melhores estudantes para produzir resultados favoráveis a uma determinada prática ou política educacional.

(Nota da Jeduca: uma estratégia já conhecida no Brasil de tentativa de direcionamento de resultados é a de escolas selecionarem apenas os melhores alunos para prestar o Enem, e com isso aparecerem nas primeiras colocações em rankings elaborados pela imprensa.)

- Como os resultados foram medidos?

Não basta dizer, por exemplo, que os estudantes se saíram melhor em leitura, matemática ou outra disciplina. Os jornalistas precisam saber exatamente qual foi o parâmetro utilizado.

Os alunos fizeram um teste padronizado ou uma avaliação produzida pelos próprios pesquisadores? O teste avaliou de fato o que os pesquisadores se propunham a analisar? Os estudantes fizeram o mesmo teste mais de uma vez? – em outras palavras, eles podem ter se saído melhor na segunda tentativa apenas porque estavam mais velhos ou mais familiarizados com a avaliação?

- O estudo tinha um grupo de controle?

Repórteres devem desconfiar de resultados baseados em testes do tipo antes e depois conduzidos com um único grupo. Para efeito de comparação, sempre deve haver um grupo de controle, com perfil demográfico semelhante ao do grupo experimental (o das pessoas efetivamente pesquisadas).

Isso vale tanto para estudos que fazem comparações simples como os que utilizam atribuição aleatória (distribuição ao acaso dos integrantes dos grupos de controle e de pesquisa) ou a análise de regressão descontínua (leia abaixo).

(Nota da Jeduca: em outras palavras, o ponto da autora do texto aqui é que, para ter certeza de que uma determinada ação teve resultados, o melhor a fazer é comparar o resultado de um grupo de alunos que foi impactado por aquela ação – o chamado grupo de tratamento – com outro, de mesmo perfil, que não foi impactado – o chamado grupo de controle.

É a partir da diferença nos resultados entre esses dois grupos que temos mais segurança para medir o impacto de determinada ação no desempenho dos alunos. Para que os grupos sejam perfeitamente comparáveis, a metodologia mais valorizada nas pesquisas acadêmicas é a de escolha aleatória, como um sorteio entre quem receberá o programa e quem não receberá.

Na área médica, esse tipo de seleção é comumente feita com um grupo de pessoas recebendo um novo tratamento, enquanto outro recebe apenas placebo. Desta forma, é possível dizer que a única diferença entre os dois grupos foi o fato de um deles ter tido acesso a determinado tratamento.)

- Qual é o tamanho da amostra pesquisada?

Essa é uma questão-chave para definir se o estudo foi abrangente o suficiente para que seus resultados sejam estatisticamente significativos.

- O que mais aconteceu durante o período estudado que pode explicar o resultado?

Se a pesquisa diz respeito a uma escola, por exemplo, houve mudanças em questões como número de matrículas, equipe de professores ou na direção da unidade?

(Nota da Jeduca: podemos aqui usar um exemplo comum no contexto brasileiro. Se um determinado programa começa num ano em que se inicia uma greve de professores, a simples comparação do desempenho antes e depois pode ser injusta, pois outras ações que aconteceram naquele período prejudicaram o desempenho dos alunos.)

- Quais são as limitações do estudo?

A maioria dos bons pesquisadores costuma destacar esse aspecto em uma seção do artigo, que deve ser leitura obrigatória para os jornalistas.

- As conclusões da pesquisa seguem as de outros estudos na mesma área?

Se forem diferentes, isso não indica necessariamente algum erro ou inconsistência, mas aponta a necessidade de se investigar o tema mais a fundo: quais eram as diferenças entre a pesquisa e trabalhos anteriores sobre o tema em questão?

Também pode ser importante levar em conta outros fatores quando se analisa o valor de uma pesquisa. Em um estudo realizado em uma escola, por exemplo, é preciso avaliar o grau de adesão dos professores a uma determinada intervenção.

Outra questão é saber se o grupo experimental (aquele que foi impactado pela ação) recebeu de fato um tratamento diferente do dispensado ao grupo de controle. Nos Estados Unidos, uma avaliação federal sobre o Reading First, programa de ensino de leitura para crianças que acabou sendo suspenso, mostrou que ele não teve impactos significativos. Mas a avaliação também revelou que, em muitos casos, os métodos de ensino usados com o grupo experimental também eram empregados com alunos de grupo de controle, não atendidos diretamente pelo Reading First.

(Nota da Jeduca: este é um risco comum a qualquer avaliação de um programa. Se um grupo de professores da escola vizinha passa a usar os mesmos métodos de um novo programa educacional testado numa escola onde o novo sistema foi implementado, por exemplo, a avaliação fica comprometida porque não será possível determinar qual o verdadeiro impacto daquela ação, pois ambos os grupos acabaram adotando as mesmas práticas. Neste caso, o programa pode até ser muito eficiente, mas será muito mais difícil medir qual seu impacto.

Na avaliação de políticas públicas, especificamente, o jornalista precisa recuperar os objetivos iniciais ou vigentes da política educacional e compará-los com aspectos que a pesquisa se propõe a investigar. É muito difícil que um estudo consiga captar todos os efeitos de uma política. Já tratamos deste assunto em um texto publicado no site, "A Educação Além das Provas".)

Modelos de pesquisa

Por muito tempo a convenção, em termos de pesquisa educacional, era a de que apenas estudos com a distribuição aleatória dos participantes entre os grupos experimental e de controle eram capazes de produzir conclusões confiáveis. (Nota da Jeduca: caso, por exemplo, da separação desses grupos num sorteio).

Embora ainda seja considerado o estado da arte para estabelecer relações de causa e efeito, esse modelo de pesquisa tem inconvenientes. Tais experimentos podem custar muito caro e até levantam questões éticas em alguns casos – se os pesquisadores realmente acreditam que uma determinada intervenção melhora o aprendizado, por que impedir que estudantes do grupo de controle tenham acesso a ela?

Considerando isto, outro modelo também aceito por pesquisadores chama-se análise de regressão descontínua. Ele é usado para avaliar intervenções que envolvem alguma linha de corte, como por exemplo um teste padronizado de leitura que determina se o aluno vai ou não passar de ano. Nesse caso, um dos pressupostos é o de que estudantes que ficaram logo abaixo ou logo acima da nota de corte não diferem muito entre si, em termos acadêmicos.

Mas mesmo estudos mais simples, nos quais pesquisadores comparam estudantes submetidos a uma intervenção experimental com alunos que não a receberam, podem produzir bons dados quando realizados com cuidado. O ingrediente-chave é ter um grupo de controle bastante parecido com o experimental em termos de desempenho acadêmico, idade e características demográficas.

“Significância estatística”

Por Holly Yettick

Um conceito importante na pesquisa em educação é o do chamado “valor p”. Ele resulta de um “teste de significância” baseado na premissa pessimista de que um pesquisador obteve resultados devido ao acaso. Valores grandes de p reforçam a possibilidade de resultados obtidos por acaso.

Como seria de se esperar, pesquisadores buscam atingir valores baixos de p. Se eles ficam abaixo de 5%, o resultado da pesquisa geralmente é considerado “estatisticamente significante” ou “significativo”. O que isso quer dizer? Vamos supor que alguém tente repetir o estudo: a probabilidade de o segundo pesquisador obter os mesmos dados será de apenas 5% se o resultado da pesquisa original for decorrente do acaso. Se o valor p for inferior a 1%, os resultados podem ser considerados de “alta significância estatística”.

O valor p não é apenas um dos termos estatísticos mais populares, mas também um dos mais utilizados de forma incorreta. Um erro comum é usar o valor p em estudos nos quais não existe o fator chance, como um teste aplicado a todos os alunos de uma rede municipal, e não a uma amostra aleatória de estudantes.

O valor p não pode dizer se os resultados foram afetados, por exemplo, pelo fato de alguns estudantes terem faltado no dia do exame – afinal de contas, os alunos provavelmente não foram selecionados aleatoriamente para deixarem de ir à escola.

Outro erro comum é considerar que “significância estatística” é o equivalente a obter resultados especialmente relevantes. Infelizmente, o valor p não diz nada sobre a magnitude ou a importância dos resultados na vida real.

É importante levar em conta, por exemplo, o fato de que o valor p é muito sensível ao tamanho das amostras. Quanto maior a amostra, maior a possibilidade de os resultados serem significativos estatisticamente. Mas embora pesquisas com milhares de participantes produzam muitas vezes resultados de alta significância estatística, o efeito prático daquele programa ou intervenção pode ser marginal.

“Tamanho do efeito”

Por Holly Yetick

O “tamanho do efeito” mede a magnitude de um dado estatístico. No nível mais básico, o tamanho do efeito é a diferença registrada entre os participantes submetidos a uma intervenção específica (grupo experimental) e os que não passaram por ela (grupo de controle).

Digamos, por exemplo, que um pesquisador está estudando o impacto de um novo curso online de preparação para o vestibular. Metade dos concluintes do ensino médio de um município faz o curso. Sua nota média no exame é 22. A outra metade dos concluintes não faz o curso. Sua nota média é 21. Então o tamanho do efeito do curso online é 22 menos 21, ou 1 ponto na escala do exame vestibular.

Você sempre deve tentar incluir o tamanho do efeito em reportagens sobre estudos com intervenções semelhantes à deste hipotético curso online. Isso ajuda o leitor ou espectador a avaliar se o programa produziu resultados relevantes a ponto de justificar o tempo, esforço e recursos gastos na sua implementação.

Se os pesquisadores divulgam tamanhos de efeito de difícil compreensão (por exemplo, “5% de um desvio padrão”), peça a eles que traduzam o resultado em uma linguagem que o seu público vai entender – como a escala do exame vestibular.

Também vale pedir aos pesquisadores que comparem o tamanho de efeito do seu estudo com o de outras pesquisas semelhantes. Voltando ao nosso exemplo, você poderia perguntar sobre o tamanho do efeito apurado em outras pesquisas sobre cursinhos preparatórios online.

Debra Viadero é editora assistente no Education Week (jornal americano dedicado à cobertura do ensino básico), onde supervisiona a cobertura de pesquisas científicas e outros temas

Holly Yettick dirige o Centro de Pesquisas do Education Week

Este guia foi produzido graças a uma bolsa da Spencer Foundation

Republicado com permissão da EWA. Veja o documento original neste link