Saiu nesta semana a versão em inglês, gratuita e na Web, do Data Journalism Handbook. Trata-se de um livro feito com a colaboração de vários jornalistas do mundo inteiro com alguma experiência no tratamento jornalístico de dados.
O livro reúne dicas e exemplos para quem quer conhecer melhor como funciona essa coisa de entrevistar números como se entrevista pessoas e depois fazê-los falar usando gráficos interativos ou não.
Alguns artigos têm uma importância grande até para quem não pretende produzir nada com massas de dados, apenas compreender melhor o que lê. É o caso do artigo “Become data literate in 3 simple steps“, de Nicolas Kayser-Bril.
É um pequeno guia para ler números que viram notícia. Resumo aqui:
1. Como os dados foram coletados?
“Quando a performance está ligada à produtividade, por exemplo, policiais têm um incentivo para registrar o máximo possível de incidentes que não exigem investigação. Um crime assim é o uso de maconha. Isso explica por que crimes relacionados às drogas na França quadruplicaram nos últimos 15 anos enquanto o consumo permaneceu constante. Quando duvidar da credibilidade de um número, sempre cheque duas vezes, como você faria se fosse uma aspa de um político.”2. O que se pode descobrir aí?
“Na média, 1 em cada 15 europeus é completamente analfabeto. Essa manchete parece assustadora. Também é completamente verdadeira. Entre os 500 milhões de europeus, 36 milhões provavelmente não sabem ler. Aliás, 36 milhões também têm menos de 7 anos de idade. Quando for escrever sobre uma média, sempre pergunte a si mesmo: ‘média de quê?’ A população de referência é homogênea? Os padrões desiguais de distribuição explicam por que a maior parte das pessoas dirige melhor do que a média, por exemplo. Muita gente tem zero ou apenas um acidente durante a vida inteira. Alguns motoristas inconsequentes têm muitos acidentes, jogando o número médio de acidentes para muito mais alto do que a maior parte das pessoas experimenta. O mesmo é verdade na distribuição de renda: muita gente ganha menos do que a média.”3. O quanto essa informação é confiável?
“Matérias sobre os benefícios de beber chá são lugar comum. (…) Embora os efeitos do chá sejam seriamente estudados por alguns, muitas pesquisas deixam de levar em conta fatores do estilo de vida, como a dieta, a profissão ou a prática de esportes. Na maior parte dos países, o chá é uma bebida comum entre classes mais altas e mais conscientes em relação à saúde. Se os pesquisadores não levarem em conta os fatores de estilo de vida nos estudos do chá, eles não estarão dizendo nada além de ‘os ricos são mais saudáveis – e eles provavelmente bebem chá’. A matemática por trás das correlações e margens de erro nos estudos do chá está certamente correta, ao menos na maior parte do tempo. Mas, se os pesquisadores não procurarem outras co-correlações (tipo como beber chá se correlaciona à prática de esportes), seus resultados têm pouco valor.”
Este último ponto é particularmente importante.
Ontem, fui almoçar com colegas de uma editoria especializada aqui da Folha. Um deles me contou de uma entrevista que fez com um pesquisador, segundo o qual determinado fenômeno tinha tido uma redução de 1.500%. O colega sabia que nada pode cair mais do que 100% – uma queda de 1.500% significa perder tudo o que tem e ficar devendo 14 vezes tudo o que tinha antes da queda -, e portanto deixou essa informação inútil e enganosa fora da reportagem. Jornalista ligado protege até a fonte de passar ridículo.
A queda real: 97%, o que é bastante significativo. Desde que o pesquisador soubesse usar uma trena corretamente para medir as distâncias. Espera-se que sim.