Hoje é o Dia Mundial da Estatística. Segundo a ONU, o tema deste ano é “Melhores Dados, Vidas Melhores“. Por acaso, a Justiça Eleitoral nos traz um ótimo motivo para falar de um aspecto importante sobre a leitura de estatísticas. É a compreensão de que, na ponta, os dados são humanos. Às vezes, até demais.
O Tribunal Superior Eleitoral divulgou, na noite de quarta (19), uma nota tímida de esclarecimento sobre o erro de ter exposto como possível fraude uma suposta doação de R$ 75 milhões a uma candidata recebedora do Bolsa-Família. No final, não era fraude, e sim erro de digitação.
Apesar de todo o jargão de “ciência de dados” e “técnicas de big data” que apregoaram utilizar, esqueceram de um preceito que faz parte do beabá da análise estatística básica: a checagem de outliers, pontos anômalos. Aqui tem um link para quem tiver interesse.
Na nota, o TSE lembra que “com foco na transparência, a Justiça Eleitoral dá publicidade aos dados informados pelos candidatos, que serão analisados e julgados pela Justiça Eleitoral somente após as eleições”. Segundo o TSE, “as informações das prestações de contas são de inteira responsabilidade dos candidatos e partidos, sendo possível retificação dos dados encaminhados a qualquer tempo”.
É verdade. Também é verdade que a divulgação e fiscalização em tempo real das contas eleitorais foi um imenso avanço nas eleições brasileiras.
Nada disso torna menos verdade que foi um fiasco terem exposto uma pessoa modesta a suspeitas sem nem desconfiar de que é quase certamente um erro de digitação uma doação de R$ 75 milhões numa cidade com PIB de R$ 53 milhões, como Santa Cruz da Baixa Verde. Cidade que, aliás, não vai mal no Ranking de Eficiência dos Municípios – Folha.
“Jogaram pedra na Geni“, resumiu Bernardo Mello Franco num feliz trocadilho com o nome da candidata e com o clássico da “Ópera do Malandro”.
Há algumas semanas, no final da campanha, escrevi para a Folha uma coluna sobre grandes doações para candidatos e vi uma doação de R$ 15 milhões em Cardoso-SP. Se fosse verdade, seria a maior doação do país, feita pelo diretório local do partido para uma candidata a vereadora.
O problema é que o partido havia doado nada parecido às suas maiores estrelas. Pior: a doação representaria 10% de todo o PIB da pequena cidade. Com a pulga atrás da orelha, enquanto escrevia a coluna procurei o diretório estadual do partido, que me deu o contato do representante no município.
Ele deu risada. Segundo ele, na hora de digitar uma doação de R$ 15 mil, o dedo escorregou e sobraram três zeros. Por sorte eles notaram rápido e imediatamente solicitaram retificação. Voltei a checar uma semana depois, e o TSE ainda não havia retificado o dado.
A nota do TSE sobre o caso da dona Geni lembra que todos os candidatos podem pedir retificação caso haja erro de digitação, mas vendo o perfil da candidata me parece completamente possível que ela mesma nem tenha notado.
Erros como esses ocorrem porque, na ponta, as estatísticas são humanas. Até demais.
Pense nos dados da violência. Eles não vêm da cegonha. Na ponta do processo, foram digitados por algum policial num boletim de ocorrência. No ponto cego mais inocente, se você teve seu celular roubado e não registrou ocorrência, o roubo que você sofreu não consta dos dados da segurança. Num ponto cego mais complicado, já soube de muitos casos de homicídios serem registrados como “morte a esclarecer”, por exemplo, o que convenientemente leva a uma queda no número de homicídios.
Pense nos dados da saúde. Eles também não vêm da cegonha. Na ponta do processo, eles vêm de prontuários preenchidos por médicos, enfermeiros ou estagiários, geralmente em horários ruins, com pressa para dar conta das tarefas do dia. Não admira que os dados sejam de uma qualidade tão ruim que há incerteza sobre incidências de microcefalia no país antes de a zika colocar o tema na ordem do dia.
Quando pesquisei dados de câncer de mama para uma reportagem, há dois anos, o Rio Grande do Sul apareceu com uma incidência muito alta e Estados mais pobres com incidência bem mais baixa. Será que há mais incidência de câncer de mama no Rio Grande do Sul, onde há campanhas constantes para estimular mulheres a fazer o exame, ou será que há menos notificação em Estados onde há pouca estrutura para que mulheres façam o exame e detectem a doença?
Na ponta, os dados são humanos até demais. Sempre vale a pena levar isso em conta na hora de ler os números. É por isso que, em análise estatística, uma das providências mais básicas é a checagem de “outliers”, de pontos fora da curva. Quando fizemos o REM, alguns municípios ficaram de fora devido a esse tipo de análise – geralmente, nesses poucos casos a qualidade do dado original deixava tanto a desejar que o município distorcia tudo.
As contas de campanha em tempo real foram uma antiga demanda de grupos que defendem a transparência dos dados eleitorais. Por acaso ou não, só chegaram depois que foram proibidas as doações empresariais.
Sim, o TSE e o TCU pagaram um mico imenso ao identificar mas não checar o “outlier”. Expuseram de maneira muito chata uma candidata modesta.
O que não pode é esse erro virar desculpa para um retrocesso, para deixar de divulgar as contas em tempo real nas próximas eleições. Vale a pena todos ficarmos de olho para que isso não ocorra.