Afinal de Contasprobabilidades – Afinal de Contas

Repetir número na Mega é fraude? Dificilmente.

Marcelo Soares — Tue, 29 May 2012 20:30:26 +0000

A Mega-Sena acumulou no último sorteio, e hoje pela manhã já havia filas na lotérica perto de casa. Segundo a própria Caixa Federal, a chance de acertar seis números na Mega-Sena é de uma em 50 milhões, mas quem joga tem prazer em comprar por R$ 2 o sonho de um dia acordar rico. Exatamente por isso o tema mexe com a imaginação popular.

Recebi cinco vezes nas últimas duas semanas, por e-mail e pelo Facebook, uma corrente dizendo que a Mega-Sena foi fraudada (“A casa caiu pra Caixa”, diz o título). Uma pesquisa no Google mostra que essa corrente circulou várias vezes, em 2010, 2011 e agora neste ano. A suposta evidência apresentada: em 2010, em dois concursos seguidos, quatro dos seis números sorteados foram os mesmos. Como de praxe, os autores da corrente acusam a imprensa de uma grande conspiração para ocultar o fato. Claro, a culpa é sempre nossa.

É possível uma coincidência grande assim de números acontecer sem que seja fraude? É muito raro, mas pode acontecer. Se for uma vez em muitas, tudo bem. Se for frequente, vale a mordida da pulga na orelha.

Como se checa isso?

Antes de mais nada, baixei os dados de todos os concursos da Mega-Sena. Estão disponíveis no site da Caixa.

Então, para ver quantas vezes aconteceram situações assim estranhas, consultei o mestre de Excel Paulo Haddad, com quem tive aulas de Excel avançado em 2000. Paulo é co-autor do livro “Crie Planilhas Inteligentes com Office Excel 2003”, e escreveu uma fórmula comparando os resultados de cada um dos quase 1.400 concursos com o resultado do concurso imediatamente anterior.

O que descobrimos:

Em quase metade dos concursos há a repetição de pelo menos um número. Foram apenas 721, dentre as 1.394 disponíveis, as extrações em que nenhum número se repetiu em relação ao jogo anterior.
Repetir dois números de um concurso para outro é quase corriqueiro. Aconteceu 111 vezes desde o começo da Mega-Sena, em 1996 – ou quase oito vezes a cada 100 extrações. A mais recente foi em 12 de maio.
Por 11 vezes, foram repetidos três números de um concurso para o seguinte. Isso aconteceu em 1999, 2001, 2003, 2007, 2008, 2009 e 2011. Acontece quase OITO vezes a cada MIL extrações.
Uma vez só, houve a repetição de quatro números de um concurso para o seguinte. É o caso citado na corrente, de 2010. Foi uma vez em quase 1.400 concursos.
Uma vez só, foram repetidos cinco números de um concurso para o seguinte. Foi em 31 de outubro de 2001. Foi uma vez em quase 1.400 concursos.

Há números que saem mais do que outros, mas sempre dentro da distribuição normal. Em média, cada uma das 60 dezenas saiu pouco mais de 139 vezes. O desvio-padrão, que mede o quanto as frequências costumam variar em torno da média, é de 11,4 vezes.

Numa distribuição normal, 68% dos casos estão um desvio-padrão acima ou abaixo da média. Ou seja, dois terços dos números devem ter saído entre 128 e 150 vezes.

Dois desvios-padrão acima ou abaixo da média abarcam 95% dos casos possíveis – ou seja, entre 116 e 161 vezes. Três desvios (105 a 173 vezes) abarcam 99% dos números. Mais do que isso são pontos fora da curva.

Nenhum dos 60 números da Mega se repetiu mais do que três desvios-padrão acima da média. Nenhum também se repetiu menos do que três desvios-padrão abaixo da média. O máximo foi 171 vezes (número 5) e o mínimo foi 111 vezes (número 26). Essa distribuição pode variar ao longo do tempo. Se você pegar um ano específico, o “ranking” deve ser outro se a distribuição for realmente ao acaso.

Ainda assim, tudo aparentemente está normal. Repetições são curiosas, mas se forem raras são apenas isso. Pode haver outros tipos de fraude, mas a repetição de números uma vez não é, por si, evidência disso.

Num próximo post, vamos ouvir um estatístico sobre as probabilidades das loterias e relembrar casos conhecidos de fraude. Fique ligado. Enquanto isso, conte aqui nos comentários: você joga em loterias? Não joga? Por quê? Quais as suas favoritas? De quais você desconfia?

O futebol é uma caixinha de… probabilidades

Marcelo Soares — Sat, 26 May 2012 15:00:36 +0000

Meu xará Marcelo Leme de Arruda é doutorando em estatística e autor do site Chance de Gol, que calcula as probabilidades relacionadas ao futebol. Arruda tem a difícil tarefa de equilibrar o ato de fé de ser um torcedor com a disciplina metodológica da estatística.

“Dói (e às vezes dói muito) ter que colocar o meu time com 0% após uma eliminação, mas é o meu dever e eu não posso deixar de cumpri-lo”, diz.

Segundo seus cálculos, feitos com base no histórico do desempenho dos times, o Santos e logo depois o Internacional de Porto Alegre são os times que hoje têm mais do que uma chance em três de vencer o Brasileirão. Os outros dezoito times da série A dividem a chance restante. Essas chances vão mudando conforme o campeonato avançar e os times forem acumulando pontos.

Os números da bola fascinam Arruda desde que lia a Folha na infância. Em 1998, ele começou a participar da melhor rede social que a internet já teve – a Usenet. Lá, descobriu o grupo rec.sports.soccer.statistics, onde conheceu outros fanáticos como ele, que catalogavam dados históricos de campeonatos de futebol do mundo inteiro. Isso é uma das faces do fenômeno hoje conhecido como “crowdsourcing”.

“Vi que o site ainda era muito deficiente com relação às competições brasileiras e me ofereci para integrar o grupo, seguindo as regras citadas na página inicial”, diz Arruda. É de sua lavra o histórico das partidas da Seleção Brasileira desde 1914, publicado hoje no RSSSF. Por meio dessa colaboração entre fãs de futebol, eles levantaram os dados e descobriram que o Vasco da Gama estreou na primeira divisão carioca dois anos antes do que se sabia.

Recentemente li o livro “Moneyball”, que conta como o técnico de beisebol Billy Beane e sua equipe utilizaram estatísticas organizadas por torcedores na internet para descobrir indicadores ocultos de performance e montar o time mais eficiente possível dentro das fortes restrições orçamentárias do Oakland As. Foi o livro de cabeceira do técnico de vôlei Bernardinho em 2004 e deu origem ao filme “O Homem que Mudou o Jogo”.

O livro é fascinante para quem gosta de numeralha, e perguntei a Arruda se ele conhece casos semelhantes no Brasil. Segundo o estatístico, o Brasil já teve técnicos que procuraram fazer isso no futebol – só o que ele não sabe é até que ponto o sucesso de suas equipes no período esteve exatamente ligado ao uso de dados.

Muita gente critica o uso de probabilidades no futebol, julgando que isso dá um verniz falso de ciência ao que é uma arte. Isso, diz Arruda, denota desconhecimento de como funcionam as probabilidades. “Probabilidades não são afirmações definitivas sobre o desfecho de um jogo ou de um campeonato, mas tendências que retratam daquele momento específico”, diz. Essas tendências mudam de acordo com o avanço do campeonato.

EDITADO: O entrevistado indica três textos que publicou no Chance de Gol, detalhando como funcionam as probabilidades do futebol. Leia-os para conhecer mais sobre o assunto:

Entenda os cálculos do Chance de Gol
Entenda os rankings Chance de Gol
Matemágicos, não, senhor! (ou: curso rápido de probabilidade aplicada ao futebol)

***

Confira abaixo os principais tópicos da entrevista com o estatístico. Começando pelo que eu sei que você mais quer saber: as probabilidades atuais de o seu time vencer o Brasileirão.

1. As chances dos times
“No momento, são as seguintes:

Time	Conquista do Título	Rebaixamento para a Série B
Santos	35.6 %	< 0.01 %
Internacional	34.5 %	< 0.01 %
Atlético MG	7.6 %	0.2 %
Fluminense	5.8 %	0.4 %
Grêmio	4.4 %	0.6 %
Vasco	3.7 %	0.7 %
São Paulo	2.5 %	1.3 %
Botafogo	1.5 %	1.9 %
Coritiba	1.4 %	1.9 %
Cruzeiro	1.0 %	2.8 %
Palmeiras	0.6 %	4.5 %
Flamengo	0.4 %	5.0 %
Corinthians	0.3 %	4.8 %
Atlético GO	0.3 %	7.5 %
Figueirense	0.3 %	9.4 %
Bahia	0.08 %	14.2 %
Ponte Preta	< 0.01 %	66.5 %
Portuguesa	< 0.01 %	79.8 %
Sport	< 0.01 %	98.6 %
Náutico	< 0.01 %	99.95 %

Cabe aqui não apenas reiterar que esses números retratam tendências (e não afirmações) como esclarecer que, no presente momento, Santos e Internacional têm uma cotação (um índice, um ranking) superior às dos outros 18 participantes e, conseqüentemente, são favoritos em todos os seus jogos no campeonato, o que justifica as suas altas probabilidades atuais de conquista de título.

Da mesma forma, os quatro times oriundos da Série B (Ponte Preta, Portuguesa, Sport e Náutico) têm uma cotação/índice/ranking bem inferior aos outros 16 clubes, são favoritos à derrota em todos os seus jogos no campeonato, e isso justifica as suas altas probabilidades atuais de rebaixamento.”

2. Como se calculam as chances de um time
“Não existe uma única “maneira correta”. Existem várias formas possíveis, com várias formulações matemáticas possíveis e (pelo menos) duas maneiras possíveis de analisá-las.

Uma poderia ser chamada de análise “anterior”, ou seja, antes dos resultados. Consiste na verificação da fundamentação teórica do modelo, na coerência dos cálculos etc. Cito com exemplo um artigo que li certa vez sobre as probabilidades de cada uma das 32 seleções participantes vencer a Copa do Mundo de 1998. Os autores do artigo baseavam os seus cálculos no Ranking da FIFA sem atentar para o fato de que uma seleção ter 1000 pontos nesse ranking não significa que esta seja “duas vezes melhor” que outra seleção que tenha 500 pontos no ranking.

De constatações desse nível a observações mais sutis e profundas, os modelos podem ser sempre destrinchados a partir desse tipo de análise, embora obviamente não exista uma medida numérica que quantifique a “razoabilidade teórica” de cada modelo.

A outra maneira, que poderia ser chamada de análise “posterior” consiste simples e pragmaticamente em calcular escores como os que citei na resposta anterior. Nesse caso, mesmo que o modelo tenha um embasamento teórico péssimo, mesmo que o “matemático” se baseie em variáveis esdrúxulas como a idade das mães dos jogadores e o CPF do técnico, mesmo que o “matemático” prefira jogar búzios a fazer contas, se esse modelo resultar num escore bom ele será, segundo essa análise, um bom modelo.”

3. O que as tabelas de futebol mostram e o que elas “escondem”
“A meu ver, os indicadores menos óbvios (e menos numéricos) são os nomes dos adversários de cada time. Se o time A conseguiu uma vitória por 10 x 0 e o time B conseguiu uma vitória por 1 x 0, a tendência A é dizer que o time A é “melhor”. Porém, se a vitória de 10 x 0 do time A tiver sido contra o Naviraiense e a vitória de 1 x 0 do time B tiver sido contra o Boca Juniors, a noção de quem é “melhor” que quem fica diferente e isso não pode nunca ser ignorado.

Pragmaticamente falando, a partir do momento em que toda vitória vale três pontos e que o campeão (ou os classificados para a fase seguinte) são apurados unicamente pelos totais de pontos ganhos, saldo de gols etc., as tabelas tradicionais capturam, sim, toda a informação necessária para que o leitor possa conhecer a situação do seu time na competição.

Por outro lado, se o objetivo é analisar com maior profundidade quem é “melhor” que quem, aí seriam necessários dados adicionais, como os que citei no início da resposta anterior. Imagine que dois times tenham derrotado todos os seus adversários no campeonato, sendo que o time X venceu todos os jogos por 8×0 e o time Y venceu todos os seus compromissos por 1×0. Imagine também que na última rodada o time Y vença o time X por 1×0. O campeão será inquestionavelmente o time Y mas qualquer análise minimamente aprofundada revelará que o melhor time da competição foi o time X.

Dando um exemplo concreto e atual, eu recebi no Chance de Gol muitos questionamentos de torcedores do Fluminense a respeito das probabilidades para o confronto contra o Internacional pelas oitavas de finais da Libertadores. Esse torcedores não entendiam como era possível que o “1º colocado geral” não fosse favorito contra o “16º colocado geral”. A explicação para isso me parece simples: o Fluminense foi de fato o time que conquistou mais pontos dentre os 16 classificados; só que esses pontos foram conquistados contra adversários diferentes dos enfrentados pelos outros classificados.

Analisando com aquele aprofundamento que citei mais atrás: conquistar 16 pontos contra Boca Juniors, Arsenal de Sarandí e Zamora é necessariamente “melhor” que conquistar 8 pontos contra Santos, The Strongest e Juan Aurich? Ou será que o Fluminense simplesmente pegou um grupo “mais fácil” que o Internacional? Note que o Zamora, lanterna do grupo do Fluminense, conquistou apenas 1 ponto, enquanto o Juan Aurich, lanterna do grupo do Internacional, terminou a primeira fase com 6 pontos ganhos. Será que não foi, então, a presença de um “saco de pancadas” no seu grupo que deu ao Fluminense a primeira colocação geral, mascarando o real nível técnico do Tricolor?”

4. Existe “Moneyball” brasileiro?
“Há no Brasil entidades e sites que contabilizam números de passes certos, passes errados, chutes a gol, desarmes etc.

Eu acho esses números úteis e relevantes desde que combinados com outras variáveis a fim de gerar diagnósticos de desempenho. Por exemplo: a informação de que a média de chutes a gol de um determinado time é 15 por jogo não tem muita serventia por si só. Por outro lado, se cruzando com outras variáveis, for descoberto que essa média é de 12 chutes a gol em ataques pela esquerda e apenas 3 em ataques pela direita, ou que é de 25 chutes a gol quando o Chiquinho está em campo e de apenas 5 quando o Chiquinho não está em campo, aí podemos perceber diagnósticos relevantes acerca do lado por onde o ataque é efetuado ou da presença ou não do Chiquinho em campo.

No início dos anos 90, o Moracy Sant’Anna (preparador físico do São Paulo e da Seleção Brasileira) tinha um banco de dados sobre os dados de scout de cada jogador e utilizava essas informações no preparo dos seus atletas. Coincidência ou não, ele foi campeão da Copa do Mundo de 1994 com a Seleção, dos Mundiais Interclubes de 1992 e 1993 com o São Paulo e por muito pouco não conseguiu com o Tricolor o (ainda hoje) inédito tricampeonato mundial consecutivo, em 1994.

Lembro também que, por volta de 1999/2000, havia uma parceria entre o Departamento de Estatística da Unicamp e a Ponte Preta, também voltada á análise de dados de scout. Novamente, pode até ser coincidência, mas naquele período a Ponte Preta chegou a três mata-matas consecutivos do Campeonato Brasileiro (1999, 2000 e 2001), além de ter sido semifinalista do Campeonato Paulista de 2001 depois de ter terminado a fase classificatória em primeiro lugar.

Confesso que não sei, porém, se esses trabalhos ainda são mantidos hoje em dia. Depois que o Moracy saiu do São Paulo e da Seleção eu nunca mais ou vi falar nele e, a julgar pelos tempo que a Ponte Preta passou na Série B nacional no passado recente, suponho que a parceria com a Unicamp não exista mais.

Com relação aos times do exterior, o máximo que lembro de ter lido (confesso que acompanho muito superficialmente o futebol internacional) é sobre o André Vilas-Boas, que me parece ser muito afeito a dados de scout e até mesmo a “análises” via Playstation.”

5. Seu histórico de “acerto” nas projeções
“As probabilidades apontam uma tendência (e nunca uma afirmação) de que esse time saia vencedor do próximo jogo ou aquele time termine o campeonato em primeiro lugar. E é justamente por retratar apenas uma tendência e por existirem dados impossíveis de serem levados em consideração que as probabilidades veiculadas são 80%, 150%, 47% etc. e nunca 100% ou 0%. Se eu digo que o Brasil tem 98% de chances de ganhar da Samoa, isso não é uma afirmação de que o Brasil VAI ganhar! Ao contrário, o “morrinho artilheiro”, o gol perdido pelo atacante cara a cara com o gol, a bola na trave e todos os “acasos” que os cronistas usualmente elencam estão manifestados exatamente nos 2% restantes, correspondentes à probabilidade de o Brasil não ganhar o jogo!

É exatamente por essa característica (de os números apontarem uma tendência e não uma afirmação) que não se pode considerar como “acerto” ou “erro” a ocorrência ou não do resultado apontado como mais provável. Um exemplo simples disso é você pensar numa caixa com seis bolas brancas e quatro bolas azuis. Se eu disser que a probabilidade de ser sorteada uma bola branca é 60% e de ser sorteada uma bola azul e 40% não estarei falando nenhuma bobagem, correto? Agora imagine que na hora do sorteio você coloca a mão na caixa e sai uma bola azul. Isso significaria que a probabilidade estava “errada”? É evidente que não!

Existem na teoria estatística métodos de mensuração da qualidade de prevsões probabilísticas. Esses métodos não são fáceis de serem explicados aqui mas eu posso assegurar que o escore do Chance de Gol (que acompanho periodicamente desde 1999) é muito bom. Existem valores padrão para balizamento dessas medidas e o Chance de Gol supera em muito esses valores.

Além disso, acho interessante citar que nas duas últimas Copas do Mundo (2006 e 2010) o Chance de Gol participou de “campeonatos entre modelos de previsão”, ambos com escores definidos de forma muito criteriosa e de acordo com a teoria estatística; e em ambas as competições o Chance de Gol foi campeão.”

6. Quando o lado torcedor ‘briga’ com o lado estatístico
“Eu sempre tento ao máximo ser objetivo em todas as minhas manifestações. Muitos me consideram chato e detalhista mas eu não consigo deixar de ser assim, até para buscar estar sempre coerente entre o que eu falei inem, o que eu falo hoje e o que eu falo amanhã. Assim, quando me perguntam sobre quem eu acho que vai passar para a final, vencer o campeonato etc. eu sempre dou respostas do tipo “tecnicamente, estatisticamente o favorito é o X mas como torcedor eu acho que pode acontecer isso ou aquilo” (especialmente quando o meu time não é o favorito).

Por outro lado, por mais lógico e objetivo que eu tente ser, é difícil o lado torcedor não criar esperanças às vezes desproporcionais à realidade e não sucumbir a algumas superstições bobas, do tipo “da última vez que o meu time jogou contra o adversário tal, eu estava de camiseta azul e o meu time perdeu, então eu não vou mais assistir jogos do meu time contra aquele adversário usando camiseta azul”.

Por fim, o aspecto mais importante de todos (e é igualmente importante que isso fique totalmente claro) é que eu jamais deixo o torcedor interferir no site. Tudo que é publicado no Chance de Gol é estritamente fruto de cálculos matemáticos e nem que eu quisesse “trapacear” haveria como aumentar as chances e cotações do meu time ou diminuir as dos rivais e adversários. Dói (e às vezes dói muito) ter que colocar o meu time com 0% após uma eliminação mas é o meu dever e eu não posso deixar de cumpri-lo.”