Frontdaciência - T08E33 - Lei de Benford


Resumo

O episódio explora a Lei de Benford, uma propriedade contra-intuitiva da estatística que descreve a frequência com que os dígitos de 1 a 9 aparecem como primeiro algarismo significativo em muitos conjuntos de dados do mundo real. A lei prevê que o dígito 1 aparece em cerca de 30% dos casos, enquanto o 9 aparece em apenas cerca de 5%, seguindo uma distribuição decrescente. Os participantes discutem como essa lei surge em fenômenos naturais e humanos, desde o desgaste de páginas em tabelas de logaritmos até a distribuição de tamanhos de montanhas, desde que os dados abranjam várias ordens de grandeza.

A conversa então se volta para as aplicações práticas da Lei de Benford, particularmente como uma ferramenta forense para detectar anomalias em grandes conjuntos de dados. É mencionado seu uso em contabilidade forense para identificar possíveis fraudes em livros-caixa, já tendo sido aceita como evidência em tribunais americanos. No entanto, é ressaltado que o desvio da lei é apenas um indício que requer investigação mais aprofundada, pois pode haver explicações legítimas, como a compra recorrente de um item com preço fixo.

O convidado Daniel Gammerman apresenta uma pesquisa recente que aplica a Lei de Benford para analisar as doações de campanha nas eleições brasileiras de 2014, utilizando dados públicos do Tribunal Superior Eleitoral (TSE). A análise inicial mostra uma correlação extremamente forte entre o volume de financiamento recebido e a probabilidade de um candidato a deputado ser eleito, um resultado que os participantes lamentam como sendo destrutivo para a democracia representativa.

A aplicação da Lei de Benford a esses dados de financiamento revela que as doações não seguem a distribuição esperada, apresentando distorções significativas, como picos em dígitos específicos. Essas anomalias são interpretadas como indícios de possível manipulação dos dados. A análise foi feita por partido e tipo de doador (CPF vs. CNPJ), com os partidos mais proeminentes apresentando as maiores distorções. O episódio conclui refletindo sobre as implicações desses achados para a saúde da democracia no Brasil.


Indicações

Conceitos

  • Lei de Zipf — Mencionada como um caso particular de distribuição que também aparece em fenômenos naturais e humanos, relacionada à frequência de palavras ou tamanhos.

Ferramentas

  • Tabelas de Logaritmos — Ferramenta de cálculo do passado cujo desgaste desigual nas páginas (as primeiras, com números de dígito inicial baixo, eram mais usadas) foi a pista inicial para a descoberta da Lei de Benford.

Fontes-De-Dados

  • Dados do TSE (Tribunal Superior Eleitoral) — Fonte de dados públicos utilizada na pesquisa apresentada, contendo todas as declarações de doações de campanha para as eleições brasileiras, permitindo análises de transparência.
  • Site ‘As Claras’ — Site mencionado que faz estatísticas e análises sobre os dados de financiamento eleitoral disponibilizados pelo TSE.

Pessoas

  • Frank Benford — Físico que deu nome à Lei de Benford após publicar um artigo sobre o fenômeno em 1938, embora não tenha sido o primeiro a notá-lo.
  • Simon Newcombe — Astrônomo e matemático que foi o primeiro a publicar um artigo sobre o fenômeno que viria a ser a Lei de Benford, em 1881.
  • Claude Shannon — Um dos pais da teoria da informação, que inventou uma máquina na década de 1950 que conseguia vencer humanos no jogo par ou ímpar ao detectar seus padrões não aleatórios.
  • Theodore Hill — Matemático que em 1995 forneceu uma prova mais rigorosa para a Lei de Benford, mostrando que ela emerge quando se tem uma distribuição homogênea do logaritmo dos números.

Linha do Tempo

  • 00:00:00Introdução ao programa e ao tema da estatística — Apresentação do programa Fronteiras da Ciência e dos participantes: Marco Idiarte, Carolina Brito, Jefferson Anenzon e o convidado Daniel Gammerman. É introduzido o tema da estatística como ferramenta fundamental para encontrar padrões em fenômenos aleatórios. É mencionada a dificuldade humana em lidar com a aleatoriedade e a tendência de enxergar padrões onde não existem.
  • 00:04:15Apresentação da Lei de Benford e suas origens históricas — Os participantes introduzem a Lei de Benford, uma propriedade não intuitiva da distribuição dos primeiros dígitos em conjuntos de números. É explicado que ela leva o nome de Benford, mas foi notada primeiro por Newcombe em 1881. A descoberta histórica partiu da observação de que as primeiras páginas das tabelas de logaritmos (com números começando com dígitos baixos) estavam mais desgastadas. A lei se aplica ao primeiro dígito significativo de um número.
  • 00:08:34Explicação e exemplos da Lei de Benford — É detalhado que, seguindo a lei, o dígito 1 aparece como primeiro algarismo em cerca de 30% dos casos, enquanto o 9 aparece em apenas cerca de 5%. São dados exemplos de onde a lei se aplica (como tamanhos de montanhas) e onde não se aplica (como a altura de pessoas, por ser uma distribuição muito estreita). A condição para sua validade é que os dados abranjam várias ordens de grandeza e provenham de distribuições diferentes.
  • 00:13:43Aplicações da Lei de Benford na detecção de fraudes — A conversa se volta para as aplicações práticas da lei, especialmente na detecção de anomalias em grandes conjuntos de dados, como em auditoria contábil (contabilidade forense). É mencionado que a lei já foi aceita como evidência em cortes americanas. É ressaltado, porém, que um desvio da lei é apenas um indício, não uma prova, e que é necessário investigar as causas específicas, como itens de custo fixo que podem distorcer a distribuição.
  • 00:17:09Pesquisa sobre financiamento eleitoral no Brasil usando a Lei de Benford — Daniel Gammerman apresenta sua pesquisa, publicada recentemente, que aplica a Lei de Benford para analisar as doações de campanha nas eleições brasileiras de 2014 (dados do TSE). A análise inicial mostrou uma correlação extremamente forte e estatisticamente significativa entre o volume de financiamento recebido por um candidato a deputado e sua probabilidade de ser eleito, um resultado preocupante para a democracia.
  • 00:23:49Resultados da aplicação da Lei de Benford aos dados eleitorais — É explicado que as doações de campanha, por abrangerem muitas ordens de grandeza (de centavos a milhões) e virem de fontes diversas, deveriam seguir a Lei de Benford. No entanto, a análise revela que elas não seguem, apresentando distorções como picos em dígitos específicos (ex.: um ‘baita pico’ no dígito 4). Essas anomalias são interpretadas como indícios de possível manipulação dos dados. Partidos mais proeminentes tendem a ter distorções maiores.
  • 00:28:14Discussão sobre as implicações e comparações — Os participantes discutem as implicações dos achados. É sugerido analisar a evolução das doações ao longo do tempo dentro de uma campanha para identificar pontos de virada. É destacado que o Brasil tem leis de transparência boas, tornando os dados acessíveis. Observa-se que empresas frequentemente doam para candidatos de ideologias opostas, e que as distorções na Lei de Benford são mais pronunciadas nos partidos maiores.

Dados do Episódio

  • Podcast: Fronteiras da Ciência
  • Autor: Fronteiras da Ciência/IF-UFRGS
  • Categoria: Science
  • Publicado: 2017-10-16T13:00:00Z

Referências


Dados do Podcast


Transcrição

[00:00:00] Este é o programa Fronteiras da Ciência da Rádio da Universidade, onde discutiremos

[00:00:09] os limites entre o que é ciência e o que é mito.

[00:00:12] O convidado do programa de hoje é o Daniel Gammerman, aqui do Departamento de Física

[00:00:16] da Urix.

[00:00:17] O pessoal do programa é a Carolina Brito, o Jefferson Alenzon e eu, Marco Diarte, da

[00:00:22] Física da Urix.

[00:00:23] A ideia do programa de hoje é a gente discutir um pouco sobre estatística, que nós quatro,

[00:00:28] o Jorge não está aqui hoje, nós quatro amamos estatística, inclusive o convidado,

[00:00:32] nós somos todos físicos estatísticos de formação, estatística é basicamente uma

[00:00:38] das ferramentas mais importantes do mundo científico, ocidental e tudo, ela serve para

[00:00:44] tudo.

[00:00:45] Muitos fenômenos na natureza, muitas coisas que acontecem no dia a dia que a gente não

[00:00:48] consegue prever, são fenômenos aleatórios ou estocáticos.

[00:00:53] Mas o que é interessante é que, mesmo eles sendo imprevisíveis, se a gente junta muitos

[00:00:58] desses eventos, a gente consegue tirar padrões e a gente consegue tirar leis, então a estatística

[00:01:02] traz essas informações interessantes para nós e esse vai ser o tema do programa de

[00:01:07] hoje sobre esse padrão que aparece no uso de números e as possíveis implicações

[00:01:12] práticas disso.

[00:01:13] Uma das grandes dificuldades que a gente tem, humanos, é lidar exatamente com a aleatoriedade.

[00:01:20] A gente tem uma predisposição para enxergar padrões onde não existe nada, o que certamente

[00:01:24] é uma vantagem evolutiva, melhor enxergar um predador quando não tem nenhum do que

[00:01:30] o contrário.

[00:01:31] Isso nos faz, então, enxergar rostos e monstros assustadores em tudo que é lugar e ao mesmo

[00:01:37] tempo isso nos gera dificuldades quando a gente quer produzir uma série ou um padrão

[00:01:43] aleatório.

[00:01:44] Por exemplo, se eu pedir para vocês me gerem uma sequência de 200 caras e coroas, provavelmente

[00:01:52] eu vou identificar que ela é montada, que ela é artificial.

[00:01:56] Isso é bem claro, por exemplo, se tu diz para uma pessoa, diz uma sequência de palavras,

[00:02:01] é impossível a pessoa começar a pegar palavras aleatórias no dicionário, não tem como ela

[00:02:05] vai.

[00:02:06] É mais do que isso, existem padrões que a gente evita porque não nos parecem aleatórios,

[00:02:10] Então, por exemplo, nessa sequência de 200 jogadas da moeda, é muito difícil, a menos

[00:02:15] que alguém já saiba de antemão, que existe uma probabilidade muito alta, se eu jogar

[00:02:20] de verdade, de aparecer uma sequência de 5 ou 6 caras ou 5 ou 6 coroas.

[00:02:25] Consecutivas.

[00:02:26] Consecutivas, mas se eu for inventar, isso não me parece aleatório, então eu evito

[00:02:30] isso.

[00:02:31] Então, na verdade, tu causa umas oscilações às vezes?

[00:02:34] Eu causo, ao tentar criar aleatória, eu causo mais regularidade.

[00:02:38] Ah, sim.

[00:02:39] E isso pode ser facilmente identificado.

[00:02:40] Claro, é que tu tem um tipo de censura, tu vai censurando possibilidades.

[00:02:44] Na verdade, a nossa intuição nos engana, respeita a probabilidade estatística.

[00:02:48] Exatamente.

[00:02:49] E essa criação de regularidade que a gente acaba inconscientemente fazendo, ela pode

[00:02:53] ser explorada.

[00:02:54] Então, por exemplo, se você tem um batedor de pênalti, o goleiro, se ele estuda o padrão

[00:02:58] desse batedor, ele pode ter uma chance maior de acertar o canto do que se o batedor realmente

[00:03:03] usar um evento aleatório, por exemplo, tem gente que usa, ele olha o relógio do estádio

[00:03:07] e se o segundo for para o ímpar, ele escolhe o canto.

[00:03:10] Tem gente que faz isso.

[00:03:11] Os tenistas profissionais, eles fazem isso.

[00:03:12] Ao tentar sacar num canto ou no outro, tenta ser aleatório, mas tu não consegue e tu

[00:03:17] pode ser explorado.

[00:03:18] Então, o cara sabe, toda vez que ele faz uma sequência de dois esquerdos, a próxima

[00:03:22] chance de ser direito é maior.

[00:03:25] Então, o tenista mesmo já cria, já pega um objeto externo a ele para gerar regularidade.

[00:03:30] Exatamente.

[00:03:31] Se tu não usar isso, tu pode ser explorado.

[00:03:33] Explorando no sentido que o oponente pode prever o que tu vai fazer.

[00:03:38] Então, se vocês forem participar de um campeonato mundial de paro ímpar ou de batedor, papel

[00:03:42] tesouro, serve a mesma coisa.

[00:03:44] O Shannon, inclusive, inventou uma máquina que é basicamente um paro ímpar.

[00:03:48] Não é o Sheldon, é o Shannon.

[00:03:49] Shannon.

[00:03:50] O Claude Shannon.

[00:03:51] Um dos padres…

[00:03:52] Não é que ele falou tão rápido que talvez o vídeo pense que é o Sheldon.

[00:03:55] Eu tinha entendido também o Sheldon.

[00:03:57] Não, não.

[00:03:58] O Claude Shannon é um dos pais da informação.

[00:04:02] E essa máquina dele fazia exatamente isso, tentava tirar o padrão que a pessoa estava

[00:04:06] fazendo.

[00:04:07] Era uma década de 50 lá.

[00:04:08] E ela ganhava sempre.

[00:04:09] Porque a melhor estratégia…

[00:04:11] Era o Deep Blue do paro ímpar.

[00:04:13] Era o Deep Blue do paro ímpar, exatamente.

[00:04:15] Então, o que a gente vai falar hoje é uma outra dessas propriedades não intuitivas

[00:04:22] dos números, das distribuições dos números.

[00:04:25] Mas é do uso dos números.

[00:04:27] Pelo seres humanos.

[00:04:28] Não, na natureza.

[00:04:29] Na natureza também?

[00:04:30] Sim.

[00:04:31] Existem tanto…

[00:04:32] A gente vai discutir depois.

[00:04:33] Existem distribuições tanto humanas quanto naturais.

[00:04:37] Eu achei que era parecido com a Lady Zipf.

[00:04:39] Ela é um caso particular.

[00:04:41] A Lady Zipf também aparece em coisas naturais.

[00:04:46] Não, sim.

[00:04:47] Mas aí não é Lady Zipf.

[00:04:48] Então, a Lady Banford leva o nome dele, mas ele foi talvez o segundo a notar.

[00:04:56] Mas é interessante que tanto o Banford quanto o Newcombe, que foram os dois que…

[00:05:01] Newcombe foi o primeiro.

[00:05:02] Foi o primeiro.

[00:05:03] Que escreveu um artigo sobre isso, pelo menos.

[00:05:06] Os dois primeiros artigos é o do Newcombe, em 1881, e depois o Banford, 50 anos depois.

[00:05:11] Mas é interessante que os dois mencionam o mesmo fenômeno que provavelmente levou

[00:05:16] eles a descobrir, que na época não tinha calculadores e usava tabelas de logaritmos.

[00:05:21] E os dois notaram, até o Newcombe menciona isso no artigo, que as primeiras páginas

[00:05:27] da tabela eram mais desgastadas do que as outras, onde aparecem os números com menores

[00:05:34] dígitos.

[00:05:36] A vantagem, então, em usar a régua de cálculo e tabela de logaritmos, essas coisas.

[00:05:40] Não é que tinha uma vantagem, é só conseguir fazer cálculos rapidamente.

[00:05:43] Não, sim, quer dizer, tem uma vantagem, não a tecnologia.

[00:05:46] Descobrir esse padrão.

[00:05:47] Então, o que aparecia nos livros, nas tabelas de logaritmos, eram essas páginas iniciais

[00:05:52] que continham os números cujo primeiro dígito era menor.

[00:05:57] O que isso tem a ver com a distribuição de Banford, ou seja, o que é a distribuição

[00:06:01] de Banford?

[00:06:03] A distribuição de Banford, tu pega um conjunto muito grande de números e tu presta atenção

[00:06:09] no primeiro dígito significante do número.

[00:06:11] Ou seja, ele começa com 1, 2, 3, e se é 0,043, o primeiro dígito significante seria o 4.

[00:06:19] Ou seja, o 0 não conta.

[00:06:21] Ou seja, tu lê o artigo que ele diz todos os números e eu vou escrever como 10 numa

[00:06:25] potência.

[00:06:26] Essa potência tem um número inteiro mais uma parte fracionária.

[00:06:29] Essa parte fracionária é a mantiça do número.

[00:06:32] E o que ele notou é isso.

[00:06:33] As primeiras páginas estavam mais gastas, significa que uma das pessoas estava buscando

[00:06:37] um número, estava buscando 1, 10, 100 ou 1000, porque são…

[00:06:41] 0.001.

[00:06:42] É.

[00:06:43] A intuição diria que tinha que ser uniforme, ou seja, todos os números tinham que ser

[00:06:46] igualmente usados.

[00:06:47] Mas então significa dizer que os números mais baixos são mais prováveis?

[00:06:51] Não mais baixos.

[00:06:52] Não deve mais baixo.

[00:06:53] Pode ser um milhão, um milhão.

[00:06:54] Não importa o tamanho do número.

[00:06:55] Assim, é o único dígito.

[00:06:56] É o primeiro dígito.

[00:06:57] É o primeiro dígito.

[00:06:59] Agora, por exemplo, isso depende se você está usando base 10, se você está usando

[00:07:03] base 16, base 8, se é octal, se é hexadecimal.

[00:07:06] No artigo do Newcom já, quando tu lê, tu vê que a conclusão que ele chega é independente

[00:07:11] de base.

[00:07:12] Em binário não dá pra dizer.

[00:07:13] Em binário também funciona.

[00:07:14] Também funciona.

[00:07:15] Sério?

[00:07:16] Mas como assim?

[00:07:17] Mas em binário 100% das vezes tu tem um primeiro dígito significante, mas se tu escrever a

[00:07:22] fórmulazinha tu vai ver que dá sempre pra base binária.

[00:07:25] Na binária ela é trivial, porque já que o zero não conta, mas é que a lei de Bamford

[00:07:30] ela é mais clara quando tu fala do primeiro dígito, porque o 1 é muito mais provável

[00:07:36] do que o 2 de aparecer, mas tu pode estender ela pro segundo dígito.

[00:07:41] O cálculo pro segundo dígito já não é tão trivial, porque o zero não conta pra lei

[00:07:45] de Bamford pro primeiro dígito, mas pro segundo dígito conta.

[00:07:48] Ah, sim.

[00:07:49] Então, mesmo na binária tu tem que saber qual é a frequência do zero e qual é a

[00:07:53] frequência do outro.

[00:07:54] No segundo dígito outro resultado nada intuitivo é que o segundo dígito não é independente

[00:07:59] do primeiro.

[00:08:00] Tu calcular a probabilidade do segundo dígito ser 2, só dele ser 2, mas tu calcular dele

[00:08:05] ser 2 sabendo que o primeiro é 1, ou sabendo que o primeiro é 2, dá uma probabilidade

[00:08:09] diferente.

[00:08:10] Deixa eu fazer uma pergunta assim, pra entender essa lei.

[00:08:12] Por exemplo, se eu fosse calcular a distribuição de tamanho de montanhas num país, foi um

[00:08:15] exemplo que eu li em alguns lugares, significa dizer que vai ter mais montanhas com um tamanho

[00:08:21] 101, 1240 metros, 1150 metros, 10 mil também no lugar.

[00:08:27] Se tu tiver suficiente estatística, ao redor de 30% das vezes, o primeiro dígito vai ser

[00:08:33] 1.

[00:08:34] Então quer dizer que vai ter raramente, digamos, uma montanha com tamanho 240, 330?

[00:08:37] Não, não vai raramente.

[00:08:38] Vai ter menos.

[00:08:39] É uma distribuição decrescente no dígito.

[00:08:41] Tá, então o primeiro, o mais provável é ela começar com 1.

[00:08:44] 30% é 1 e o 9 eu acho que é ao redor de 5%, se eu me lembro bem.

[00:08:49] É, 5%.

[00:08:50] Ou seja, se tu for pensar o dígito 1, aparece 3 vezes mais do que nossa intuição talvez

[00:08:56] dissesse.

[00:08:57] Tá, mas é interessante que a distribuição falha se tu for, ao invés de montanhas, usar

[00:09:03] o tamanho de pessoas.

[00:09:04] Ah, sim.

[00:09:05] Porque a maior parte das pessoas tem 1 metro e alguma coisa.

[00:09:08] Então o 1 vai aparecer muito mais do que 30%.

[00:09:10] Claro.

[00:09:11] É que tu tem que ter várias ordens de grandeza, né?

[00:09:13] É, então essa é a próxima pergunta.

[00:09:15] Quando vale a lei de Belfort, o que que a distribuição precisa ter pra se fazer?

[00:09:18] Porque a gente sabe que nem todas as distribuições satisfazem.

[00:09:21] O, digamos, matematicamente eu acho que a prova, entre aspas, mais rigorosa dessa distribuição

[00:09:28] foi feita por um cidadão chamado Theodora Hill.

[00:09:32] Os teoremas que ele demonstrou é, se a gente pega muitas distribuições diferentes que

[00:09:37] expandem muitas ordens de magnitude, a gente vai ter um conjunto de números que vai seguir

[00:09:42] esse…

[00:09:43] É, para o ouvinte, ordens de magnitude significa que a gente não vai ficar pegando só números

[00:09:46] entre 0 e 10, por exemplo, mas tem que pegar números entre 0.01 e 1 milhão, por exemplo.

[00:09:52] Que é o que não acontece no caso do tamanho das pessoas.

[00:09:55] É, o tamanho das pessoas é…

[00:09:56] Ele tá bem definido.

[00:09:57] É uma distribuição estreita, as distribuições tem que ser largas.

[00:09:59] Não acontece o SEP, por exemplo, o SEP não funciona, porque os SEP eles são muito parecidos.

[00:10:06] Números criados pelo homem, em geral, são sequenciais.

[00:10:09] Números de cheque, placas de carro, isso não funciona.

[00:10:13] Mas não funciona, número de rua funciona.

[00:10:16] Número de rua é uma distância, no Brasil.

[00:10:18] Tá, mas então a distribuição tem que ser larga e tem que ser aleatória.

[00:10:22] Alguma coisa feita pelo homem, em geral, não vai seguir essa regra.

[00:10:24] Depende o quê?

[00:10:26] Muitas coisas criadas pelo homem seguem.

[00:10:28] Seguem, é, muitas coisas seguem.

[00:10:29] Mas assim…

[00:10:30] Mas é…

[00:10:31] Isso é bom, são meus gastos, são muito aleatórios.

[00:10:34] Se você olhar uma página de jornal e pegar todos os números que aparecem nessa página

[00:10:39] de jornal, segue a lei de Benford.

[00:10:41] É, no artigo de Benford, uma das coisas que ele faz é pegar uma revista e todos os números

[00:10:46] que estão nessa revista.

[00:10:47] Mas esse é um caso que você tem números que vende muitas distribuições diferentes.

[00:10:50] Outros casos que eu ainda não comentei, você faz multiplicações de números.

[00:10:55] Ou seja, você tem um preço vezes um número de vezes que você compra uma coisa.

[00:11:00] E muitos produtos diferentes, muitos…

[00:11:03] Ou seja, a outra coisa que segue a lei de Benford é você olhar a variação do preço

[00:11:07] de ações, pegar números e começar a dividir.

[00:11:09] Ele pega dois números aleatórios e divida um pelo outro.

[00:11:12] Outros dois números aleatórios e divida um pelo outro.

[00:11:14] Isso tende a seguir isso já no artigo de 1881, disso que o Neil comparte no argumento

[00:11:20] dele para tentar explicar essa lei.

[00:11:22] O que ele diz é tudo o que a gente mede, na verdade é uma proporção, é uma divisão.

[00:11:27] Eu estou medindo a altura da montanha com relação a minha unidade padrão.

[00:11:31] E todo argumento que ele faz é baseado nisso, eu começo a dividir números.

[00:11:35] O que o Benford argumenta é que o que vai ter a distribuição uniforme é o logaritmo

[00:11:40] dos números e não os números em si.

[00:11:42] O dígito do logaritmo dos números e não.

[00:11:45] Isso é provado também.

[00:11:46] Neil Combe ele argumenta isso e o argumento dele é até simples de entender, interessante

[00:11:50] ele ler o artigo e é um artigo de duas páginas, é bem fácil.

[00:11:52] Às vezes são os mais difíceis.

[00:11:54] Não, mas esse é fácil.

[00:11:55] O Nash publicou um artigo de uma página e ganhou o Nobel com isso.

[00:11:58] Ah, mas qual é o argumento?

[00:12:00] Pois é isso, ele escreve os números como 10 numa potência.

[00:12:03] E daí tem a parte inteira e digamos o que vai ser a parte significativa e a parte que

[00:12:08] não é inteira.

[00:12:09] E tu começar a dividir números é tu começar a subtrair ou somar só a parte fracionária

[00:12:14] ali.

[00:12:15] E tu sempre tem que tirar a parte inteira, porque a parte inteira só muda onde vai estar

[00:12:19] a vírgula do número, mas não é o que eu digito aleatório, ou seja, tu tem ali uma

[00:12:26] parte do número que tu pode imaginar que tu vai colocar sobre um círculo.

[00:12:30] E quando tu faz essa operação muitas vezes, a intuição vai dizer que aleatoriamente

[00:12:35] tu vai estar pegando um ponto qualquer naquele círculo.

[00:12:38] E aquele círculo é o logaritmo do número, da mantiça do número.

[00:12:43] Então ter aquilo uniforme vai ter como consequência ter uma probabilidade maior do 1, depois do

[00:12:49] 2 e etc.

[00:12:50] E tem uma literatura enorme sobre a lei de Belfort.

[00:12:54] Mas em geral são aplicações e pessoas que observam isso e muitas tentativas de explicar

[00:12:59] isso que são falhas.

[00:13:01] Mas existe a explicação ou isso que são ideias de explicação?

[00:13:06] Digamos que a explicação mais rigorosa é essa do Rio.

[00:13:09] O que ele mostra basicamente é que tu ter essa distribuição homogênea do logaritmo

[00:13:15] da mantiça dos números implica em variança de base, implica em variança de escala e implica

[00:13:22] na lei de Belfort.

[00:13:23] Isso é recente esse trabalho do UED?

[00:13:25] É de 1995, se eu não me engano.

[00:13:27] Ah não, tá, tá bom.

[00:13:28] Essa lei se aplica a distribuição de financementos de campanhas também.

[00:13:32] Ah, tu tá querendo botar o fogo nesse programa hoje.

[00:13:36] Não, mas então isso vai entrar nessa outra parte, a gente fez essa discussão sobre a

[00:13:39] lei de Belfort, mas agora a ideia é, isso é útil para alguma coisa?

[00:13:43] Toda a literatura que mencionaram sobre essa lei de Belfort, muita delas se centra em buscar

[00:13:47] aplicações disso.

[00:13:48] E uma aplicação relativamente consagrada do uso dessa lei é buscar anomalias em conjuntos

[00:13:54] muito grandes de dados.

[00:13:55] Ou seja, detecção de parálogo.

[00:13:57] Sim, entendo, concordo.

[00:13:58] Mas vamos para aplicação, então a aplicação é o que é mais interessante, né?

[00:14:02] Eu acho que a óbvia é como é a adulteração de livro-caixa, né?

[00:14:06] Isso seria o óbvio, né?

[00:14:09] Isso, não sei, não tô com nada, Marc.

[00:14:11] É um estabelecimento comercial, tu tem um livro-caixa que diz o que entra e o que sai

[00:14:14] ali, aí tu tem que apresentar isso para fazer auditoria, por exemplo.

[00:14:18] Aí tu inventa.

[00:14:19] É, mas você tá lavando o dinheiro, aí tu inventa, então seria possível detectar.

[00:14:23] Sim, existe muita literatura que fala da aplicação da lei de Belfort em forensics account.

[00:14:30] Contabilidade Forensica.

[00:14:31] Contabilidade Forensica, e não só isso, mas que essa lei já foi aceita em cortes americanas

[00:14:37] como evidência.

[00:14:39] É, mas tem que deixar claro, ela é um indício, porque tu tem um monte de mecanismos que justificam

[00:14:46] tu violar a lei de Belfort.

[00:14:47] Sim, por exemplo, e mesmo na própria literatura, tu vê, fizeram, foram aplicar essa lei de

[00:14:53] Belfort, um dos exemplos que eu li num hospital, na contabilidade de um hospital, e daí lá

[00:14:59] tinha uma discrepância que o número 5 aparecia muito mais, e daí foram ver que o hospital

[00:15:03] toda semana tinha que comprar, eu que sei, uma agulha que custava 5 dólares.

[00:15:09] Tinha que ficar um milhão delas.

[00:15:10] É, ou seja, tu consegue ver coisas pontuais.

[00:15:13] Sim, alguns eventos que acabam mudando a de tudo.

[00:15:15] Em geral, a literatura diz, tu busca a evidência, uma vez que tu tem a evidência, tu tem que

[00:15:21] analisar mais a fundo quais são as, digamos, as entradas ali no teu conjunto de números

[00:15:27] que estão fazendo as flutuações.

[00:15:30] Então, a estatística vai te dar uma pista que tu pode ir atrás e tentar achar ou a

[00:15:36] fraude em si, ou uma explicação para aquele desvio, ou seja, só a evidência estatística,

[00:15:43] ela te dá só convicção, mas convicção não é…

[00:15:46] É uma ferramenta de detecção de evidência.

[00:15:48] Convicção não é prova.

[00:15:49] Assim como se por acaso a contabilidade de um local seguir a lei de Bentford não é

[00:15:56] uma prova de que está correta, porque ele pode ter ouvido o nosso programa, ter aprendido

[00:16:00] como é que faz a contabilidade, e a contabilidade vai seguir a lei de Bentford, mas foi burlada.

[00:16:05] Claro, mas é a mesma coisa quando tu testa um gerador de números aleatórios, tu não

[00:16:09] tem um teste que tu faz que vai te dizer se aquele gerador é bom, tu tem uma bateria

[00:16:13] de testes, então testar a Bentford é uma coisa, tu pode testar a Bentford com o segundo

[00:16:19] dígito e tu pode testar os últimos dígitos também, tu pode testar os centavos, porque

[00:16:26] quando tu inventa números, aí aparecem todos os teus preconceitos de inventar números

[00:16:31] aleatórios, a gente evita repetir os números, então se tu vai inventar centavos, tu não

[00:16:36] vai usar 00122 porque não te parece aleatório, então esses centavos que deveriam ter a chance

[00:16:43] de aparecer 1 sobre 100, eles vão aparecer muito menos do que 1 sobre 100.

[00:16:48] É talvez usar isso para provar alguma coisa no fim envolva um pouco de psicologia também.

[00:16:52] Claro, claro, são a menos que tu está olhando a sequência de números inventados por macacos,

[00:16:57] daí é outra psicologia.

[00:17:00] Vamos falar da coisa realmente quente aqui, Daniel submeteu no archives há pouco tempo

[00:17:07] um trabalho sobre detecção de fraude.

[00:17:09] Eu e meu aluno, Felipe Antunes Neleite, o que a gente fez foi usar essa lei de Bentford

[00:17:14] para analisar doações de campanhas eleitorais no Brasil. A gente se centrou na última eleição

[00:17:19] para presidente de 2014.

[00:17:21] São dados completamente públicos.

[00:17:23] São dados públicos, inclusive no apêndice do artigo a gente explica exatamente como

[00:17:28] Qualquer um pode obter esses dados do TSE, do Tribunal Superior Eleitoral.

[00:17:32] Por que vocês escolheram a eleição para presidente? Porque eu imagino que se tu escolhesse

[00:17:36] senador ou deputado federal, mesmo em estado alto, o número de dados é muito maior.

[00:17:40] Desculpa, eu não quis dizer que foi só de presidente, foi as eleições de 2014.

[00:17:44] Se definiu presidente, se definiu também os deputados e etc.

[00:17:48] O que a gente fez? A gente pegou todos os dados do TSE, não só do financiamento, a gente

[00:17:55] pegou também de resultados aqui no Rio Grande do Sul e a gente fez duas análises. Uma é

[00:17:59] uma regressão logística. A gente determina qual é a probabilidade de um candidato ser

[00:18:03] eleito ou não, dependendo de quanto dinheiro ele ganhou.

[00:18:06] Do dinheiro declarado que ele ganhou.

[00:18:08] Do dinheiro declarado que ele ganhou para o seu financiamento de campanha.

[00:18:11] E bem, a gente faz esse ajuste logístico, pode calcular essa probabilidade então.

[00:18:16] E não só a gente faz o ajuste, se não a gente calcula os estatísticos que nos dizem

[00:18:20] o quão bom é esse ajuste.

[00:18:22] E o ajuste é surpreendentemente bom. Os parâmetros são estatisticamente significativos.

[00:18:27] O que significa que dinheiro é um excelente preditor do resultado da…

[00:18:31] É, isso é uma coisa conhecida.

[00:18:33] É uma coisa conhecida, mas é uma coisa tristíssima, porque isso destrói a democracia.

[00:18:38] O gasto de campanha é o preditor principal da eleição.

[00:18:42] Ou seja, quem mais ganha vai ser mais provavelmente eleito.

[00:18:45] Mas isso deve ser tanto conhecimento até da… deve ser um conhecimento empírico,

[00:18:50] há muito tempo feito, tanto que gerou essa distorção.

[00:18:54] Não só no Brasil, mas em todos os lugares.

[00:18:56] Dos caixadores e da… Sim, né?

[00:18:58] Tá, mas uma coisa é ser intuitivo de que existe essa correlação.

[00:19:03] O que não é trivial é de quão forte é essa correlação.

[00:19:08] Então se tu olhar o quão bom esse preditor é no Brasil, essa é a pergunta.

[00:19:14] Quanto melhor você pode usar essa correlação para perder eleitão aqui do que num outro lugar.

[00:19:19] Eu desconheço uma análise estatística como a gente fez aqui no Brasil.

[00:19:23] Sobre dados do Brasil, digamos.

[00:19:25] Porque tu pode dizer, o dinheiro investido numa campanha me dá uma probabilidade de 40% de adivinhar.

[00:19:33] Ou se torna no Brasil, ela provavelmente é 100%.

[00:19:36] Então isso não vai ter… É muito forte o resultado.

[00:19:39] Sim, eu acho que os parâmetros que eu calculei me dizem que é muito forte o resultado.

[00:19:43] Ou seja, a gente não precisaria nem ter essa etapa boba intermediária da eleição.

[00:19:48] Bastava olhar o quanto cada um arrecadou.

[00:19:50] Não, é um conto do Asimov que tem um super computador e ele pergunta para uma única pessoa.

[00:19:55] Nem quem ele vai votar o computador faz umas perguntas nada a ver e diz, tá, quem vai ganhar a eleição é tal pessoa.

[00:19:59] Agora deixa eu fazer uma outra pergunta.

[00:20:01] Obviamente, todo o sistema eleitoral tem feedback de pesquisas.

[00:20:05] E eu observei, ao longo de todos os processos eleitorais que eu participei,

[00:20:10] quando a pessoa começa a subir nessas pesquisas de opinião, ela começa a ganhar mais financiamento.

[00:20:16] Da mesma forma, a pessoa que está caindo muito rápido, ela começa a perder financiamento.

[00:20:20] Então tem um fluxo de caixa e isso não seria uma possível distorção da coisa, né?

[00:20:25] Por isso que vocês se referem com outro termo que não é financiamento.

[00:20:30] Não, não, porque ao mesmo tempo que tu conclui que o gasto de campanha é preditor de quem ganha,

[00:20:36] tu podia dizer o contrário.

[00:20:38] Aquele que está indo muito bem vai acabar ganhando mais dinheiro.

[00:20:43] E as coisas são completamente descurralizadas.

[00:20:45] Talvez seja importante dizer uma coisa também.

[00:20:47] A gente fez essa análise logística para resultados dos deputados.

[00:20:51] Por que a gente escolheu só os deputados e não fez para presidente ou para senador, por exemplo?

[00:20:56] Porque nessas eleições de presidente e senador só tem, digamos, um que vai ganhar.

[00:21:01] Então tem pouca estatística.

[00:21:02] Enquanto que de deputados são muitas cadeiras, tem muita estatística,

[00:21:06] e daí sim que a gente pode fazer uma boa análise estatística.

[00:21:09] E nesse caso a pesquisa não deve ser importante.

[00:21:11] E as pesquisas em geral não são tão importantes.

[00:21:14] Mas de qualquer maneira o resultado que eles chegam é uma correlação.

[00:21:18] A existência da correlação é que te garante que é um bom preditor.

[00:21:22] Como eles dizem no artigo, eles chamam de investimento.

[00:21:24] Se o investimento em campanha implica na eleição do candidato

[00:21:29] ou se o cara por estar na frente da pesquisa atrai mais investimento,

[00:21:33] não importa o resultado, porque de qualquer maneira tem uma correlação.

[00:21:36] A conclusão importante é essa.

[00:21:38] O que define quem vai ganhar é o dinheiro.

[00:21:40] A gente já tem uma ideia de venda turpada.

[00:21:42] A gente acha que democracia é onde todo mundo vota.

[00:21:44] Não é isso.

[00:21:45] Todo mundo votar é um meio.

[00:21:46] O objetivo da democracia é que quem seja eleito nos represente.

[00:21:50] E o que a gente está vendo é que não.

[00:21:52] Quem é eleito não é quem nos representa.

[00:21:54] Quem é eleito é quem mais ganha dinheiro.

[00:21:56] Ou seja, quem é eleito representa o dinheiro.

[00:21:58] Claro.

[00:21:59] Até no artigo a gente define o termo climatocracia,

[00:22:02] que é da palavra grega.

[00:22:03] Crimata, que significa dinheiro.

[00:22:05] A gente é governado por dinheiro e não por representatividade.

[00:22:09] E a distribuição de dinheiro na sociedade é uma distribuição muito pouco uniforme.

[00:22:14] Significando que é um grupo muito pequeno de pessoas que está decidindo…

[00:22:18] Quer dizer, então, que a gente vive entre uma climatocracia e uma crimetocracia?

[00:22:23] São essas nossas opções?

[00:22:25] É uma coincidência essa palavra ser parecida.

[00:22:28] Tem esse site chamado As Claras que faz uma estatística sobre os dados do TSE.

[00:22:34] Algumas coisas que me chamaram a atenção é sobre essa questão do investimento de campanha.

[00:22:39] Todo mundo já sabe, mas está ali explicitamente escrito quem são as empresas que financiam.

[00:22:44] Talvez a gente pudesse também fazer uma análise depois

[00:22:46] de quais são as empresas mais milionárias e quais são as que mais doam.

[00:22:50] Ou seja, as que mais investem são as que acabam sendo mais milionários.

[00:22:53] Os doutores são na Lava Jato, de qualquer maneira.

[00:22:56] Mas uma outra coisa que aparece aqui no site,

[00:22:59] eles fazem uma evolução de quanto é o custo de financiamento de campanha.

[00:23:03] Quanto é o custo do voto?

[00:23:04] No Brasil, em 2004, para vereadores, o custo do voto era de R$ 5,00 por eleitor.

[00:23:10] Em 2012, ele passa a ser de R$ 17,00.

[00:23:12] Isso aqui a gente está falando de médias, né?

[00:23:14] Tanto olha depois os candidatos que foram eleitos,

[00:23:16] só para ter uma ideia, aqui em São Paulo,

[00:23:18] o vereador que mais ganhou,

[00:23:20] não vou nem dizer o partido para não dizer que a gente está fazendo campanha,

[00:23:23] mas o cara que mais ganhou, ganhou R$ 40,00 por voto.

[00:23:28] Gastou R$ 40,00 por voto.

[00:23:30] Mas vamos entrar na segunda parte, que é mais interessante,

[00:23:32] que é essa parte da fraude que o Daniel já começou a dar umas dicas aí para nós.

[00:23:36] Uma vez a gente determinou que o dinheiro é o que define o resultado da eleição,

[00:23:42] a gente pegou todas as declarações de doações que os candidatos receberam

[00:23:46] e a gente foi ver se elas estavam de acordo com a lei de Benford.

[00:23:49] Não estar com a lei de Benford, a gente argumenta,

[00:23:51] seria um indício de manipulação dos dados.

[00:23:54] Por quê?

[00:23:55] A gente comentou números tendem a seguir a lei de Benford

[00:23:58] dado que eles vendem muitas distribuições diferentes

[00:24:01] e expandem muitas ordens de magnitude.

[00:24:03] Ou seja, tem o empresário que doou, tem o pequeno comerciante,

[00:24:07] aí tem o cara de partido, cada um dá R$ 10,00,

[00:24:10] um dá R$ 1 milhão e vai assim.

[00:24:12] Pois é, tu vê, a menor doação declarada que estão nos dados do TSE

[00:24:16] são R$ 0,02.

[00:24:18] Então ela obedece essa regra de que tem que ser uma variação…

[00:24:20] Muitas ordens de magnitude, porque a maior doação são R$ 14 milhões,

[00:24:24] ou seja, são 9 ordens de magnitude.

[00:24:26] Isso é bastante.

[00:24:28] E são muitas distribuições diferentes,

[00:24:30] uma empresa tem muito poder de doar muito mais que uma pessoa pobre, digamos.

[00:24:36] E não só isso, mesmo se tu pegar empresas,

[00:24:38] existem empresas muito grandes, empresas muito pequenas,

[00:24:41] ou seja, a gente argumenta que deveria seguir a lei de Benford

[00:24:44] porque cumpre essas características.

[00:24:46] São números que vendem distribuições diferentes,

[00:24:48] expandem muitas ordens de magnitude

[00:24:50] e são aleatórios no sentido que o candidato

[00:24:53] não diz, tu tem que me doar tanto, tu tem que me doar tanto.

[00:24:56] Se são doações, elas deveriam ser espontâneas,

[00:24:59] a pessoa doa o quanto ela quer.

[00:25:01] Conclusão?

[00:25:02] Conclusão, não seguem a lei de Benford,

[00:25:04] ou seja, tu vê as doações, tu faz uns gráficos,

[00:25:07] tu olha, elas têm uma tendência,

[00:25:09] a tendência é decrescente, mas daí de repente tem um pico,

[00:25:12] tu vê, o 1 tem bastante, 2 tem pouco menos, 3 tem pouco menos,

[00:25:17] aí chega lá no 4, tem um baita pico e depois segue caindo, por exemplo.

[00:25:21] A distribuição de dígitos, por exemplo.

[00:25:22] De dígitos, ou seja, a lei de Benford.

[00:25:24] A lei de Benford prevê que o 1 vai ter mais do que o 2,

[00:25:28] vai ter mais do que o 13, sempre decrescente,

[00:25:30] o 9 é o que vai ter menos.

[00:25:32] Bem, e claro, a gente calcula um estatístico,

[00:25:35] ou que quadrado, que é uma probabilidade

[00:25:37] de ter uma determinada flutuação,

[00:25:39] ou seja, a gente não só mostra que não segue,

[00:25:41] mas a gente calcula a significância desse resultado.

[00:25:44] E isso é um longe da lei?

[00:25:46] Muito, sim.

[00:25:47] De fato, assim, o que tu vê é partidos grandes,

[00:25:50] candidatos grandes, que são importantes,

[00:25:53] a discrepância é muito maior do que um partido pequeno.

[00:25:56] Vocês fizeram então análise por partidos também?

[00:25:58] A gente fez diferentes análises.

[00:26:00] Também a gente fez análise todo o dinheiro

[00:26:02] que foi dado para a eleição presidencial, por exemplo.

[00:26:04] A gente fez isso por partido.

[00:26:05] Claro, tem partidos que não tinham candidato,

[00:26:07] mas que estavam coligados com outro.

[00:26:09] E cada partido a gente também separou

[00:26:11] por doações feitas só por CPF,

[00:26:13] doações feitas só por CNPJ.

[00:26:15] Também tem o que a gente chama de doações indiretas,

[00:26:17] porque muita gente doa para o partido, por exemplo,

[00:26:20] para o comitê central do partido,

[00:26:22] e o comitê central do partido pode repassar essas doações.

[00:26:26] Mas uma coisa que se usa para esclarecer,

[00:26:29] já que violar a lei de Benford pode não ser um sinal de fraude,

[00:26:33] é fazer uma análise comparativa de uma distribuição como ela mesma.

[00:26:38] Avalia a evolução dessa distribuição no tempo

[00:26:41] e ver se em algum momento apareceu uma mudança.

[00:26:44] Então, por exemplo, eu acho que seria interessante

[00:26:46] você olhar as eleições entre…

[00:26:48] Eu não sei até quando você tem os dados disponíveis,

[00:26:50] mas imagina que desde que o voto é eletrônico

[00:26:52] você deve ter para ver como isso evoluiu.

[00:26:54] Não, mas não dá para ver como isso evoluiu

[00:26:56] no próprio processo eleitoral,

[00:27:00] porque as doações,

[00:27:03] quanto tempo tem de processo eleitoral?

[00:27:06] Alguns meses, né?

[00:27:08] E as doações aparecem em diferentes momentos nesses meses.

[00:27:11] Sim, isso se poderia fazer.

[00:27:13] É, porque aí você pode dizer, ela pode começar normal

[00:27:16] e aí, de repente, sofre uma distorção.

[00:27:18] Três dias antes do limite.

[00:27:20] E surge um pico ali.

[00:27:22] O que você está dizendo é que ela deve seguir a lei de Benford

[00:27:24] até um certo momento,

[00:27:26] porque aquilo ali são as doações reais

[00:27:28] e quando começa a manipulação…

[00:27:30] Isso, exatamente.

[00:27:31] Mas isso acho que dá para fazer no próprio processo,

[00:27:33] não precisa olhar as outras eleições.

[00:27:35] São todas ideias interessantes.

[00:27:37] Mas eu acho que é interessante olhar as eleições anteriores

[00:27:39] e poder dizer,

[00:27:41] esse problema que a gente tem no Brasil hoje,

[00:27:43] sempre teve.

[00:27:45] Ou piorou muito no último congresso.

[00:27:48] Pois é, a gente se centrou num conjunto de dados,

[00:27:51] porque são bastante dados

[00:27:53] e também a gente não queria fazer um artigo de 100 páginas.

[00:27:56] Vocês têm comparação com outros países?

[00:27:58] O Brasil tem leis de transparência muito boas.

[00:28:02] Ou seja, os dados aqui no Brasil são públicos.

[00:28:04] Eu desconheço outros países onde

[00:28:06] seja tão fácil obter esses dados.

[00:28:08] Bom, uma boa notícia então.

[00:28:10] Finalmente.

[00:28:12] E o que você pode dizer sobre o processo em geral?

[00:28:14] Existem, por exemplo, as distorções

[00:28:16] que você observa por partido,

[00:28:18] elas são parecidas?

[00:28:20] Por exemplo, você diz assim, de repente surge um pico

[00:28:22] em certo dígito.

[00:28:24] Surge o mesmo pico para todos os partidos?

[00:28:26] Eu não diria que para todos,

[00:28:28] mas você consegue ver paralelas.

[00:28:30] Tem aquele pano de fundo que é a lei decrescente,

[00:28:32] daí um dígito tem um pico muito grande.

[00:28:34] Eles têm mesmo um contador, então, esses partidos aí?

[00:28:36] Às vezes não é o mesmo número

[00:28:38] que está no mesmo partido ou no outro.

[00:28:40] Por exemplo, tem um índice,

[00:28:42] o Kiko Adardo que diz a distorção,

[00:28:44] quando se afasta da lei de Benford.

[00:28:46] E aí você podia ordenar esses partidos

[00:28:48] daquele que mais se afasta

[00:28:50] para o que menos se afasta.

[00:28:52] E a minha pergunta é, essa distribuição é meio uniforme,

[00:28:54] ou é que todo mundo está fazendo a mesma coisa

[00:28:56] ou ela é muito diferente?

[00:28:58] Tem um partido ou dois que estão fazendo muito?

[00:29:00] Em geral, os partidos mais proeminentes

[00:29:02] são os que têm as maiores distorções.

[00:29:04] E são todos eles parecidos às distorções?

[00:29:06] Ou tem um que pula fora?

[00:29:08] São parecidos, mas às vezes

[00:29:10] você vê uma ali que é bem maior que as outras.

[00:29:12] Porque você tem um mecanismo que torna homogênea

[00:29:14] a coisa, porque você tem, por exemplo,

[00:29:16] empresas que financiam todos os candidatos

[00:29:18] ou investem em todos os candidatos.

[00:29:20] Tem ideologias completamente opostas,

[00:29:22] mas você vê a mesma empresa está dando para os dois.

[00:29:24] E às vezes não é nem questão de dar muito mais

[00:29:26] para um que para o outro.

[00:29:28] Não, dá bem parecido.

[00:29:30] Mesmo porque, se a empresa está interessada

[00:29:32] em algum tipo de benefício futuro,

[00:29:36] ela tem que mostrar para o sistema

[00:29:38] que ela é isenta.

[00:29:40] Hoje a gente conversou com o Daniel Gammel

[00:29:42] aqui do Departamento de Física da URGS,

[00:29:44] o Álvaro Gammel,

[00:29:46] que é um artista,

[00:29:48] do Departamento de Física da URGS.

[00:29:50] O assunto foi a lei de Bamford

[00:29:52] e o uso dessa lei

[00:29:54] para detectar distorções

[00:29:56] em vários tipos de coisas,

[00:29:58] mas a gente se focou no problema eleitoral.

[00:30:00] E o pessoal do programa,

[00:30:02] a Carolina Brito, o Jefferson Anenzon

[00:30:04] e eu, o Marco Idiache, da Física da URGS.

[00:30:06] O Programa Fronteiras da Ciência

[00:30:08] é um projeto do Instituto de Física da URGS.