T14E03 - Contando palavras: a lei de Zipf


Resumo

O episódio explora a análise quantitativa de textos através da contagem de palavras, introduzindo a famosa lei de Zipf. O físico Eduardo Altman, professor da Universidade de Sydney, explica como essa regularidade estatística descreve a relação entre o ranking de uma palavra (sua posição na lista das mais frequentes) e sua frequência de ocorrência: a segunda palavra mais frequente aparece aproximadamente metade das vezes da primeira, a terceira um terço, e assim por diante.

A discussão aborda as origens históricas da contagem de palavras, que remontam a antes dos computadores, com aplicações em criptografia e transmissão de mensagens via telégrafo. A lei de Zipf é apresentada como uma lei empírica e estatística, diferente das leis determinísticas da física, que aparece não apenas em textos, mas em diversos sistemas como o tamanho das cidades (lei de Zipf das cidades).

São discutidas duas classes principais de explicações para o surgimento da lei: uma baseada em um processo de otimização da comunicação entre falante e ouvinte, e outra no mecanismo “os ricos ficam mais ricos”, onde palavras já usadas têm maior probabilidade de serem reutilizadas. Também se menciona que processos puramente aleatórios, como um macaco digitando, podem gerar padrões similares, questionando a profundidade da lei.

O episódio examina violações e nuances da lei, como diferenças entre linguagem escrita e oral, e como ela se comporta em vocabulários muito extensos ou em línguas artificiais como o Esperanto. A conversa também toca na aplicação dessas análises ao misterioso manuscrito Voynich, cujas propriedades estatísticas são consistentes com uma linguagem natural.

Por fim, reflete-se sobre o que a física e os métodos quantitativos podem aportar ao estudo de sistemas complexos como a linguagem, destacando o poder da matematização e da modelagem para entender padrões em diversas áreas do conhecimento.


Indicações

Conceitos

  • Lei de Zipf — Lei empírica que descreve a relação entre a frequência de uma palavra e seu ranking na lista das mais frequentes: a frequência é aproximadamente inversamente proporcional ao ranking (expoente próximo de 1).
  • Lei de potência (Power Law) — Tipo de relação funcional onde uma quantidade varia como uma potência de outra. A lei de Zipf é um exemplo, caracterizada por muitos eventos de baixa frequência e alguns eventos de frequência extremamente alta.
  • Processo ‘Os ricos ficam mais ricos’ (Rich-get-richer) — Mecanismo matemático onde a probabilidade de um item ser escolhido é proporcional à sua popularidade atual, usado para explicar o surgimento de distribuições como a lei de Zipf em diversos contextos.

Obras

  • Manuscrito Voynich — Manuscrito ilustrado do século XV, escrito em um alfabeto e língua desconhecidos. Análises estatísticas, incluindo a lei de Zipf, mostram propriedades consistentes com linguagens naturais, mas sua natureza real permanece um mistério.

Pessoas

  • George Kingsley Zipf — Linguista americano que popularizou a lei que leva seu nome no início do século XX, embora a regularidade tenha sido observada por outros antes dele.

Linha do Tempo

  • 00:00:00Introdução à análise quantitativa de textos — O programa apresenta o tema da análise matemática de textos e como ela pode revelar semelhanças e diferenças entre línguas, além de seus mecanismos de evolução. O convidado é o físico Eduardo Altman, e o host é Jefferson Arizon.
  • 00:01:01Definições práticas de contagem de palavras — Eduardo Altman discute a dificuldade de definir pragmaticamente o que é uma palavra para fins de contagem, considerando questões como declinações e a necessidade de marcadores como espaços. A contagem envolve identificar a frequência de cada palavra única em um texto ou corpus transcrito.
  • 00:03:36Primórdios da contagem de palavras antes dos computadores — A história da contagem manual de palavras é explorada, com origens possíveis na poesia (métrica e rima) e, mais tarde, na criptografia. Um marco importante foi o século XIX com o telégrafo, onde a transmissão eficiente de mensagens se tornou um problema prático que exigia conhecimento das frequências das palavras.
  • 00:06:59Apresentação e contexto da lei de Zipf — A lei de Zipf é introduzida como uma regularidade estatística empírica do início do século XX, distinta de leis determinísticas como as de Newton. Ela descreve uma relação simples: a frequência de uma palavra é inversamente proporcional ao seu ranking (posição na lista das mais frequentes).
  • 00:11:19A lei de Zipf em sistemas diversos e explicações para seu surgimento — A lei aparece em sistemas variados, como o tamanho das cidades. Duas classes de explicações são apresentadas: 1) Otimização da comunicação, equilibrando o esforço do falante e a compreensão do ouvinte. 2) O processo “os ricos ficam mais ricos”, onde itens populares tendem a se tornar ainda mais populares.
  • 00:17:43Explicações triviais e a questão da profundidade da lei — É mencionado que um processo aleatório simples (como um macaco digitando) também pode gerar uma lei de Zipf, sugerindo que a lei pode não revelar algo profundo sobre a linguagem em si, mas sim ser uma propriedade útil de sistemas sob certas condições. A validade e o significado da lei são questões em debate.
  • 00:20:23Propriedades estatísticas e violações da lei de Zipf — São destacadas as propriedades das leis de potência (como a de Zipf), que possuem muitos eventos raros e alguns eventos extremamente frequentes. Discussão sobre violações: é possível criar textos deliberadamente que a violam; em corpora muito grandes (milhões de livros), o decaimento pode ser mais rápido; há diferenças entre línguas e entre linguagem oral e escrita.
  • 00:25:02A lei de Zipf em línguas artificiais — A conversa aborda se línguas artificiais (como Esperanto ou Klingon) seguem a lei de Zipf. A conclusão é que, como são usadas para descrever o mundo de maneira similar às línguas naturais, tendem a exibir a mesma regularidade estatística, que é mais uma propriedade do uso da linguagem do que da sintaxe específica.
  • 00:29:27Aplicação ao manuscrito Voynich — Eduardo Altman comenta seu trabalho analisando estatisticamente o manuscrito Voynich. As propriedades, incluindo a lei de Zipf, são consistentes com uma linguagem natural, mas isso não prova que há um significado real, pois o texto poderia ter sido gerado para parecer uma língua.
  • 00:31:52O que a física aporta ao estudo de sistemas complexos como a linguagem — Reflexão final sobre o valor da abordagem quantitativa e da modelagem matemática, inspirada no sucesso da física, para entender sistemas complexos em outras áreas, como a linguística. A quantificação e a matematização são vistas como ferramentas poderosas para uma compreensão mais profunda.

Dados do Episódio

  • Podcast: Fronteiras da Ciência
  • Autor: Fronteiras da Ciência/IF-UFRGS
  • Categoria: Science
  • Publicado: 2023-05-01T09:00:00Z

Referências


Dados do Podcast


Transcrição

[00:00:00] Este é o programa Fronteiras da Ciência, onde discutiremos os limites entre o que é ciência e o que é mito.

[00:00:10] Quando se fala nas regras que um texto ou uma língua obedece, normalmente o que nos vem em mente são aquelas regras gramaticais,

[00:00:18] como as que a gente estudou na escola.

[00:00:20] O que a gente vai conversar hoje é um aspecto um pouco diferente, talvez complementar,

[00:00:25] que é uma análise matemática, então quantitativa, que se pode fazer de um texto.

[00:00:30] E como que isso pode ajudar a encontrar semelhanças e diferenças entre diversas línguas,

[00:00:36] assim como entender as origens e os mecanismos como essas línguas evoluíram e continuam evoluindo.

[00:00:43] O nosso convidado hoje é um físico, o Eduardo Altman, que é professor da Escola de Matemática e Estatística da Universidade de Sydney, na Austrália,

[00:00:51] conversando com ele, eu, Jefferson Arizon, do Departamento de Física da OX.

[00:00:55] Eduardo, então o que significa nessa área contar palavras, o que é contagem de vocabulário?

[00:01:01] Uma boa pergunta, parece óbvio para todos nós que estudamos que palavras existem, que nós trabalhamos com elas,

[00:01:07] mas se a gente começa a olhar mais a fundo o que é uma palavra, não é uma pergunta fácil de se responder.

[00:01:13] Línguas evoluíram de maneira oral, faz muito pouco tempo na história da humanidade que algumas civilizações desenvolveram a escrita.

[00:01:20] Do meu ponto de vista, tanto a tentativa de definir o que é uma palavra, estudar as propriedades da língua,

[00:01:27] quanto de quantificá-las são uma tentativa de entender esse sistema de comunicação, esse sistema que é a linguagem natural.

[00:01:36] Por exemplo, em termos práticos, quando nós estamos contando palavras, uma definição de palavras pragmática, prática, é necessária.

[00:01:45] A palavra cadeiras é uma palavra diferente da palavra cadeira, devemos contá-la como a mesma ou distinta,

[00:01:53] em outras línguas tem outras declinações, etc.

[00:01:56] Então, na prática, quando nós vamos contar, quantificar, é necessário fazer uma definição pragmática.

[00:02:02] Se estamos trabalhando no computador com um código, tipicamente a gente vai começar vendo quais são as sequências de símbolos, de letras,

[00:02:10] se estamos trabalhando com textos, em geral tem um marcador entre palavras, uma pontuação, um espaço,

[00:02:17] e a partir daí pensar se deve-se juntar duas palavras na mesma categoria ou não,

[00:02:24] são escolhas que se tem tanto do modelo como na prática de como a gente quantifica isso.

[00:02:29] Mas a contagem em si é realmente contar então com que frequência, por exemplo, uma determinada palavra,

[00:02:36] cadeira, aparece num determinado texto ou a mesa, quantas vezes?

[00:02:40] Isso, muitas vezes há um interesse também em um corpo, um conjunto de textos de origem falada,

[00:02:48] mas o típico é que há uma transcrição dessas falas, esse é o primeiro passo.

[00:02:53] A partir dessa transcrição, então a análise é identificar as palavras que aparecem nessa transcrição e contá-las.

[00:03:01] Acho que ali preciso distinguir entre quantos tipos de palavras únicos que existem,

[00:03:07] então cadeira é uma dessas palavras, mas em um texto a palavra cadeira vai aparecer diversas vezes,

[00:03:12] pode ser 0, 1, 2, 3 e contamos ao longo desse texto.

[00:03:16] Quando a gente fala em contar palavras, se pensa em escrever um código, um programa, um script num computador,

[00:03:24] mas a história dessa área é bem mais antiga e começou de uma forma bem mais difícil, começou antes dos computadores.

[00:03:31] Então existem contagens de palavras que eram feitas há 100 anos atrás.

[00:03:36] Então eu queria te perguntar sobre os primórdios, antes do computador sem letrado,

[00:03:41] quando essa contagem era feita de forma manual, analógica.

[00:03:45] Então nos conta um pouco sobre esses trabalhos originais e principalmente o que levava essas pessoas

[00:03:52] a fazer um trabalho manual tão chato quanto contar palavras.

[00:03:56] É, eu acho que é difícil precisar quando o uso de matemática de contagem de palavras começa.

[00:04:02] Eu imagino que deve ter começado pelo menos quando começa a poesia.

[00:04:07] Qualquer pessoa que está pensando na rima, fazer um poema está contando a métrica, as palavras.

[00:04:13] Uma área possivelmente posterior onde isso certamente aparece é em tentativas de criptografia,

[00:04:20] tentativas de escrever mensagens que não são decifradas e de como fazer essa codificação.

[00:04:27] Isso certamente tem uma história de séculos.

[00:04:30] Essa eu acho que é uma outra grande área onde até hoje a matemática e a métodos computacionais são essenciais,

[00:04:37] mas eu acho que antecede a essas tecnologias a tentativa de codificar mensagens de maneira que não pudesse ser decifradas.

[00:04:45] Tentando chegar mais na parte mais tecnológica, um outro marco, é quando todos nós começamos a estar interconectados.

[00:04:53] Pode parecer uma coisa muito recente, mas eu acho que é uma etapa do século XIX.

[00:04:58] Mensagens do Brasil para outros continentes anteriormente tinham que ser enviadas por navio.

[00:05:05] Demoravam semanas, meses, cavalo até outras partes do país.

[00:05:10] Mas a partir do final do século XIX, quando os primeiros cabos de transmissão de telégrafos foram colocados,

[00:05:16] em particular no Brasil, foram um dos primeiros países onde cabos através do Atlântico foram colocados,

[00:05:22] mensagens que demoravam semanas ou meses passaram a ser transmitidas em segundos ou minutos.

[00:05:28] Aquele é um momento também que, especialmente no começo, a transmissão de mensagens,

[00:05:32] mas como até agora, tem uma capacidade limitada.

[00:05:35] Então, contar as palavras, saber a frequência de palavras, saber codificar a mensagem de uma maneira mais eficiente de transmiti-la

[00:05:43] passou a ser um problema prático e que requeria medidas quantitativas.

[00:05:48] Essas são umas coisas anteriores ao século XX, que eu acho que podem ser mencionadas,

[00:05:53] onde medidas quantitativas de texto, de palavras, de mensagens eram importantes.

[00:05:58] Quando se fala em codificação, a gente pensa automaticamente também em decodificação.

[00:06:04] Essa parte de tentar descobrir como as mensagens dos inimigos eram codificadas.

[00:06:09] A contagem de palavras é importante, porque se a gente supõe que uma mensagem secreta,

[00:06:14] a frequência com que as palavras aparecem ali segue a mesma frequência com que ela aparece na língua,

[00:06:20] a mensagem pode estar traduzida em outros símbolos, mas a mais frequente deveria corresponder à palavra mais frequente daquela língua.

[00:06:28] Então, saber essa, que em matemática se chama distribuição, a frequência de cada uma das possíveis palavras naquela língua

[00:06:35] é essencial para fazer essa decodificação.

[00:06:39] E cada vez que a gente fala em propriedades quantitativas de qualquer sistema, vão aparecer normalmente regularidades por trás dessas medidas.

[00:06:48] E aquelas regularidades mais úteis, mais famosas, levam nomes não necessariamente da pessoa que descobriu.

[00:06:54] Nessa área, uma das leis mais conhecidas é a famosa lei de Zipf.

[00:06:59] O que a gente precisa saber para entender essa lei, o que ela nos diz?

[00:07:03] Talvez colocar ela num contexto também, acho que poderia ser interessante.

[00:07:07] A lei de Zipf surge no começo do século XX, então após esse período que eu mencionei sobre transmissão de informação por capos, onde isso ainda era relevante.

[00:07:18] E também após outras regularidades estatísticas que começam a partir do século XIX, na área de estatística, de finanças, de seguro,

[00:07:27] onde se detecta muitas regularidades, as primeiras delas inclusive que seguiam uma lei gaussiana, uma curva normal.

[00:07:35] Que tem uma explicação hoje que nós entendemos muito clara, a partir do teorema de limite central,

[00:07:41] de que aspectos aleatórios quando são somados tendem a uma distribuição normal.

[00:07:47] Mas também encontraram-se outras regularidades que não eram gaussianas.

[00:07:51] A lei de Zipf é uma dessas regularidades estatísticas, então assim, ainda que nós chamemos ela de lei de Zipf,

[00:07:57] ela tem uma natureza muito distinta, por exemplo, das leis de Kepler ou das leis de Newton,

[00:08:02] que são leis que nós entendemos como fundamentais e precisas e determinísticas.

[00:08:08] Essas leis que nos referimos como a lei de Zipf são leis de regularidades estatísticas, são leis empíricas,

[00:08:15] mas que têm um aspecto estatístico por elas. Acho que essa é a primeira questão conceitual, é muito importante.

[00:08:21] Mas uma vez entendido dessa maneira, a lei de Zipf é extremamente simples.

[00:08:25] A beleza dessas questões, dessas leis, é que elas são muito fáceis de serem enunciadas,

[00:08:30] mas são difíceis de ser explicadas ou de entender porque elas emergem.

[00:08:35] Então eu diria que o essencial na lei de Zipf é, se contamos as palavras,

[00:08:41] poderíamos pensar que o próximo passo seria tentar ordená-las a partir das suas frequências.

[00:08:46] Então qual seria a palavra mais frequente? Qual é a segunda palavra mais frequente?

[00:08:50] Podemos chamar isso do ranking. Qual é o ranking que a palavra tem?

[00:08:54] O ranking número 1 seria a palavra mais frequente, o ranking número 2, a segunda, etc.

[00:09:00] O ranking número R é a rézima palavra mais frequente até o vocabulário total.

[00:09:05] Esse seria o último ranking de palavras que existe.

[00:09:08] E a regularidade que hoje chamamos de lei de Zipf, que foi popularizada por esse linguista,

[00:09:14] digamos que temos uma contagem, um número da palavra mais frequente.

[00:09:18] Em português, na maioria dos textos, em geral, são palavras de ligações ou artigos.

[00:09:23] O artigo indefinido, muitas vezes, 1, a palavra 1 é a palavra mais frequente.

[00:09:27] O que a lei de Zipf diz é que a segunda palavra mais frequente, talvez o artigo indefinido feminino,

[00:09:32] 1, teria uma contagem que seria a metade da contagem da palavra mais frequente.

[00:09:38] A terceira palavra mais frequente, digamos o artigo definido O,

[00:09:43] teria 1 terço da primeira palavra, da palavra mais frequente, 1 sobre 3, porque ela é o ranking número 3.

[00:09:51] E assim por diante, a quarta seria 1 quarto da palavra mais frequente, a quinta 1 quinto,

[00:09:57] a rézima seria 1 sobre R da palavra mais frequente.

[00:10:01] Isso foi uma observação empírica, que é um decaimento algébrico da contagem.

[00:10:07] Às vezes a gente usa a palavra frequência.

[00:10:10] Frequência pode ser vista como contagem ou a gente pode pensar também na normalização,

[00:10:15] qual é a fração de todas as palavras que são do tipo cadeira, do tipo 1.

[00:10:21] Isso seria também uma outra maneira de ver a frequência, mas essa lei se aplica às duas.

[00:10:26] Isso é só uma constante que multiplicativa.

[00:10:29] Só para a regista, para as pessoas que têm alguma familiaridade com essa área,

[00:10:34] o tipo de expressão matemática que descreve a lei de Zipf a gente chama,

[00:10:39] principalmente na física, como lei de potência. Potência é um expoente.

[00:10:43] E a lei de Zipf a gente costuma dizer que o expoente que caracteriza a lei de Zipf,

[00:10:48] essa lei do ranqueamento, é 1.

[00:10:50] O interessante é que esse tipo de lei de potência aparece em sistemas que não têm nenhuma relação

[00:10:58] direta com livros. Por exemplo, a gente pode pegar um país, o Brasil, e fazer uma lista das cidades

[00:11:05] e olhar a população nessas cidades.

[00:11:09] Isso pode ser ordenado e o resultado vai ser essencialmente a lei de Zipf.

[00:11:15] Existem uma série de exemplos, sistemas de natureza diferente.

[00:11:19] Então a pergunta é, por que a lei de Zipf aparece com tanta frequência em sistemas de natureza diversa?

[00:11:26] Essa pergunta não tem uma resposta única ou simples, não é única para todos os casos, inclusive…

[00:11:32] Ou de consenso.

[00:11:33] Ou de consenso. O exemplo que você mencionou das cidades também é conhecido como lei de Zipf,

[00:11:38] lei de Zipf das cidades. E cada uma dessas diferentes áreas tem modelos matemáticos

[00:11:44] que explicam a aparição dessas leis, que em alguns casos tem comunalidades,

[00:11:50] que são os mesmos princípios em diferentes áreas que explicam o surgimento dessa lei.

[00:11:54] Em outros casos são distintos.

[00:11:56] Acho que se a gente pensa nas explicações para a lei de Zipf,

[00:12:00] talvez focando mais no caso das palavras, da linguística,

[00:12:04] existem dois tipos de explicações.

[00:12:07] Um tipo de explicação que foi sugerido pelo Zipf mesmo é que haveria um processo de otimização,

[00:12:14] alguma quantidade, possivelmente entre aquele que fala e aquele que escuta,

[00:12:20] ou aquele que escreve, aquele que lê, e que haveria um interesse daquele que escuta de ser muito preciso,

[00:12:28] de ter uma palavra descrevendo exatamente a situação que está sendo escrita,

[00:12:34] mas aquele que fala quer economizar o vocabulário.

[00:12:38] Ou então o contrário, aquele que lê, que escuta tem uma limitação do vocabulário que conhece,

[00:12:44] então as palavras seriam usadas com alguma policemia, com alguma degenerecência do insignificado.

[00:12:51] Mas enfim, uma classe de explicações para a lei de Zipf é que a linguagem natural evoluiu através dos milênios,

[00:12:59] com a evolução da linguagem humana, para tentar se tornar a comunicação efetiva, a comunicação otimizada,

[00:13:05] e a lei de Zipf é uma consequência disso, é uma propriedade emergente de um processo evolutivo de comunicação.

[00:13:12] Então, se eu tenho uma tentativa de comunicação entre duas pessoas, por um lado, a pessoa que fala,

[00:13:18] ela quer economizar, ela quer se esforçar o mínimo e não usar palavras demais,

[00:13:25] então ela tenta usar o menor vocabulário possível para transmitir a sua mensagem.

[00:13:31] Por outro lado, se esse conjunto for pequeno demais, eu não consigo transmitir uma mensagem complexa usando só três palavras diferentes.

[00:13:40] Então, por um lado, eu não quero usar palavras demais, porque senão a chance da pessoa que vai ouvir é de não conhecer tantas palavras,

[00:13:50] e o meu objetivo é que a mensagem realmente passe, então vou usar o menor conjunto possível para garantir que a outra pessoa conheça.

[00:13:57] Por outro lado, eu não posso ter palavras de menos, porque senão eu vou ter um problema de excesso de policemia,

[00:14:04] vou repetir demais palavras com significados diferentes e também vai ter dúvidas sobre o significado.

[00:14:11] A solução, então, é um valor intermediário, e esse valor intermediário seria justamente a lei de Zipf.

[00:14:18] Acho que isso está correto, acho que só nessa argumentação é importante notar que as palavras,

[00:14:24] ou ao menos uma grande parte das palavras que usamos, têm um significado semântico,

[00:14:30] que estão se referindo a uma coisa, a uma cadeira. Isso não é o caso de conjunções, de palavras de ligação, de artigos,

[00:14:37] que são as palavras mais frequentes. Algumas pessoas dizem que as palavras são os átomos da semântica,

[00:14:43] são as unidades menores que ainda têm a possibilidade de se associar a um significado.

[00:14:50] Uma palavra isolada em si, muitas vezes, não tem essa habilidade.

[00:14:55] As mensagens são transmitidas através de um conjunto de palavras.

[00:14:59] E se pensamos simplesmente do ponto de vista de transmissão de informação, dois símbolos são suficientes.

[00:15:05] Um código binário é suficiente, mas esses códigos binários não seriam palavras, não teriam um significado semântico.

[00:15:12] E essa minimização, esse jogo que você descreveu, que o Zipf sugeriu, ele está implicitamente assumindo

[00:15:19] que as palavras estão se referindo a objetos que existem fora da linguagem.

[00:15:23] Isso é essencial para o argumento, mas isso é uma abordagem de como tentar explicar.

[00:15:28] Existem outras funções que foram propostas, que poderiam ser origem de otimização, nem sempre envolvendo um falante e um ouvinte.

[00:15:39] Poderia-se pensar na otimização da linguagem em aspectos mais abstratos de teoria da informação,

[00:15:45] mas essa é um conjunto de explicação da lei de Zipf.

[00:15:48] O outro conjunto de explicação, e que talvez é usado na linguagem também, mas é mais natural em outras áreas,

[00:15:55] é um processo matemático que é conhecido como os ricos se tornam mais ricos,

[00:16:01] que as palavras que são usadas mais vezes vão ser referenciadas novamente.

[00:16:06] Se eu estou aqui falando sobre móveis e eu usei a palavra cadeira uma vez,

[00:16:10] a chance que eu vou usá-la de novo é maior do que eu vou usar uma palavra sobre os ornitorrincos.

[00:16:17] Então, dado que aquele texto é sobre aquele assunto, uma palavra que aparece uma vez tem a chance de ser usada novamente.

[00:16:24] No caso de cidade, se diria que a importância de se escolher uma cidade depende do tamanho da cidade atual.

[00:16:31] Então, no caso do Brasil, se uma pessoa vai trocar de cidade ou se mudar ao Brasil,

[00:16:37] a chance dela receber uma oportunidade ou conhecer uma pessoa em Porto Alegre é maior do que conhecer uma pessoa em Juiz.

[00:16:45] Então, a chance dessa pessoa ir a Porto Alegre é maior e com isso o Porto Alegre cresce

[00:16:49] e a distância entre Porto Alegre e Juiz continua a crescer.

[00:16:53] Então, a atratividade da cidade ou atratividade da palavra é proporcional à contagem que a palavra já tem.

[00:17:01] E isso faz com que, com algumas condições, a ideia de que novas palavras podem ser criadas ou surgir,

[00:17:07] se nós incluirmos esses dois componentes, esse processo de os ricos tornam-se mais ricos na analogia econômica,

[00:17:13] com uma pequena probabilidade de criar-se novas palavras ou criar-se novas cidades,

[00:17:19] a combinação desses dois elementos também explica matematicamente o surgimento de leis como a lei de Zipf.

[00:17:25] Eu estou mencionando essas duas porque essas são as duas explicações que assumem que há algo interessante por trás da lei de Zipf.

[00:17:34] Essa questão também é uma questão em debate. Existe, por exemplo, uma outra proposta que é muito curiosa de criação, de explicação da lei de Zipf.

[00:17:43] Imaginemos que nós colocamos agora um macaco para escrever um texto na frente de uma máquina de datilografar.

[00:17:49] Essa é uma analogia anterior aos computadores.

[00:17:52] Então, a gente imagina que o macaco vai começar a bater nas teclas, as letras têm teclas pequenas,

[00:17:57] vão aparecer com alguma probabilidade, o espaço em branco é uma tecla grande, vai aparecer com uma probabilidade maior.

[00:18:04] Se a gente deixa esse processo se repetir e depois diz qualquer conjunto de letras entre espaços em branco e uma palavra,

[00:18:11] estranhamente esse processo aleatório também leva a lei de Zipf.

[00:18:15] Porque o número de palavras distintas cresce com o tamanho das palavras, porque você tem uma combinação maior

[00:18:22] e o tamanho das palavras é dado pela chance de se tocar a palavra ou um espaço em branco.

[00:18:28] E isso também explica. Então, isso mostra-se que existem explicações triviais para a lei de Zipf.

[00:18:33] Não envolvem um significado.

[00:18:36] Não tem um motivo profundo para a existência da lei de Zipf.

[00:18:40] É claro que esse exemplo do macaco não reproduz outras propriedades da língua.

[00:18:46] Por exemplo, a distribuição do tamanho das palavras que se obteria nesse caso do macaco é completamente diferente

[00:18:52] daquilo que observamos em todas as línguas.

[00:18:54] Então, não me parece ser uma explicação razoável para a lei de Zipf,

[00:18:59] mas ainda assim ela revela que ainda que seja uma regularidade intrigante e sugestiva,

[00:19:05] não necessariamente ela revela algo profundo da estrutura de linguagem ou da propriedade da língua.

[00:19:13] Pode ser algo útil e relevante em aplicações, mas não necessariamente algo profundo da propriedade de línguas

[00:19:21] ou propriedades humanas. Isso é uma questão que também está em aberto.

[00:19:25] Existem diferentes opiniões entre estudiosos.

[00:19:29] Tu tinha comentado antes que a natureza da lei de Zipf é bastante diferente de outras leis,

[00:19:36] como a lei de Kepler, a lei de Newton, que são deterministas por natureza.

[00:19:41] Eu entendo que a lei de Zipf é, digamos, uma primeira aproximação aos dados observados nessas contagens,

[00:19:49] que se a gente for olhar com mais cuidado, vai ter subestruturas, outros detalhes,

[00:19:55] vão ter flutuações, desvios, porque é estatístico, tem uma certa probabilidade, textos pequenos vão ter mais flutuações.

[00:20:03] Então, essas coisas são obedecidas de forma aproximada.

[00:20:07] A pergunta é, tudo bem, esquecendo então essas flutuações que a gente aceita,

[00:20:11] mas existem violações, claras violações, onde não é mais uma flutuação estatística.

[00:20:19] Alguma situação onde certamente falha a lei de Zipf?

[00:20:23] Bom, antes de eu responder exatamente essa pergunta, eu acho que tem dois pontos que é importante colocar.

[00:20:28] O primeiro é a distinção da lei de Zipf, que é uma lei estatística, dos casos, por exemplo, das distribuições gaussianas.

[00:20:36] Se nós medimos as alturas das pessoas, separadas pelo sexo das pessoas,

[00:20:41] os homens numa população têm uma distribuição que é muito próxima de uma lei gaussianas.

[00:20:46] As mulheres têm uma distribuição muito próxima das leis gaussianas e nós entendemos isso.

[00:20:51] A lei de Zipf, independente da interpretação e da origem dela,

[00:20:55] ela tem propriedades estatísticas muito distintas e que são muito relevantes.

[00:21:00] Essas leis de potência têm essa propriedade em comparação com gaussianas ou exponenciais distribuições de poassom.

[00:21:07] Ela tem essas duas características que existem muito mais elementos com frequência muito menor,

[00:21:15] muito mais palavras que aparecem apenas uma vez, mas ao mesmo tempo também tem palavras que aparecem com uma frequência muito grande.

[00:21:22] Essas leis de potência, em finanças, muitas vezes são relacionadas com esses cisnes negros, com eventos extremos,

[00:21:29] como terremotos, então essas propriedades estatísticas têm consequências muito importantes.

[00:21:35] Esse é o primeiro ponto que eu queria mencionar.

[00:21:38] O segundo ponto em relação à validade de fato, como você mencionou, ela é robusta,

[00:21:43] a menos de pequenas flutuações, ela descreve de maneira elegante, muito simples, situações completamente diversas,

[00:21:51] textos completamente diversos em diferentes línguas, textos escritos e falados, livros técnicos ou romances,

[00:22:00] algumas palavras mais frequentes, outros livros com outras palavras, mas a lei em si é extremamente robusta a essas observações.

[00:22:08] Então, de uma maneira geral, ela está revelando de uma maneira muito simples, muito elegante,

[00:22:14] propriedades estatísticas que, a princípio, se não soubéssemos isso, poderiam aparecer de uma forma arbitrária.

[00:22:21] Eu acho que então ela tem esse significado.

[00:22:23] Agora, se nós nos perguntamos a violações, a primeira coisa é que ela não é necessariamente verdade.

[00:22:30] Nós poderíamos imaginar construir sentenças e textos que deliberadamente violam a lei de Zipf

[00:22:37] e continuam semanticamente e sintaticamente bem.

[00:22:43] São textos da língua portuguesa, são aceitos pelos gramáticos, são aceitos pela população falante como textos da língua,

[00:22:50] mas ainda assim são inteligíveis, têm um significado inclusive, mas que se nós nos esforçarmos,

[00:22:56] se nós conscientemente tentarmos evitar que a lei de Zipf seja satisfeita, ela violaria.

[00:23:03] Então, essa é uma possibilidade. Se nós nos esforçarmos para violar as leis fundamentais da física, nós falhamos sistematicamente.

[00:23:10] Como o pessoal tenta criar um moto perpétuo.

[00:23:12] Isso, ou achar a borda da terra, outras coisas do gênero.

[00:23:16] Está bem escondida pela NASA.

[00:23:18] Está bem escondida. Então, em situações mais espontâneas, o que se observou agora com computadores,

[00:23:25] com digitalização dos dados, é que se nós vamos além de um livro e começamos a coletar milhares ou milhões de livros

[00:23:32] e começamos a ver vocabulários que chegam a dezenas, centenas de milhares de palavras,

[00:23:39] de fato, para rankings muito grandes, essa lei de Zipf superestima a frequência de palavras.

[00:23:44] Uma lei de potência com decaimento mais rápido, maior que um, próximo a um, mas entre um e dois,

[00:23:50] descreve as palavras de maneira muito melhor.

[00:23:53] A regularidade de certa forma continua, mas ela não é mais tão simples, talvez precisamos de pequenas correções.

[00:23:59] Alguns estudos também mostram que há uma diferença, nesse caso, entre a linguagem escrita e a linguagem oral.

[00:24:05] A linguagem oral segue um padrão um pouco diferente, ainda dentro da família de lei de potência,

[00:24:12] ou bem descritas pelas leis de potência, mas essas distinções e essas sutilezas acabam aparecendo.

[00:24:18] Entre diferentes línguas também, há diferentes parâmetros, diferentes valores da lei de potência

[00:24:25] que aparecem em uma língua ou em outra língua.

[00:24:28] Essas são todas violações que são possíveis, que são observadas.

[00:24:33] Outra coisa que eu acho interessante é que nem todas as línguas passaram pelos mesmos processos de evolução.

[00:24:41] A evolução de uma língua é muito parecida com a evolução biológica.

[00:24:44] Novas palavras surgem, passam por um processo de seleção, dependendo de quanto elas se adaptam à sua utilização.

[00:24:52] Algumas são extintas, novas vão sendo criadas, se espalham, se fixam na língua.

[00:24:58] Mas existem outras línguas que foram criadas.

[00:25:02] Por exemplo, o Klingon foi criado para ser usado no Star Trek, o Senhor dos Anéis, agora tem N línguas artificiais.

[00:25:12] Essas línguas são estudadas por linguistas, até toda a comunidade, físicos, matemáticos, ciências da computação que estudam essas coisas.

[00:25:21] Essas línguas, por terem uma origem diferente, nos dão algo diferente da lei de Zipf?

[00:25:29] Essa é uma pergunta curiosa. Talvez a língua artificial mais tradicional é o Esperanto.

[00:25:36] Isso foi estudado e, em geral, a lei de Zipf é satisfeita de uma maneira similar que as outras, com os condicionais colocados anteriormente.

[00:25:45] Mas o Esperanto eu acho mais fácil aceitar ou entender que satisfaça porque ela foi criada para ser usada na vida cotidiana.

[00:25:54] Então ela tem que passar as mesmas mensagens que a gente passa em português, em inglês, então esses vocabulários devem ser parecidos.

[00:26:01] Quer dizer, deveria ser uma tradução mais próxima das línguas.

[00:26:06] Isso, mas se eu for fazer uma língua para ser usada em quatro filmes ali do Senhor dos Anéis, não tenho essa preocupação de passar mensagens da mesma forma.

[00:26:18] Mas as teorias linguísticas, como nós entendemos hoje, é que todas as linguagens humanas têm o mesmo poder descritivo.

[00:26:25] Elas são igualmente boas em descrever situações.

[00:26:29] Elas fazem isso de maneiras distintas, não arbitrárias, um número relativamente pequeno de escolhas que podem ser feitas.

[00:26:38] E essas linguagens artificiais criadas o fazem da mesma maneira.

[00:26:43] A lei de Zipf não está dizendo a origem de cada uma dessas palavras, os símbolos usados para representá-la, o alfabeto.

[00:26:50] Então o vocabulário em si não é relevante para ela.

[00:26:53] Esse é o primeiro ponto.

[00:26:55] Então, a partir do momento que essas línguas artificiais possuem essa capacidade de descrever o mundo,

[00:27:02] aquilo que nos cerca da mesma maneira que linguagens naturais, elas compartilham dessas propriedades.

[00:27:08] Ainda que elas não o façam também, ou que não façam da mesma maneira,

[00:27:11] acho que o que é importante entender é que a lei de Zipf é relativamente independente das regras sintáticas que são usadas nas linguagens.

[00:27:20] A lei de Zipf opera em escalas muito maiores que um parágrafo ou com a parte do texto.

[00:27:25] Elas são frequência de palavras sobre textos muito grandes.

[00:27:29] Então, as propriedades que regem a formação de sentenças de parágrafos com propriedades sintáticas da língua têm uma influência menor nesse aspecto.

[00:27:38] E o que é fundamental entender também que, como mencionado anteriormente, a lei de Zipf não é só uma propriedade da língua em si,

[00:27:46] é uma propriedade da língua usada, em uso, o uso da língua para descrever situações.

[00:27:52] Então, é possível descrever situações violando ela, como no exemplo de uma violação deliberada.

[00:27:57] Mas a partir do momento que a linguagem é usada para descrever situações que nós vivemos,

[00:28:03] ou histórias que são interessantes, a referência é repetida aos mesmos conceitos,

[00:28:10] o uso de palavras mais frequentes de ligação, uso de adjetivos, de preposições,

[00:28:16] que de maneira mais frequente é algo que parece ser necessário ocorrer de maneira relativamente independente da língua.

[00:28:24] De novo, os parâmetros da lei de Zipf dependem da língua.

[00:28:28] Os desvios que ocorrem da lei de Zipf dependem.

[00:28:31] Não são independentes da língua, mas a forma geral da lei de Zipf,

[00:28:36] esse decaimento em lei de potência, esse decaimento lento com o ranking das palavras,

[00:28:41] esse desvio radical de propriedades gaussianas ou de distribuições que estão centradas a uma frequência típica.

[00:28:49] Não existe uma frequência típica de todas as palavras, por exemplo, uma escala característica.

[00:28:55] Se nós entendemos a lei de Zipf dessa maneira, ela de fato aparece também nessas linguagens construídas.

[00:29:02] Por quê? Porque ela não é uma propriedade só da língua.

[00:29:05] Essas linguagens construídas aparecem em situações que são usadas para se referir ao mundo,

[00:29:10] para descrever o mundo, para contar histórias, para contar eventos.

[00:29:14] Um outro exemplo de linguagem artificial que foi construída e bastante famosa,

[00:29:19] a gente tem inclusive um episódio específico sobre isso, é a que foi usada num manuscrito famoso,

[00:29:25] que é o manuscrito Voynich.

[00:29:27] O problema ali é que ninguém sabe, ou pelo menos ainda não é consenso,

[00:29:32] se aquilo são símbolos inventados por alguma estética independente e significado,

[00:29:38] ou se realmente é uma codificação, não se sabe quem fez.

[00:29:42] Eu sei que tu trabalhou um pouco com a transcrição desse manuscrito.

[00:29:46] O que vocês aprenderam com esse estudo?

[00:29:49] Sim, isso há alguns anos atrás com colegas de São Carlos, o Diego Amancio, o primeiro autor do artigo.

[00:29:55] Nós investigamos diferentes propriedades estatísticas de palavras nesse código de Voynich,

[00:30:01] e de fato a lei de Zipf era uma delas e as propriedades que vemos dos símbolos,

[00:30:05] das palavras que aparecem de ser palavras,

[00:30:08] tem propriedades similares a que vemos quando estudamos textos em outras línguas.

[00:30:12] E de fato, na maioria das análises estatísticas mais simples,

[00:30:16] as propriedades são similares ao que vemos em textos de linguagem natural.

[00:30:21] Isso sugere, de alguma maneira,

[00:30:23] ou seria uma evidência de que trata-se de um texto

[00:30:28] que nós simplesmente não conhecemos aquele alfabeto,

[00:30:31] não conhecemos aquela língua, aquilo que significa.

[00:30:33] Por outro lado, uma das teorias, uma das especulações que se constrói

[00:30:39] em uma mística e muito que foi escrito sobre isso,

[00:30:42] mas uma das explicações é que possivelmente alguém escreveu esse manuscrito com interesses,

[00:30:48] tentando vender para pessoas com mais riqueza na época,

[00:30:52] isso é centenas de anos na Europa, no Central,

[00:30:55] e que, portanto, uma maneira eficiente de gerar algo intrigante

[00:31:00] seria pegar um texto e simplesmente mapear esse texto para símbolos,

[00:31:05] sem nenhum significado, sem nenhum significado profundo,

[00:31:09] há desenhos muito sugestivos, mas eu digo,

[00:31:12] o texto poderia ser completamente independente,

[00:31:14] ou poderia simplesmente estar contando palavras,

[00:31:17] então isso poderia ter sido usado de maneira deliberada

[00:31:20] para aparentar uma linguagem,

[00:31:22] então isso não necessariamente nos diz que há um significado escondido

[00:31:28] por trás do texto de Vonage, mas também não diz que não há,

[00:31:32] então isso acho que são regularidades que se vê lá, é intrigante, é curioso,

[00:31:37] mas não em si só nos permite concluir algo definitivo sobre esse manuscrito.

[00:31:42] Dá para dizer que é consistente com uma linguagem, mas que a gente não sabe se é realmente.

[00:31:47] Exato.

[00:31:48] E para a gente terminar, isso é interessante também,

[00:31:52] porque tu é físico de formação e tu está aplicando esse treinamento,

[00:31:56] as técnicas da física, a maneira do físico pensar,

[00:31:59] há um problema que não é o típico problema estudado por um físico,

[00:32:04] então o que a física pode trazer para áreas como essa,

[00:32:09] o que a visão de um físico pode aportar a esse tipo de problema?

[00:32:12] A maneira como eu vejo isso é em que medida métodos quantitativos

[00:32:17] e a matemática, modelos matemáticos,

[00:32:20] tanto teóricos como quantificação de medidas empíricas,

[00:32:24] nos ajudam a entender a ciência, diferentes aspectos da ciência e do mundo que nos cerca.

[00:32:30] Na minha visão, a física entre as ciências

[00:32:34] foi o primeiro exemplo de sucesso dessa matematização, dessa quantificação.

[00:32:40] A minha formação, o meu treinamento, isso me motivou e me mostrou o potencial

[00:32:47] que a matemática e a quantificação e a combinação de medidas,

[00:32:52] de experimentos, de quantificação, de observações

[00:32:56] com a matematização da teoria e de modelos, modelos mecanísticos,

[00:33:00] que isso leva a um sucesso.

[00:33:02] A física, talvez porque lida com problemas mais simples,

[00:33:06] onde é mais fácil isolar elementos de outros elementos,

[00:33:11] isso levou o sucesso de maneira mais rápida,

[00:33:15] mas atualmente, essa mesma receita de sucesso,

[00:33:18] atualmente a quantificação e a matematização,

[00:33:21] são realidade em diferentes áreas,

[00:33:23] a química, a biologia, a neurociência, são já áreas consolidadas,

[00:33:29] mas também, de maneira cada vez mais,

[00:33:32] também as áreas das ciências sociais, aspectos da vida humana,

[00:33:36] e as sociedades são ainda mais com a quantidade de dados que temos

[00:33:41] sobre comunicação, sobre o texto.

[00:33:44] Então, para mim, o que a física revela é um exemplo

[00:33:48] de como uma abordagem matemática e quantitativa pode nos levar

[00:33:52] a uma compreensão mais profunda de elementos.

[00:33:55] E essa mesma receita, com adaptações, com cuidados,

[00:33:59] com conhecimentos específicos das áreas e outras áreas

[00:34:02] qualitativas de estudo sendo respeitados,

[00:34:05] isso pode levar a sucessos em outras áreas,

[00:34:08] e é isso que eu acho que diferentes físicos,

[00:34:10] inclusive você, Jefferson, tem feito e trabalhado em outras áreas.

[00:34:14] Então, hoje a gente conversou com o Eduardo Altman,

[00:34:17] que é professor da Escola de Matemática e Estatística

[00:34:20] da Universidade de Sydney, na Austrália,

[00:34:23] sobre essas regularidades estatísticas

[00:34:26] que aparecem em linguagens naturais, espontâneas ou não.

[00:34:30] A gente vai deixar como exercício, para quem está ouvindo,

[00:34:33] fazer a transcrição do texto e contar as palavras que foram usadas

[00:34:36] para saber se verifica ou não a lei de zip.

[00:34:39] Então, conversando com o Eduardo, eu, Jefferson Arizon,

[00:34:42] do Departamento de Física da URGES.

[00:34:53] Legendas pela comunidade Amara.org