sábado, 20 de julho de 2019

[0184] Frequência das letras do alfabeto: da criptografia ao Scrabble


A frequência com que as letras são usadas varia de língua para língua.
Se a compararmos para os casos de seis línguas europeias, quatro latinas e duas anglo-saxónicas, destacando em cada uma delas (com fundo amarelo) as três que surgem com maior frequência, percebe-se um pouco a sonoridade através da qual reconhecemos qual dessas línguas está a ser falada - as letras mais frequentes do Italiano são as três vogais abertas, o «a», o «e» e o «i»; para o Português e o Espanhol são o «a», o «e» e o «o»; para o Francês e o Inglês são o «a», o «e» e uma consoante; e para o Alemão são o «e» e duas consoantes:

Nota 1: nestas frequências estão incluídas variantes das letras que cada língua usa (o «à» no Francês; o «ç», o «è», o «é» e o «ê» no Francês e no Português; etc.), mas não estão incluídos os casos do «oe» do Francês (0,02 %), o «ñ» do Espanhol (0, 31 %) e o «b», actualmente escrito como duplo «s», do Alemão (0, 31 %)
Nota 2: estas frequências devem ser consideradas como apenas uma aproximação; têm sido feitos diversos estudos e os resultados divergem um tanto, dependendo do tema abordado, de quem escreve e, claro, da dimensão da amostra estudada

Estas diferentes frequências foram historicamente usadas na criptanálise (a arte de): a descrição mais antiga que se conhece do uso da frequência das letras para descodificar um texto escrito de modo codificado é de al-Kindi, um cientista do século IX, conhecido por Filósofo dos Árabes. Escreveu ele:
Uma maneira de decifrar uma mensagem codificada, se conhecermos a língua, consiste em encontrar um texto simples diferente na mesma língua, suficientemente longo para encher aproximadamente uma folha, e em seguida contar quantas vezes aparece cada letra. Chamamos à letra que aparece com mais frequência a «primeira», à que aparece a seguir com mais frequência a «segunda», à seguinte a «terceira» e assim sucessivamente, até nos ocuparmos de todas as letras na amostra do texto simples.
Seguidamente, olhamos para o texto em cifra que queremos decifrar e também classificamos os seus símbolos. Encontramos o símbolo que aparece mais vezes e substituímo-lo pela forma da «primeira» letra do texto simples, substituímos o símbolo mais comum seguinte pela «segunda» letra, o seguinte pela «terceira» letra e assim sucessivamente, até nos termos ocupado de todos os símbolos do criptograma que queremos decifrar.

Também nos jogos de formação de palavras, como o Scrabble (há outros), é preciso ter em conta estas frequências, adaptando a frequência das letras disponíveis àquela que cada língua utiliza. Por exemplo, as edições alemã e portuguesa do Scrabble têm a seguinte distribuição de peças (no total, respectivamente, de 102 e 120 peças):


Estarão estas frequências de peças razoavelmente próximas das frequências das letras na escrita do alemão e na escrita do português?

Fonte: Wikipédia, para a tabela com as frequências; livro de Singh (2001; pp. 29-30), para al-Kindi

Sem comentários:

Enviar um comentário