Maravilhas da Estatística – II

Este post foi originalmente publicado em 12/03/2013

Como o leitor viu no post anterior, a estatística permite inferir informações que poderíamos considerar inacessíveis.

Vamos ver outro exemplo de contagem que permite estimar quantas espécies existem em um determinado nicho ecológico. O processo é conhecido como marcar e recapturar.

Funciona assim: primeiro o pesquisador vai ao nicho ecológico, captura M espécimes e depois os solta na população geral. Em uma segunda visita, ele captura C espécimes e verifica quantos destes foram originalmente marcados. Digamos que este número seja K.

Como o percentual de animais marcados em comparação com a população N é M/N, e se a segunda captura for completamente aleatória então o percentual de animais marcados na amostra C deve permanecer mais ou menos o mesmo. Isto quer dizer que:

M/N deve ser aproximadamente igual a K/C. Assumindo a igualdade, temos M/N = K/C então N = M*C/K

Um exemplo numérico pode esclarecer muito: Vamos dizer que na primeira visita marcamos M=10 espécimes, na segunda visita capturamos C=100 espécimes, dos quais K=2 eram marcados. Isto quer dizer que a população deve ser aproximadamente:

N = 10*100/2 = 500

Podem testar no MATLAB que funciona bonitinho. Naturalmente isto é uma aproximação (afinal supõe que nenhum dos animais marcados morreu ou sumiu no período), mas pode ser usado para estimar populações dos mais diversos tipos (pessoas com doenças na população geral, estimar mercados, etc…). Caso se mantenha um histórico de marcar e recapturar é possível montar uma história com taxa de desaparecimento, taxa de natalidade, entre outras informações.

Maravilhas da Estatística – I

Este post foi originalmente publicado em 10/03/2013

A Estatística permite tomar decisões e estimar dados em situações que parecem impossíveis de se conhecer algo sobre o problema.

Caso em questão? Considere um saco com bolas numeradas de 1 até N. Agora você retira K bolas do saco. Sabendo o número de cada bola será que temos condições de estimar o número total de bolas originamente no saco (N)?

Bem, parece impossível, não? Mas há algumas informações que já temos disponíveis. A primeira é que a densidade de probabilidade é uniforme, ou seja a probabilidade de tirar qualquer bola é 1/N.

O valor médio desta distribuição é:

E{x} = 1/N*(1+2+3+..N) = 1/N*(N*(N+1)/2) = (N+1)/2

 

Então, na realidade, o que queremos é estimar a média, pois:

N=2*E{x}-1

 

Então podemos utilizar um estimador simples de média:

M=1/K*(B1+B2+…+BK)

 

Portanto N=2*M-1

 

Vamos ao teste? Vou considerar um saco com 100 bolas (numeradas de 1 a 100) e extrair 10 bolas aleatoriamente (óbvio que usei o MATLAB). Os números extraídos são:

55 24 62 63 53 59 52 93 20 66

A média deles é: 54.7

Portanto a nossa estimativa de N é 108.4

E se fossem apenas 5 bolas? O valor estimado de N seria de 101.8

A estimativa pode ser melhorada se incluirmos o desvio padrão. Mas para os fins de cálculo simples, este valor está de bom tamanho.

Mas para que serve isso, o caro leitor pode se perguntar? Bom, este tipo de problema é conhecido como Problema do Tanque Alemão. E como o nome indica, a estatística foi utilizada para descobrir quantos tanques alemães estavam sendo fabricados.

A idéia pode ser aplicada para um número de casos (por exemplo: quantas torradeiras de determinada marca são fabricadas, ou quantos IPhones, ou afins).

Realmente extraordinário.