|
eblog.com.pt
|
|
Secções
Ficha técnica
Gently powered by:
CHIP 7
Network Provider:
Edição:
Hospedagem:
Equipa:
Uptime do servidor: 24 março 2004Como funcionam as estatísticas? Quais são de confiança?NOTA PRÉVIA: O "diálogo" abaixo reproduzido teve lugar por correio electrónico com um utilizador do weblog.com.pt. O exemplo prático ajudará a perceber um pouco melhor a complexidade dos vários sistemas de contagem de leitores e de páginas lidas. O bom senso é a melhor regra, desde que aliada à experiência. Pergunta: Eu tenho no meu blog as estatísticas do weblog.com.pt. Por exemplo para hoje vejo as seguintes estatísticas respectivas ao dia de ontem: ontem: dia 17 - hits: 845; páginas: 272; visitas: 218; kbytes: 31.989 No entanto tenho uma certa desconfiança em relação a estas estatísticas porque são consideravelmente superiores àquilo que outro serviço de estatísticas me dizem sobre o mesmo blog. Um contador externo que uso indica para o mesmo dia 17 32 visitas... Afinal qual está certo? Resposta: Como já disse repetidamente, eu confio MAIS nas estatísticas geradas DENTRO do servidor. Sejam geradas por que motor forem, são feitas com base nos ficheiros de log do servidor web. Enquanto as de fora dependem de TANTA coisa no caminho... Pergunta: Tenho algumas ressalvas: Resposta: Isso justifica alguma coisa, mas não tudo. Em Março (até dia 18 inclusivé) a página de entrada teve 25 % do total de URLs (1638 visualizações entre 6017) e 44% das entry pages. Vamos extrapolar: 44% de 218 = 95 Extrapolemos ao contrário: 32 + (56 % * 32) = 50. Estas contas sempre amaciam a diferença entre hits na primeira página e hits em todo o blog. MAS APENAS ISSO. Adiante: Pergunta: 2. É possível que o Weblog.com.pt esteja a contar com "visitas" de webbots dos search engines? Esses não deviam contar para as estatísticas... Resposta: Todos os sistemas levam em consideração as visitas dos bots. A diferença é que o que uso no weblog nos indica claramente essas visitas. Mas não as subtrai automaticamente do número total. Os outros... a gente sabe lá. Do total de 16120 hits que o teu blog teve em Março (até dia 17 inclusivé), 699, ou seja, 4.34% foram de um tal "msnbot/0.11 (+ http://search.msn.com/msnbot.htm)" A regra que sigo é: Não é seguro, claro. Mas é aproximado. E testado ao longo dos últimos anos de análise de tráfego. Pergunta: Bem, por agora é tudo. Seria excelente se pudesses responder. Há uma diferença grande entre 200 e tal e apenas 30 e tal pessoas por dia no meu blog... Qual está certo? Resposta: Nenhum está rigorosamente certo. Mas eu aposto no sistema do weblog. Não por ser meu, nada disso. Apenas porque está no próprio servidor e é um sistema reputado, está entre os melhores. Todas as discussões sobre estatísticas de acessos concluem o inevitável: nenhum sistema é rigoroso, mas quanto mais longe o sistema está da própria máquina, maior o risco de desvios. Só mais uma dica: o webalizer (sistema que uso no weblog) é já de si conservador na contagem e tenho-o afinado para ser o mais conservador possível. Eu se fosse a ti acreditava que o teu blog foi lido no dia 17 por 140 pessoas DIFERENTES. Porquê? Os dados relativos a esse dia: Foram lidas 272 páginas. (tirar 7% para os bots). Aqui ainda há bastante controlo sobre o número, não sabemos é por quem foram lidas e quais. Os leitores vieram de 157 endereços diferentes. Então temos 218 visitas de 157 endereços, como é? - já te ouço perguntar. É MUITO complicado. Aqui a porca torce o rabo: enquanto os bots contam sempre como um único endereço, porque vêm sempre da mesma máquina, os leitores não: os endereços IP mudam CONSTANTEMENTE no dial-up, mudam de 3 em 3 ou 4 em 4 horas tipicamente no ADSL e no cabo excepto Netcabo, onde chegam a permanecer uma semana no mesmo cliente - mas não há regra, pelo que... Por outro lado, alguns ISP, como o Clix por exemplo, fazem sair os seus clientes todos por duas ou três máquinas (os famosos proxies...), pelo que podemos facilmente ter 20 pessoas a vir do Clix e contarem nas visitas apenas como 3 ou 4. Esses dados foram gerados pelo Webalizer a partir dos logs do Apache, o servidor que envia CADA UMA das páginas e processa CADA UM dos pedidos de http. São contados os erros (páginas ou imagens inexistentes, links falhados, etc). São contabilizadas as visitas com base numa aproximação horária dos pedidos de cada IP. Enquanto os sistemas de contagem remotos... Imagina que eu carrego no botão de STOP antes da página vir toda -- faço isso muito, por sinal, pois os bloggers tem tendência para ter meses e meses na homepage e eu só quero mesmo ler a última semana :) O processo (geralmente javascript) de enviar o meu toque para o sistema remoto foi-se... Ou então eu tenho o javascript desligado... ardeu o contador. Outro cenário típico: o servidor de contagem remoto está com grande carga e dá um time-out: a tua visita não entrou na estatística... Isto acontece com grande frequência. Sei bem disso por causa do publog... às vezes não envia o pedido (é um esquema semelhante, o pedido é feito por um javascript). E fora as vezes que não há endereço IP do leitor, por uma razão qualquer que ainda não descortinei. Qual é a metodologia empregue por eles para esses casos? Contam a visita, não lhe atribuem endereço? Como vês, é muito complexo. A minha experiência e bom senso diz-me que no dia 17 tiveste 140 ou 150 leitores únicos, dos quais uns 40 (provavelmente foste um deles!) foram mais de uma vez ler o blog com um intervalo de horas, e leram 230 a 250 páginas diferentes. Uff. Espero ter ajudado. Publicado por pTd at março 24, 2004 05:37 PM |