Dette er del II om Benfords lov. Se del I for introduktiondel III om Trafik-, Bygge- og Boligstyrelsens passagertal på danske stationer og del IV om antal kirkegængere i Fyens Stift.

VisitDenamrk har lavet en opgørelse over besøgstal for de 300 mest besøgte attraktioner i Danmark i 2016.

Bør talsættet for besøgstal følge Benfords lov? Umiddelbart ja, idet:

– Tallene må formodes være fortløbende fra første til sidste åbningsdag for attraktion. Det vil sige, at første besøgende efterfølges af den anden besøgende, som efterfølges af den tredje besøgende og så videre. Datasæt med fortløbende tal over et stort nok interval må generelt forventes at følge Benfords lov.
– Der er i praksis ikke et maksimum for, hvor mange besøgende, en attraktion kan have i løbet af et helt år, og i hvert fald ikke et maksimum, der er relevant at tage højde for her.

Men der er imidlertid er forhold, der taler imod:
– Kun de 300 mest besøgte attraktioner er taget med. Dermed vil der være en nedre grænse for antal besøgende. Dette kan have betydning.
– Antallet af observationer er på 300, det vil sige i den lave ende, af hvad der skal til for at kunne vurdere, om talsættet følger Benfords lov.

Lad os se på tallene. For de første fire cifferplaceringer ser graferne således ud:

Graf 1, p-værdi 0,41 procent

Graf 2, p-værdi 69,85 procent

Graf 3, p-værdi 65,97 procent

Graf 4, p-værdi 0,03 procent

Ser man på Graf 1, så ser det ikke helt skævt ud i forhold til Benfords lov. Der dog nogle udstikkere og p-værdien indikerer, at talsættet på første ciffer ikke følger Benfords lov. Det samme gør sig gældende for fjerde ciffer.

For andet og trejde ciffer indikerer p-værdien, at talsættet følger Benfords lov. Så en blandet konklusion ved første gennemgang. Lad os se, om vi kan komme tættere på en forklaring.

Som nævnt er der en nedre grænse for antal besøgende, idet listen kun medtager de 300 mest besøgte attraktioner. Der er 47 observationer for besøgende i intervallet 1.000-9.999. Første observation i intervallet starter imidlertid på 6.185. Det vil sige, at der i dette interval ikke forekommer tallene 1, 2, 3, 4 og 5 som 1. ciffer. Disse tal vil således “mangle”, når man undersøger fordelingen i forhold til Benfords lov. Dette kan være med til at forklare, hvorfor vi i Graf 1 ser færre 2’er, 3’er, 4’er og 5’er som første ciffer.

På lignende vis er der i der i toppen af listen blot fire observationer i for besøgende i intervallet 1.000.000-9.999.999. Her vil der således også være “mangler”.

Fjernes observationerne i de to nævnte intervaller og køres testen igen, ser graferne således ud:

Graf 1, p-værdi 1,95


Graf 2, p-værdi 44,13 procent

Graf 3, p-værdi 55,25 procent

Graf 4, p-værdi 0,12 procent

Nu ser det visuelt bedre ud på 1. ciffer og p-værdien har rykket sig anelse. For de øvrige cifferplaceringer er der imidlertid ikke meget forbedring at spore, og det kan skyldes det forhold, at vi nu har reduceret antal observationer i et i forvejen sparsomt talset.

Jeg har ikke flere undersøgelser at foretage med dette talsæt pt. Ud fra ovenstående konkluderer jeg, at VisitDanmarks opgørelse over besøgstal for de 300 mest besøgte attraktioner i Danmark i 2016 følger Benfords lov til en vis grad, og at flere observationer, fx en top 500 sandsynligvis vil bringe talsættet tættere på Benford-fordelingen.

Kommentarer er velkomne – på LinkedIn eller Twitter.