Dette er del I om Benfords lov. Se også del II om VisitDenmarks besøgstal for attraktionerdel III om Trafik-, Bygge- og Boligstyrelsens passagertal på danske stationer og del IV om antal kirkegængere i Fyens Stift

Jeg har længe været fascineret af Benfords lov, også kaldet lov om første ciffer. Det er ikke en lov i fysikkens eller juraens verden, men en statistisk sammenhæng, der ses i talsæt på mange forskellige områder.

I talsæt der adlyder loven, vises tallet 1 som det ciffer, der forekommer oftest omkring 30 procent af tiden, mens 9 fremstår som det tal, der forekommer færrest gange, mindre end 5% af tiden. Det vil sige, at tallene for første ciffer ikke er ligeligt fordelt med omkring 11,1% af tiden for hvert tal. Benfords lov giver også forudsigelser om fordelingen på 2., 3. ciffer og så videre. Jo længere man når hen i cifferrækken, jo mere ligeligt bliver fordelingen. Således er fordelingen på 2. ciffer knap så skævt som på 1. ciffer, mens fordelingen på 4. ciffer er så godt som ligeligt.

Benfords lov gælder for en lang række forskellige talsæt, som fx elregninger, aktiekurser, huspriser, befolkningstal, og matematiske talrækker.

Det er jo meget bekvemt, men hvad kan det bruges til? Hal Varian, der er tekstbogsforfatter i mikroøkonomi og cheføkonom hos Google, foreslog i 1970’erne, at Benfords lov kunne bruges til at finde svindel i regnskabstal. Forudsætningen er, at folk der snyder med regnskabstal ikke vil finde på tal, der følger Benfords lov. Det viser sig, at folk der snyder, i højere grad bruger 5 og 6 som 1. ciffer, som om disse tal var mere tilfældige og dermed mere legitime. Derfor vil 5 og 6 optræde oftere i talsættet, end de burde, hvis talsættet ikke havde været manipuleret. I den forbindelse kan det nævnes, at de nationaløkonomiske data, som den græske regering rapporterede til EU, før de kom ind i euroområdet ikke stemte overens med Benfords lov.

Benfords lov kan derfor benyttes som et værktøj til kvalitetssikring af talsæt. Værktøjet har dog sine begrænsninger. For det første er det ikke egnet til alle typer talsæt, idet ikke alle talsæt bør stemme overens med Benfords lov. Eksempler på talsæt, som ikke forventes at stemme overens med Benfords lov inkluderer:

Antal passager fly
Telefonnumre
Datasæt med 200 eller færre transaktioner
Data genereret af formler (fx YYMM #### som i et forsikringsnummer)
I det hele taget data som er begrænset af et maksimums- eller minimumsnummer, fx en timeløn eller voksne personerne højde.

En anden væsentlig begrænsning er, at selv om talsættet stemmer overens med Benfords lov, siger det ikke noget om, hvorvidt talsættet er korrekt. Talsættet kan være manipuleret og stadig følge Benfords lov enten tilfældigt eller ved at være manipuleret til det.

Benfords lov bør ses som en første afprøvning af talsættet. Hvis det stemmer overens med Benfords lov, og man stadig har mistro til talsættets validitet, bør man søge andre muligheder for at undersøge nærmere. Hvis ikke talsættet følger Benfords lov, og man ellers har tiltro til tallene, kan man også undersøge nærmere og nogle gange igen ved hjælp af Benfords lov.

Hobby-matematikeren kan tælle antal af cifre på de forskellige pladser i talsættet, stille dem op grafisk, og så afgøre med sig selv om man synes det stemmer overens med Benfords lov.

Bliver man en smule mere teknisk, opstilles en nulhypotese, hvor det antages, at talsættet følger Benfords lov. Så køres en χ2-test, der spytter en p-værdi ud. P-værdien er groft sagt sandsynligheden for at simulere et udfald, der er mindst lige så skævt som det observerede udfald, idet simuleringen altid tager udgangspunkt i nulhypotesen. Det vil sige, en p-værdi på under 5% resulterer i en forkastelse af nulhypotesen, hvis man arbejder med et signifikansniveau på 5%.

Længere nede i kaninhullet for statistiske værktøjer findes metoder som Kolmogorov–Smirnov test og Kuiper’s test. Personligt foretrækker jeg en χ2-test krydret med noget hobby-matematik og sund skepsis.

Alt sammen kan være sjovt at læse om, med hvad med at prøve det af? Følgende figurer illustrerer fordelingen af 1. ciffer for 2.085 aktiekurser ved lukketid den 4. maj 2018 på de amerikanske børser.

 

Voilà. P-værdi på 96,67 procent.

Jeg vil demonstrere Benfords lov på udvalgte talsæt i kommende indlæg. Det er talsæt, der så vidt jeg ved, ikke tidligere har været undersøgt på denne måde. I del II undersøger jeg, om VisitDenmarks opgørelse af besøgstal for de 300 mest besøgte attraktioner stemmer overens med Benfords lov. I del III drejer det sig om Trafik-, Bygge- og Boligstyrelsens tal for passager på danske togstationer og styrelsens forudsigelser for disse tal i frem mod 2032. Del IV beskæftiger sig med tal for besøgende i kirker på Fyn.

Benfords lov er et stort emne i videnskabelig litteratur, og der sker en del forskning omkring den. Jeg har ikke engang skrabet overfladen i dette indlæg. Hvis du vil vide mere om Benfords lov, kan jeg anbefale følgende, som også er kilder til dette indlæg:

Wikipedia
Benford Online Bibliography
Testing Benford’s Law
I’ve Got Your Number af fraud detector Mark Nigrini
Understanding and Applying Benford’s Law

Happy googling.

Kommentarer er velkomne – på LinkedIn eller Twitter.