Dette er del III om Benfords lov. Se del I for introduktiondel II om VisitDenmarks besøgstal for attraktioner og del IV om antal kirkegængere i Fyens Stift.

Trafik-, Bygge- og Boligstyrelsen sendte i november 2017 Trafikplan for den statslige jernbane 2017-2032 i høring. Bilag 1 til trafikplanen indeholder tal for passagerudvikling pr. station for perioden 2015-2032 med forudsigelser for 2022, 2027 og 2032 for henholdvis hverdag og på årsbasis.

Tabel 1

For at begrænse mig, vil jeg se på talsættet for hverdag 2015 og for hverdag 2032. Så kan vi måske få en idé om, hvor gode Trafik-, Bygge- og Boligstyrelsen er til at tælle i dag, og hvor gode de er til at forudsige udviklingen frem mod 2032.

Bør tallene for passagerer følge Benfords lov? Umiddelbart ja, idet:

– Tallene må formodes være fortløbende fra første passager på stationen den dag. Det vil sige, at første passager efterfølges af den næste, som efterfølges af den tredje besøgende og så videre. Passagerer kan selvfølgelig ankomme samtidigt på stationen, men det ændrer ikke på, at tallene må være fortløbende.
– Der er i praksis ikke et maksimum for, hvor mange passager, en station kan have i løbet af en dag.

Men der er imidlertid er forhold, der taler imod:
– Tallene er afrundet til hele hundreder. Derfor formodes kun tal for første ciffer at følge Benfords lov.
– Antallet af observationer er på knap 300. Det er i den lave ende, af hvad der skal til, for at kunne vurdere, om talsættet følger Benfords lov.

Lad os se på tallene for 1. ciffer:

Graf 1, hverdag 2015, p-værdi 0,12 procent

Graf 2, hverdag 2032, p-værdi 4,2 procent

Der ses en nedadgående tendens for begge årstal, men p-værdierne indikerer, at talsættene ikke følger Benfords lov. Der er især udsving for tallet 5 for begge årstal.

Så hvad foregår der? Det er svært at sige. Trafik-, Bygge- og Boligstyrelse oplyser i trafikplanen, at passagertallene for 2015 tager udgangspunkt i en såkaldt observeret OD matrix. Det er en stationsmatrix for det statslige jernbanenet opstillet af Trafik-, Bygge- og Boligstyrelsen. OD-matricen omfatter ikke solorejser med metro, privatbaner eller SJ (svensk togselskab). OD-matricen repræsenterer den samlede rejse, men ved skift til metro eller privatbane er skiftestationen anvendt. Data vedrørende fjern- og regionalstrækninger er baseret på billetsalg samt modelberegninger for lokale rejser og frirejser. Data vedrørende S-banen samt Kyst- og Kastrupbanen er baseret på tællesystemer og briktællinger. OD-matricen for 2015 er symmetriceret.

Lad os se på, hvad en OD matrix er. OD står for Oprindelse Destination, det vil sige “til” og “fra”, og en matrix er til vores formål her en tabel med lige mange rækker og kolonner. En OD tabel viser, hvor mange passager, der rejser fra et sted til et andet sted. For eksempel, hvis vi har tre byer Andeby, Gåserød og Kalkunkøbing, så kan vi blandt andet rejse fra Andeby til Gåserød og vi kan rejse fra Andeby til Kalkunkøbing. Det er illustreret i Tabel 2:

Tabel 2

I eksemplet i Tabel 2 er der 160 personer, der rejser fra Andeby til Gåserød og 180 personer, der rejser fra Andeby til Kalkunkøbing.

Rejser kan også foregå fra Gåserød til Andeby og Kalkunkøbing, og de kan foregå fra Kalkunkøbing til Andeby og Gåserød. Dette er illustreret i Tabel 3 og Tabel 4.

Tabel 3

Tabel 4

De tre tabeller kan sammenstilles i én tabel. Dette er gjort med Tabel 5.

Tabel 5

Her antager vi, at der ikke er rejsende, der rejser fra en station til den samme station, fx fra Andeby til Andeby.

Vender vi tilbage til matematikken og kalder Tabel 5 for en matrix, ses det, at matricen ikke er symmetrisk. På matematisk er en symmetrisk matrix en matrix, som er sin egen transponeret (For en n x n matrix A, er AT=A). Det betyder, at tallene i den nederste halvdel skal være identiske med tallene i den øverste halvdel og på bestemte pladser i matricen. Det er de ikke her. En symmetrisk matrix med udgangspunkt i Tabel 5 kunne se ud som den, der er vist med Tabel 6.

Tabel 6

Her har jeg blot erstattet tallene i nederste halvdel af Tabel 5 med tallene i øverste halvdel af Tabel 5, således at “Fra Andeby Til Gåserød” er det samme som “Fra Gåserød til Andeby” og så videre for muligheder for byerne.

Det er næppe sådan Trafik-, Bygge- og Boligstyrelsen har gjort det eller har “symmetriceret” matricen, som de skriver. Men jeg ved det ikke, for de skriver ikke yderligere. Der er dog mange andre muligheder hvorpå en matrix kan gøres symmetrisk, hvis man vil.

Det vigtige her er, at processen med at gøre matricen symmetrisk er en potentiel kilde til at skubbe passagertallene længere væk fra den fordeling, som Benfords lov tilsiger.

OD-matricen er ikke det eneste, der er svært at gennemskue. Briktælling er en måde at undersøge passagers rejsemønstre, hvor der uddeles og indsamles brikker til og fra passagerer. Tællesystemer optræder i forskellige former. For S-tog tælles passagererne dels ved at veje toget, og dels ved at tællesensorer ved alle døre tæller de passagerer, der går ud og ind. I metroen tælles alle passagerer, når de går ind i metroen ved, at et målesystem registrerer varmen fra et menneske, når enheden passeres. Varmemålerne sidder over dørene på stationerne, så passageren tælles med, når vedkommende stiger på toget. Når Trafik-, Bygge- og Boligstyrelsen oplyser, at data vedrørende fjern- og regionalstrækninger er baseret på billetsalg samt modelberegninger for lokale rejser og frirejser, er det svært at gennemskue, og det lyder som endnu en potentiel kilde til at skubbe fordelingen af passagertal væk fra Benfords lov.

Der er noget i vejen et eller andet sted. Det kan være det lave antal observationer, men det virker voldsomt, at det skulle give disse afvigelser. Det kan også være den statistiske test, der ikke er stærk nok. Det er også sandsynligt, at der i metoden til at producere tallene er foretaget valg, der gør, at talsættet ikke følger Benfords lov bedre.

Under alle omstændigheder er det en anledning for Trafik-, Bygge- og Boligstyrelsen at eftertjekke sin model for mulige fejlkilder for passagertal for stationer og eventuelt gøre processen mere gennemskuelig. Tallene bør følge Benfords lov (bedre), og styrelsen vil givetvis kunne komme væsentlig tættere på en forklaring for afvigelsen, end den jeg er i stand til for nærværende.

Full disclosure: Jeg var ansat i Trafikstyrelsens sekretariat for Jernbanenævnet i perioden 2012-2015. Jeg havde ikke noget med passagertal på stationer at gøre.

Kommentarer er velkomne – på LinkedIn eller Twitter.