Hoe voorspelt dominee Bayes ongelukken?

Tijdens een fietsvakantie in Frankrijk trof ik eens een camping waar ik na een warme dag een cola light bestelde. De dame in de kantine antwoordde tot mijn verbijstering dat ze geen cola light verkocht omdat ze al twee fietsers kende die ook cola light dronken en overleden waren.

Het bracht me op de vraag of je de kans kunt berekenen dat iemand die aan cola light overlijdt een fietser is?

Predikant Bayes

Voor het antwoord hebben we Engelse wiskundige en predikant Dominee Thomas Bayes nodig [Bayes, 1763]. Die bedacht een stelling over kansrekening die later door Pierre-Simon Laplace in 1771 als stelling van Bayes werd geformuleerd, en sindsdien nog altijd veel gebruikt wordt (er worden zelfs T-shirts van verkocht).

Om het te begrijpen noteren we de kans P dat A waar als B waar is als P(A|B), dit wordt ook wel een voorwaardelijke kans genoemd.

De stelling van Bayes zegt dat de kans P(A) dat iemand A heet × de kans P(B|A) dat die B zegt exact even groot is als de kans P(B) dat iemand B zegt × de kans P(A|B) dat een B-zegger A heet.

In andere woorden:

P(A) × P(B|A) = P(B) × P(A|B).

Dit wordt ook wel de omkeerformule genoemd omdat als je weet hoeveel A-namen en hoeveel B-zeggers er voorkomen de éne voorwaardelijke kans uit de andere uit te rekenen is, bijvoorbeeld P(B|A) = P(A|B) × P(B)/P(A).


Voorbeeldje over dopinggebruik

Soms is Bayes heel tegenintuitief. Stel dat 10% van het wielerpeloton doping gebruikt, dus P(D)=10%. En dat je een doping test hebt die bij 98% van die dopinggebruikers rood uitslaat, dus P(R|D)=98%.

Hoe groot is dan de 'omgekeerde’ kans P(D|R) dat iemand bij een rode uitslag ook daadwerkelijk doping gebruikt?

Dominee Bayes zou het geweten hebben: P(D|R) = P(R|D) x P(D)/P(R). En P(R) is de kans dat een doping test rood uitslaat: dat gebeurt bij 98% van de doping-gebruikers en in 10% van de niet-doping gebruikers, bij elkaar dus bij 19% van alle wielrenners. Dan wordt P(D|R) = 98% x 10% / 19% = 52%.

Dus ondanks dat de test voor doping gebruikers 98% correct is, is omgekeerd de kans bij een rode uitslag slechts 52% dat het daadwerkelijk een dopinggebruiker betreft!

Je kunt je voorstellen dat mensen die dit niet weten als snel denken dat een rode uitslag doping betekent. Onvoldoende kennis van kansrekening kan leiden tot veel misverstanden!


Referenties


Thomas Bayes (1763). An Essay towards solving a Problem in the Doctrine of Chances.

Hoeveel van de verkeersslachtoffers is fietser?

We kunnen Bayes ook mooi gebruiken om de kans P(S|F) uit te rekenen dat een fietser slachtoffer met letsel wordt van een verkeersongeval, wanneer we weten wat de omgekeerde kans P(F|S) is dat bij een verkeersongeluk het slachtoffer een fietser is.

Eerst maar eens wat statistieken. Laat ik vooraf zeggen dat ik best veel aannames doe om tot een eenvoudig antwoord te komen. Maar het gaat om het idee.

Nederlanders legden in eigen land in 2017 jaarlijks 194 miljard km af: 71% daarvan met de auto, 9% met de trein, 8% fietsend*, 3% met bus, tram en metro, 3% lopend en 6% anders (brom/snorfiets, motor e.d.) [CBS].

Om te bereken hoeveel reizigers er met een bepaalde vervoersvorm aan het verkeer deelnemen moet je voor elke vervoersvorm het totaal aantal kilometers per jaar nog delen door de gemiddelde snelheid van die vervoersvorm.

Het aantal fietsers in het verkeer blijkt dat 14% van het geheel te zijn. Dus de kans P(F) dat een verkeersdeelnemer een fietser is is 14%.

In 2017 had Nederland 17.3 mln inwoners, en hadden 230.000 mensen in Nederland een verkeersongeval met letsel, waarvan 15% aan knie, 14% aan hoofd [Van der Roes, 2017]. De kans P(S) op slachtoffer (S) zijn is dus 1.3%.

Overigens was de man/vrouw verhouding 46/54%, wat met medeneming van het aantal reizigerskilometers betekent: 16 verkeersongevallen per 10 mln km voor vrouwen tegen 10 voor mannen.

Op de ‘Spoed Eisende Hulp’-afdeling waren in alle leeftijdscategorieën de fietsers de meest voorkomende slachtoffers van verkeersongevallen (50% gewone fiets, 9% elektrische fiets).

Dus is de kans P(F|S) dat een slachtoffer een fietser is opgeteld 59%.

We hebben nu genoeg gegevens om uit te rekenen wat de kans P(S|F) is dat je slachtoffer wordt van een verkeersongeval als je een fietser bent. Want volgens de stelling van Bayes is :

P(S|F) = P(F|S) × P(S) / P(F) = 59% × 1.3% / 14% = 5.6%.

Dus van alle slachtoffers is 59% fietser, maar volgens de omkeerformule van Bayes is van alle fietsers 5.6% slachtoffer van een verkeersongeval.


* Zo’n 84% van de Nederlanders heeft één of meer fietsen. Gemiddeld maakt een Nederlander ieder jaar 300 fietsritten, bij elkaar goed voor zo'n 880km [FIETSERS-BOND].


Referenties


CBS: http://statline.cbs.nl/Statweb/publication/?DM=SLNL&PA=83497ned&D1=0&D2=a&D3=0,6,11,13&D4=a&VW=T
Henrike van der Roes et al (2019). Verkeersongevallen 2017. Rapport 768, VeiligheidNL. file:///C:/Users/pjwer/Downloads/Cijferrapportage%20verkeer%202017.pdf
https://www.fietsersbond.nl/ons-werk/mobiliteit/fietsen-cijfers/