3-09 Waste Not – Skarpskytten fra Texas
Der optrådte en del matematik her. Ikke alt var relevant for opklaringen, men pyt.
Charlie nævnte Skarpskytten fra Texas som et eksempel på, at der altid vil være områder med højere forekomst af forskellige sygdomme end andre områder, men det behøver ikke at være tegn på, at der er noget galt i det område – det var der så her, men der var også rigtig mange flere kræfttilfælde blandt børnene. Og det var der på alle de skoler, hvor det fordækte firma havde lavet skolegård.
Charlie og Larry lavede seismisk undersøgelse af området under skolegården. Det er der også meget matematik i. Det er et inverst problem – vi aflæser noget på overfladen og forsøger at regne ud, hvordan undergrunden ser ud.
Charlie, Larry og Amita havde fået ny institutleder, Mildred Finch. Hun havde arbejdet på AMANDA, hvor man kigger efter neutrinoer (Antarctic Muon And Neutrino Detector Array) ved at se efter muoner, som dannes, når neutrinoer reagerer med noget andet. Man kan nemlig ikke måle neutrinoer. I øvrigt mente hun, Charlie skulle være instituttets Sean Connery og tiltrække nye PhD-studerende(???). Mon ikke hun reviderer det til Daniel Craig, når hun har set den seneste James Bond film… Man kunne skrive meget om hendes forsøg på at tage Amita under sine vinger. Der har været en del diskussion i USA om, at Amita er lidt for meget underlagt Charlie, og at det er rigtig skidt for en kvindelig PhD ikke at løsrive sig, fordi alle så tror, at det er manden i samarbejdet, der har lavet det svære. Måske har producerne læst kritikken. Jeg ved ikke helt, hvad man skal mene om den diskussion; så den lader jeg ligge her.
Skarpskytten fra Texas og kræftklynger
Skarpskytten fra Texas refererer til en meget almindelig fejlanvendelse af statistik. Bemeldte mand i Texas skyder mod sin lade og tegner derefter en skydeskive rundt om det område, hvor han har ramt mest. Så erklærer han sig selv for Texas’ skarpskytte.
Se det kan de fleste nok gennemskue problemet i, men hvad med følgende: Man tæller antallet af kræfttilfælde i Horsens, Kolding, Vejle og Fredericia. I Fredericia er der flest. Og der er flere, end det er sandsynligt at finde, hvis man tilfældigt vælger en af de fire byer og tæller kræftforekomster. Men det er heller ikke det, man har gjort. Man har på forhånd udvalgt den med flest. Så det, man skal overveje, er, hvad sandsynligheden er for, at den by med størst hyppighed har netop den hyppighed. Og det er jo noget andet. Det gav anledning til ophidsede diskussioner i Ugeskrift for Læger i 70’erne. Statistikken siger, at der ikke er markant flere kræfttilfælde i Fredericia i den undersøgelse, hvis man regner det rigtigt ud.
Lad os tage et lidt simplere eksempel:
Lad os antage, fødsler er fordelt jævnt hen over året, og vi har 480 patienter med skæve tæer født i perioden 1990 til 95. Hvis det nu viser sig, at der er flest født i juni, nemlig 55, er det så påfaldende? Hvis de var helt jævnt fordelt, ville der jo være 40 i hver måned.
Hvis jeg tager en tilfældig måned ud og spørger, hvad sandsynligheden er for, at der er netop 55 med skæve tæer født i den måned, forudsat alle fødselsdatoer er lige sandsynlige ikke bare for den generelle befolkning, men også for dem med skæve tæer. Så er udregningen
[tex]C(480,55)(1/12)^{55}(1-1/12)^{(480-55)}[/tex]
hvor C(480,55) er binomialkoefficienten, antal måder, man kan tage 55 ud af 480. Det udregnes
[tex]frac{480!}{55!(480-55)!}[/tex]
Jeg får 0,0035, og det er jo ikke meget. Sandsynligheden for, at der er 55 eller flere i en tilfældig måned er 0,0106.
Hvis jeg havde spurgt om sandsynligheden for, at der er 55 eller flere i den måned, hvor der er flest, ser udregningen anderledes ud. Det er faktisk ret besværligt, fordi antallet i de enkelte måneder ikke er uafhængige, når jeg antager, der er 480 i alt. Så man skal sno sig (tilnærme med en poissonfordeling med parameter 40 for dem, der vil prøve selv).
Med en poissonfordeling er sandsynligheden 0,014 for, at der i en tilfældig måned er mindst 55. (Brug for eksempel Poissonregnemaskinen her)
Sandsynligheden for, at der er mindst 55 i den måned, hvor der er flest, er 0,156, altså 15,6%
(udregnes som P(max er mindst 55)=1-P(max<55)= 1-(P(færre end 55 i en tilfældig måned)^12))
I statistiske testmetoder har man kriterier for, hvornår en hypotese kan forkastes udfra et sæt data. Man ser på sandsynligheden for at få de data eller noget, der anses for “værre” (55 eller flere med skæve tæer) forudsat, at hypotesen holder. Kan man så forkaste hypotesen om, at dem med skæve tæer fødes jævnt hen over året, udfra ovennævnte resultat? Næppe. 15,6% er en stor sandsynlighed, og overhovedet ikke nok til at forkaste hypotesen. Havde man fejlagtigt brugt de 1,4% ville man nok have forkastet hypotesen.