Dette er Numb3rs afsnit nummer 100. (Og i øvrigt blogindlæg nummer 198!!!) Det blev fejret med en del tilbageblik, mange henvisninger til tidligere afsnit – især det allerførste – og ikke mindst en virkelig ækel seriemorder.
Ved optagelserne fejrede skuespillerne jubilæet og ifølge New York Daily News var Stephen Hawking på besøg. Han blev tilbudt at gæsteoptræde og ville gerne, men det var umuligt at få en arbejdstilladelse til ham med så kort frist…
Matematikken var bl.a. Rum-tids clustering analyse og geografisk profilering, som ihærdige bloglæsere vil huske fra tidligere. Allerede det første afsnit af serien.
Rum-tids clustering analyse (Spatio-temporal clustering analysis)
Charlie fandt ud af, at der var en seriemorder på spil, fordi der var påfaldende mange drab i et område indenfor et (kortere) tidsrum. Faktisk var det tre forskellige områder og tre forskellige tidsrum, hvilket indikerede, at morderen havde skiftet område (eller det kunne vel være en anden, der var på spil, men det var det ikke).
Teknikken bruges i epidemiologi: Hvis mange flere end vanligt bliver syge indenfor et lille område og indenfor et lille tidsinterval, er der muligvis udbrudt en epidemi i det område. Pointen er, at man ikke bare kan se på stedet, men også skal have tiden med. Man kan se på det som små områder af rum-tid. Er stedet kortlagt ved geografiske koordinater, giver det to koordinater, og tiden giver en tredje koordinat. Har man stedet som en rumlig koordinat (hvis man studerer noget i universet eller måske i havet, så det ikke er fladt) så bliver der ialt 4 koordinater. (x,y,z,t), hvor t er tiden.
Overvågning af sygdomsdata er en stor opgave, og det er væsentligt at slå alarm tidligt nok, men samtidig ikke at slå alarm, hvis der ikke er et problem. Man monitorereren række sygdomme, og lægerne har pligt til at anmelde visse sygdomstilfælde til Sundhedsstyrelsen. (Aids, miltbrand, botulisme, Creutzfeldt Jacob, Difteri, Hepatitis A, B og C, Hæmolytisk Uræmisk syndrom, Hæmorrhagisk feber, Kolera, Legionella, Lepra, Leptospirose, Levnedsmiddelbårne sygdomme, Meningokoksygdomme, Purulent meningitis, Morbili, Neuroborreliose, Ornitose, Paratyfus, Pest, Plettyfus, Rabies, Rubella (Røde hunde), Shegella dysenteri, Tetanus (stivkrampe), Tuberkulose, Tussis Convulsiva, Tyfus, Vandbårne sygdomme, Verotoksinproducerende bakterier (bl.a. E Coli))
Men hvornår er der så en epidemi på vej? Man har data med plane koordinater og tidspunkt (x,y,t) (Her er (x,y) koordinaten formentlig i det danske koordinatnet, som Kort og Matrikelstyrelsen leverer). To punkter (x1,y1,t1) og (x2,y2,t2) er tæt på hinanden, hvis d=(x1-x2)^2+(y1-y2)^2 er lille OG hvis e=(t1-t2)^2 er lille. Sætter man en fast grænse d<4 og e<3 udgør punkter, der er mindst så tæt på et fast punkt, (x,y,t) en cylinder med radius 2 (kvadratroden af 4) og højde 6 (3 over t og 3 under t).
Nu skal man så gennemsøge sine data med cylinderen som “målebæger”: Er der steder, hvor der er mange punkter indenfor min cylinder? Det vil være en “cluster” – en sammenklumpning af data.
Der er straks noget at overveje: Hvor mange er mange? Lad os sige, vi finder et sted, hvor cylinderen indeholder 50 tilfælde. Er det mange? Det er statistik, så spørgsmålet er i virkeligheden Hvor mange er usædvanligt mange? Og mere præcist: Hvor sandsynligt er det at se så mange (eller flere) ved en tilfældighed, selvom der ikke er en epidemi?
Her er et eksempel – fra artiklen Using geographic information systems and spatial and space-time scan statistics for a population-based risk analysis of the 2002 equine West Nile epidemic in six contiguous regions of Texas af Min Lian, Ronald D Warnerl, James L Alexander og Kenneth R Dixon. International Journal of Healthgeographics. Den er publiceret under Creative Commons, så jeg må citere fra den, når jeg husker at referere tilbage til artiklen.
Figure 3.
Det er data for heste i Texas, der får West Nile Virus. Den blå og grønne kurve er to udbruds udbredelse som tiden går (de går opad) og geografisk.
Figure 4.
Her er Cluster analysen af disse data. Forfatterne skriver:
Lian et al. International Journal of Health Geographics 2007 6:42 doi:10.1186/1476-072X-6-42″
For hver rød klat er i den gule kasse registreret
Perioden – i den nederste står 9.24-10.7 i.e. 24/9-7/10
Radius af området – i den nederste 28,59 km
Observerede/forventede tilfælde i den “cylinder” – den nederste: 25 observerede og 9 forventede.
Og p-værdien for at afvise nulhypotesen – at der ikke er en epidemi. Det er sandsynligheden for at se så mange eller flere tilfælde i en cylinder på den størrelse, hvis der IKKE er en epidemi.