5-22 Greatest hits.

Det bliver et kort indlæg. Som tidligere annonceret, har jeg mindre tid til arbejdet med bloggen.

Jeg så i øvrigt heller ikke meget matematik i dette afsnit: Der var en søgealgoritme til at matche metoder ved røverier – som fandt, at der var en del gentagelser af uopklarede røverier. Jeg så et “Heuristic anomaly detection scheme” – med henblik på at se, om der var en systematisk forskel på de første udgaver af røverierne og de moderne gentagelser (Charlie sammenlignede med at finde en kopimaskines karakteristika.)

En anomali er en afvigelse fra det “normale” – det sædvanlige. At opdage den slags er en væsentlig del af f.eks. netsikkerhed; Sker der noget usædvanligt, kan det skyldes, at der er atypiske brugere uden rent mel i posen. Man kan f.eks. se, om nye programmer overholder spillereglerne (Internetprotokollen eller andet), eller de afviger, og dermed få mistanke om virus. “How antivirus Works” på technodope.

Nu er så spørgsmålet; hvad er det “normale”, og hvor meget skal man afvige, for at der slås alarm? En flittig læser vil nok have gættet, at dette kræver statistik – hvad vil vi forvente, og har vi set noget usædvanligt. Begge dele er overvejelser, der hører hjemme i statistik. Faktisk var det jo også den slags overvejelser, der lå bag cluster analysen, som vi så i sidste uge.

Charlie sagde, at det drejede sig om at finde afvigelser fra et mønster og ikke at finde mønstre. Men i virkeligheden skal man jo så først have et mønster, der kan afviges fra. Hvis det drejer sig om en kopi – af et røveri eller måske i en kopimaskine er det lettere at se, hvad der er en afvigelse. Men hvor stor skal den så være, for at det er påfaldende?

Mere i næste uge, hvor vi forhåbenlig også får Amita hjem igen.

Posted in Blog | Leave a comment

5-21 Disturbed. Afsnit 100 af Numb3rs!!!

Dette er Numb3rs afsnit nummer 100. (Og i øvrigt blogindlæg nummer 198!!!) Det blev fejret med en del tilbageblik, mange henvisninger til tidligere afsnit – især det allerførste – og ikke mindst en virkelig ækel seriemorder.
Ved optagelserne fejrede skuespillerne jubilæet og ifølge New York Daily News var Stephen Hawking på besøg. Han blev tilbudt at gæsteoptræde og ville gerne, men det var umuligt at få en arbejdstilladelse til ham med så kort frist…
Matematikken var bl.a. Rum-tids clustering analyse og geografisk profilering, som ihærdige bloglæsere vil huske fra tidligere. Allerede det første afsnit af serien.

Rum-tids clustering analyse (Spatio-temporal clustering analysis)
Charlie fandt ud af, at der var en seriemorder på spil, fordi der var påfaldende mange drab i et område indenfor et (kortere) tidsrum. Faktisk var det tre forskellige områder og tre forskellige tidsrum, hvilket indikerede, at morderen havde skiftet område (eller det kunne vel være en anden, der var på spil, men det var det ikke).
Teknikken bruges i epidemiologi: Hvis mange flere end vanligt bliver syge indenfor et lille område og indenfor et lille tidsinterval, er der muligvis udbrudt en epidemi i det område. Pointen er, at man ikke bare kan se på stedet, men også skal have tiden med. Man kan se på det som små områder af rum-tid. Er stedet kortlagt ved geografiske koordinater, giver det to koordinater, og tiden giver en tredje koordinat. Har man stedet som en rumlig koordinat (hvis man studerer noget i universet eller måske i havet, så det ikke er fladt) så bliver der ialt 4 koordinater. (x,y,z,t), hvor t er tiden.
Overvågning af sygdomsdata er en stor opgave, og det er væsentligt at slå alarm tidligt nok, men samtidig ikke at slå alarm, hvis der ikke er et problem. Man monitorereren række sygdomme, og lægerne har pligt til at anmelde visse sygdomstilfælde til Sundhedsstyrelsen. (Aids, miltbrand, botulisme, Creutzfeldt Jacob, Difteri, Hepatitis A, B og C, Hæmolytisk Uræmisk syndrom, Hæmorrhagisk feber, Kolera, Legionella, Lepra, Leptospirose, Levnedsmiddelbårne sygdomme, Meningokoksygdomme, Purulent meningitis, Morbili, Neuroborreliose, Ornitose, Paratyfus, Pest, Plettyfus, Rabies, Rubella (Røde hunde), Shegella dysenteri, Tetanus (stivkrampe), Tuberkulose, Tussis Convulsiva, Tyfus, Vandbårne sygdomme, Verotoksinproducerende bakterier (bl.a. E Coli))
Men hvornår er der så en epidemi på vej? Man har data med plane koordinater og tidspunkt (x,y,t) (Her er (x,y) koordinaten formentlig i det danske koordinatnet, som Kort og Matrikelstyrelsen leverer). To punkter (x1,y1,t1) og (x2,y2,t2) er tæt på hinanden, hvis d=(x1-x2)^2+(y1-y2)^2 er lille OG hvis e=(t1-t2)^2 er lille. Sætter man en fast grænse d<4 og e<3 udgør punkter, der er mindst så tæt på et fast punkt, (x,y,t) en cylinder med radius 2 (kvadratroden af 4) og højde 6 (3 over t og 3 under t).
Nu skal man så gennemsøge sine data med cylinderen som “målebæger”: Er der steder, hvor der er mange punkter indenfor min cylinder? Det vil være en “cluster” – en sammenklumpning af data.
Der er straks noget at overveje: Hvor mange er mange? Lad os sige, vi finder et sted, hvor cylinderen indeholder 50 tilfælde. Er det mange? Det er statistik, så spørgsmålet er i virkeligheden Hvor mange er usædvanligt mange? Og mere præcist: Hvor sandsynligt er det at se så mange (eller flere) ved en tilfældighed, selvom der ikke er en epidemi?
Her er et eksempel – fra artiklen Using geographic information systems and spatial and space-time scan statistics for a population-based risk analysis of the 2002 equine West Nile epidemic in six contiguous regions of Texas af Min Lian, Ronald D Warnerl, James L Alexander og Kenneth R Dixon. International Journal of Healthgeographics. Den er publiceret under Creative Commons, så jeg må citere fra den, når jeg husker at referere tilbage til artiklen.

Figure 3.

Det er data for heste i Texas, der får West Nile Virus. Den blå og grønne kurve er to udbruds udbredelse som tiden går (de går opad) og geografisk.

Figure 4.

Her er Cluster analysen af disse data. Forfatterne skriver:

“Space-time clusters of equine WNV cases reported from four of six contiguous Health Service Regions in Texas (HSR 1, 2/3 and 7) in 2002. Each cluster ‘frame’ provides time period of cluster (mm.dd), cluster radius, observed/expected cases, and p-value for rejecting the null hypothesis of no clustering.

Lian et al. International Journal of Health Geographics 2007 6:42   doi:10.1186/1476-072X-6-42″

For hver rød klat er i den gule kasse registreret

Perioden – i den nederste står 9.24-10.7 i.e. 24/9-7/10

Radius af området – i den nederste 28,59 km

Observerede/forventede tilfælde i den “cylinder” – den nederste: 25 observerede og 9 forventede.

Og p-værdien for at afvise nulhypotesen – at der ikke er en epidemi. Det er sandsynligheden for at se så mange eller flere tilfælde i en cylinder på den størrelse, hvis der IKKE er en epidemi.

Posted in Blog | Leave a comment

5-20 The fifth man.

Sikken et afsnit. Don overlevede heldigvis, men det havde vi vist gættet.
Der var matematik, vi har hørt om før: En wavelet baseret algoritme til billedbehandling (brugt på det udtværede fingeraftryk) se f.eks. her og her. Der var noget spilteori, men det var ikke klart, hvad det blev brugt til – det er sædvanligvis noget med at vurdere strategier. Det var i forbindelse med Charlies analyse af den tvivlsomme finansrådgivers kundeliste.
I starten brugte Charlie Voronoidiagrammer for at indsnævre, hvor hjemmerøveriet foregik.


Her er et Voronoi-diagram. Et farvet område svare til de steder, hvor man er tættere på det sorte punkt i dette område end på de andre sorte punkter. Jeg har skrevet om anvendelser tidligere – her. Hvis det var telefonopkald, der skulle pejles, må man have brugt masterne som centerpunkter – en mobiltelefon tager kontakt med de nærmeste master. Men det lyder nu ikke helt smart. Man kan, så vidt jeg ved, pejle meget bedre.

Nøglekopiering:
Der er faktisk et program, der kan kopiere nøgler udfra et billede. Her er en pressemeddelelse fra UC San Diego. Og her er et direkte link til projektet, hvor de har et klip fra dette Numb3rs afsnit. Så de mener nok selv, det er deres teknologi, der henvises til 🙂
Matematikken i det er (bl.a.): Billedet viser nøglen fra en bestemt side, og man skal finde ud af, hvor dybe rillerne faktisk er i virkeligheden. Man skal altså “dreje den tilbage”. Metoden er en homografi:
1) Genkend, hvilken type nøgle, det er. Så ved man præcis, hvordan den ser ud i virkeligheden (uden rillerne). Tag et billede af denne, set direkte fra siden. Kaldet modelbilledet.
2) Marker punkter på billedet af nøglen, der skal kopieres (x1,y1),(x2,y2),…(xn,yn). Og de tilsvarende punkter på modelbilledet (z1,w1),(z2,w2),…(zn,wn)

Det giver en sammenhæng mellem par af punkter. Man skal konstruere den afbildning fra planen til planen, der dels sender (xi,yi) i (wi,zi) for i=1,…n, og desuden faktisk svarer til en transformation mellem to billeder af den samme nøgle. Det sidste er vigtigt. der er jo (uendelig) mange afbildninger, der matcher de kendte par af punkter, men vi begrænser, hvilke afbildninger, der er tilladt. En afbildning mellem to sådanne billeder kaldes en homografi (homography). Her er Wikipedias beskrivelse med formler – det er mest lineær algebra. Det kan blive mere indviklet, hvis kameraet forvansker.
Her er en uddybende forklaring, hvor man bl.a. kan se, at fire par af punkter er nok, da der er 8 frihedsgrader i en homografi.

Posted in Blog | Leave a comment

5-19 Animal Rites.

Larry snakkede om kortblanding og Percy Diaconis (Det har vi haft på bloggen tidligere). Charlie ville spionere på diverse websites og skulle bruge Private Information retrieval (PIR). Der var en schizofren, som havde bifag i matematik og Charlie nævnte en undersøgelse, der viser, at matematiske evner kan være koblet til risikoen for psykotiske lidelser. Man ved, at det også gælder (andre) kreative mennesker.
PIR
PIR er et eksempel på et overordnet spørgsmål i datalogi: En database skal levere en oplysning til en bruger, uden man derefter kan spore i databasen, hvad brugeren ville vide. Hvordan kan det sættes op? Hvor meget fylder en database, der kan gøre det? Hvor meget fylder den information, der skal sendes?

En (ikke effektiv) måde er, at hele databasen sendes til brugeren. Men der er smartere metoder. de bygger typisk på svære matematikproblemer: Hvis databasen skal løse et meget svært matematikproblem for at regne ud, hvad brugeren ville, så er det sikkert. (Og svært betyder, at det vil tage rigtig lang tid for en meget stor computer.) Alle (eller i hvert fald mange af) disse smarte metoder kræver, at man kan lave nondeterministiske algoritmer (brugeren kan slå med en terning).

En klassisk formulering af problemet er: Databasen består af en vektor (x1,x2,x3,…..,xn). Brugeren vil have fat i xi, men databasen må ikke kunne regne ud, hvad i er.
Det symmetriske problem, (Oblivious retrieval): Hvad nu hvis brugeren ikke må se mere af databasen end hun skal bruge? Hvad koster det i plads? Hvor meget skal der sendes. Det er et stort og aktivt område – se f.eks. denne stribe links.

Posted in Blog | Leave a comment

Så starter sæsonen igen!

Kanal 5 blænder op for Crime Scene onsdag 8/9.  Så det er Numb3rs tid igen!

Hvis I vil læse noget om matematikken bag kriminalitetsbekæmpelse, så er der et særnummer af European Journal of Applied Mathematics om netop det.

Her er artiklerne.
En af artiklerne hedder “What every mathematician should know about modelling crime.” Den skal jeg jo nok have læst…
I øvrigt må jeg nok desværre skrue ned for blusset på bloggen. Ingen synes at ville finansiere alle de timer, jeg bruger på det, og det holder jo ikke rigtig i det lange løb. Jeg håber stadig, at nogen kommer til fornuft. Men foreløbig er det mest “fagre ord”.
Så jeg må se, hvor meget, det kan blive til.

Posted in Blog | Leave a comment

Og lidt mere om Fieldsmedaljerne – og Nobelprisen.

Når Fieldsmedaljerne eller Abelprisen uddeles, genopdages de mange myter om, hvorfor der ikke er en Nobelpris i matematik. Flere af dem går på, at Nobel af en eller anden (gerne saftig) grund ikke kunne lide den svenske matematiker Mittag-Leffler.
Den anden, som jeg bl.a. har viderekolporteret, er, at matematikkens natur er på tværs af, hvad Nobel ville give priser for. Og den står jeg gerne fast ved.
Ingen kan jo vide, hvad Nobel virkelig tænkte. Man kan læse kilder, men de er, som man vel kan huske fra historietimerne, ofte farvet af mangt og meget.
Nobel skriver, at pengene
“distributed annually in the form of prizes to those who during the preceding year have conferred the greatest benefit on mankind.”
Fra begyndelsen var der priser i fysik, kemi, fysiologi (medicin), litteratur og fred.
Om litteratur står:
“the person who shall have produced in the field of literature the most outstanding work of an idealistic tendency …”
Om fysik:
“the person who shall have made the most important discovery or invention within the field of physics …”
Om kemi:
“the person who shall have made the most important chemical discovery or improvement …”
Om medicin/fysiologi:
“the person who shall have made the most important discovery within the domain of physiology or medicine …”

Det er altså noget med at gavne menneskeheden. At der er en pris i litteratur gør naturligvis, at argumentet med naturvidenskaberne falder lidt til jorden – men bemærk i øvrigt,at det er idealistiske værker, der tales om.

At der er en pris i medicin og ikke i biologi, kan antyde, at Nobel vil tættere på anvendelserne, som de så ud dengang. Og der ryger matematikken vel ud. Der er naturligvis mange og væsentlige fremskridt, som skyldes matematiske gennembrud – det ved Numb3rsfans jo bedre end de fleste. Men der er ofte et mellemhop i datalogi, kemi, fysik, biologi, medicin,… før det kommer ud og gavner menneskeheden. Teoretisk fysik er jo heller ikke det, der bedst passer til formuleringen ovenfor – det er samme problem som med matematik.

En anden faktor, som nogen påstår kan have haft betydning for Nobel, er, at der i 1889 uddeltes en stor pris til matematikere, Kong Oscars pris. Den gik til Henri Poincare. Men det var en anden type pris, idet der var en prisopgave, som man skulle sende løsninger ind til. (En rigtig fin historie i øvrigt, men den får I ikke nu) Så det er næppe derfor.

Nobel og Mittag-Leffler havde faktisk været uenige om noget med en kvinde, men ikke sådan som myterne siger: Sonja Kovalevskaya blev ansat som professor ved KTH i Stockholm efter en imponerende indsats fra Mittag-Leffler (Det er en længere historie, men der var ikke mange jobmuligheder for kvindelige matematikere). Han havde i 1890 hørt, at hun muligvis kunne fristes af tilbud fra St. Petersborg, og da han samtidig havde hørt, at Nobel ville give en stor sum penge væk, skrev han til Nobel (som var i Paris) og foreslog, at pengene gik til oprettelse af et professorat med en ordentlig løn til Kovalevskaya, som fik 4000 kr, mens de andre professorer fik 7000 kr.

Nobel svarede, at pengene var til hans mors minde og skulle gå til velgørenhed eller et hospital. Og han tilføjede, at Kovalevskaya nok ville være bedre tjent med at være i St Petersborg, hvor fordommene mod kvinder ikke var så voldsomme som i Europa (jeg ved ikke, om han har ret, men det skrev han) Citat fra Arild Stubhaugs bog om Mittag-Leffler: Med Viten og Vilje:

Fra Nobels svar: ” Min tro är, at Fru Kovalevsky, som jeg har den stora äran att personligen känna, passar bättre för Petersburg enn för Stockholm. Fruntimmar finna i Ryssland en vidara horisont, och fördomar – denna Europeiska surdeg – är der reducerade till ett minimum. Fru Kowalevsky  är ej blott utmärkt matematiker, utan dessutom en ytterst begåfvad og sympatisk personlighet, som man väl må önska att ej sitta vingklippt i begränsad bur, Med utmärkt högaktning, vörsammaste A.Nobel”

Stubhaug skriver, at det formentlig aldrig havde været i Nobels tanker at give en pris til matematik (af grundene, jeg skriver om ovenfor). Og iøvrigt drejer striden sig, i fald der er nogen, om en kvindes fremtid og ikke hende gunst. Men i hvert fald var der ingen penge til matematik og i øvrigt heller ingen til KTH. i Nobels testamente. Og det er da træls for matematikerne 🙂

Jeg har endnu ikke læst Stubhaugs bog, som ligger på mit kontor (til låns – tak Martin, også for henvisning til ovenstående), men det må vist blive snart. Mittag-Leffler havde stor indflydelse, og jeg har et par gange haft fornøjelsen af at besøge Mittag-Leffler Instituttet, som er hans gamle villa i Djursholm nord for Stockholm. Det er et dejligt sted, og der er en fantastisk arbejdsro.

Posted in Blog | 1 Comment

Mere om Fieldsmedaljerne

På Plus Magazines fremragende matematikside, kan man læse mere om, hvad matematikken er i Fieldsmedaljevindernes arbejde.

Dynamic Numbers-the Work of Elon Lindenstrauss.

The little lemma that Could. The work of Ngo Bao Chau

A new Phase in Mathematics- the work of Stanislav Smirnov

Things never get simpler. The work of Cedric Villani

Posted in Blog | Leave a comment

Fieldsmedaljerne er uddelt

Numb3rssæsonen er endnu ikke gået igang, men her er en nyhed fra matematikkens verden:
I Hyderabad i Indien afholdes lige nu konferencen ICM (International Congress of Mathematicians), og idag er vinderne af Fieldsmedaljerne blevet afsløret.
Fieldsmedaljen svarer til Nobelprisen (som vi jo ikke har i matematik), men er for unge folk. Modtagerne skal være under 40 år.
Jeg har overhovedet ikke ekspertviden i de områder, priserne er givet til i år, men lad mig vove det ene øje.
Overordnet set er det tit resultater, der går på tværs af matematiske områder. Det er tit der, der sker store gennembrud.
I år gik den til
Elon Lindenstrauss for dels dybe og væsentlige resultater indenfor området ergode-teori og desuden anvendelser af disse resultater på problemer fra klassisk talteori, et helt andet område.
Ngô Bảo Châu for beviset for et fundamentalt resultat, som har været en formodning i mange år. Det er en del af “Langlandsprogrammet”, som går på tværs af bl.a. områderne gruppeteori og algebraisk geometri. Beviset har krævet indtroduktion af helt nye metoder i feltet.
Stanislav Smirnov for beviset for et resultat i statistisk fysik: At visse modeller har en indre symmetri (er konformt invariante). Resultatet giver fast grund under fødderne til vigtige anvendelser i statistisk fysik. Det har noget med perkolationsteori og faseovergange at gøre – det har jeg haft på bloggen her
Cédric Villani for et resultat om gassers opførsel. I termodynamik betragter man gasser ud fra statistiske modeller. I stedet for at se på et molekyle ad gangen, ser man på sandsynligheden for, at der vil være en partikel i et bestemt område af rummet. Man har i mange år haft styr på situationen, når systemet er i ligevægt – har stået og passet sig selv et stykke tid. Men det er notorisk vanskeligt at regne på, hvor lang tid der går, før ligevægten er etableret, når man har forstyrret systemet. Villani har givet resultater om denne “konvergensrate”, når man starter meget langt fra ligevægt. Desuden har han en stribe andre bidrag til bl.a plasmafysik.

Se mere på ICM‘s annoncering af priserne.

Desuden uddeltes Nevanlinna prisen, som gives til området teoretisk datalogi (eller måske mere præcist grænseområdet mellem matematik og datalogi – det er ikke helt veldefineret) , til Daniel Spielman for arbejde dels med at forstå, hvorfor visse algoritmer virker særdeles effektivt det meste af tiden, selvom de i princippet ind imellem burde tage meget lang tid. Det handler om kompleksitetsteori og algoritmerne, der tænkes på her er f.eks. lineær programmering. Dels for kodningsteoriresultater. Om at sørge for at “pakke data ind”, så det når frem trods støj på linjen. Det har vi haft tidligere på bloggen: her for eksempel.
Gauss prisen gives for anvendt matematik og gik til Yves Meyer for bidrag til talteori, operatorteori og harmonisk analyse, herunder især wavelets. Wavelets er fundamentale i billedbehandling og har været på bloggen her og her.

Chern-medaljen gik til Louis Nirenberg for hans rolle i formuleringen af den moderne teori for ikke-lineære elliptiske partielle differentialligninger og rollen som mentor for et stort antal studerende og post docs i området.

Chern-medaljen uddeles for første gang i år. Den gives for en livslang væsentlig indsats. Modtageren får 500 000 dollars, hvoraf halvdelen skal gives til organisationer, der støtter forskning, undervisning, formidling eller andre aktiviteter, der kan fremme matematikken.

Posted in Blog | Leave a comment

Sommerferie

Numb3rs holder sommerferie, så vidt jeg kan se på Kanal 5’s hjemmeside.

Der er masser af matematiklinks, man kan hygge sig med i sommerferien, men først lige en opfordring: Er du dygtig til matematik, så læs vores fag. Det er et fag med masser af muligheder. Vil du læse hos os i Aalborg, så må du gerne sende mig en mail og spørge nærmere om mulighederne: Applied Math, statistik, matematik-økonomi, gymnasielærer,…
Jeg kan i øvrigt også henvise til de andre universiteter. Vi kender hinanden godt.

Her er en stribe gode links:
Understanding Uncertainty om brug og misbrug af statistik.
Plus magazine

Mathematik – på tysk, men rigtig god, hvis man kan læse det 🙂
Mathematics is Wonderful En britisk side med interviews og diverse. Jeg har lige fundet den, så jeg kender den ikke så godt endnu.
Univ. og Bristol Om matematik og kreativitet. Videoer med interviewklip. Kan stærkt anbefales.

Posted in Blog | Leave a comment

5-18 12:01 AM

Det var dog et ubehageligt Numb3rs- afsnit. Med en undertone af, at det var godt, de nåede at tage livet af den dødsdømte, inden Don og co. kunne bevise, han var dømt for noget, han ikke havde gjort.

Nå, men matematikken: Der var noget om at finde noget utydeligt skrevet ved at bruge Gaussisk “Blur”(Gaussisk filter). Der var en oversættelse fra et fodaftryk til højde og drøjde af den, der havde sat det. Om analyse af talemønster for at afsløre løgn. Om DNA-analyse. Og en hel del basketball-matematik.

DNA-analyse

DNA-analyse bruges meget i opklaring af forbrydelser. (Og i f.eks. faderskabssager, til at forudsige arvelige sygdomme og meget andet). Og der skrives mange tvivlsomme tal i den forbindelse a la “sandsynligheden for, at han ikke har gjort det, er 1:1.000.000”.

En DNA analyse af et spor i en forbrydelse er en analyse af nogle kortere stykker et antal steder (loci) på DNA – lige nu er det i Danmark 10-15 steder. Det er altså ikke hele DNA, man ser på.

Her er et kromosom. Fra Wikipedia. Jeg mener, det er ved at dele sig i to, men det må I spørge en biolog om…

 

Og her er ale kromosomerne hos en mand. Der er 23 par. Et sted kunne så f.eks. være på kromosom nummer 10.

Hvert af disse steder på DNA består af en række gentagelser (Short Tandem Repeats, STR)  af nogle kortere stykker (et kort stykke er 4 basepar – eksempelvis AGCT). Der er to parallelle steder (fra mor og fra far), så man får to tal, eksempelvis 11,12 for et af disse steder; svarende til 11 STR i den ene side og 12 i den anden.

For en person, Kurt, har man altså 10 sådanne par (eller flere, men lad os sige 10). Og man har et spor fra gerningsstedet- lad os sig blod- som man også analyserer. Hvis bare et af talparrene fra sporet IKKE matcher det tilsvarende fra Kurt, kan man afvise, at det er Kurts blod. (OBS: Parret (11,12) og parret (12,11) er i denne sammenhæng ens.) Her kan man naturligvis have fejl i analysen, så det alligevel er Kurt, så man skal passe på med at drage konklusioner alene udfra DNA.

Hvad nu, hvis de er ens. Er det så sikkert, at det er Kurts blod? Nej! Men man kan udtale sig om sandsynligheder. Man kan for eksempel spørge, hvor sandsynligt det er, at en tilfældig anden person matcher sporet. Og nu bliver det vanskeligt, for hvad er en tilfældig anden person? Disse tal kender man for f.eks. Danmarks befolkning – eller rettere, man har jo ikke DNA-testet os allesammen, så man har estimater for fordelingen i befolkningen.

Lad os nu sige, at der er sandsynlighed 1:1.000.000 for, at en tilfældig person har det fundne DNA. Hvis vi nu ikke har anden grund til at tro, det er Kurt, der har gjort det, end at hans DNA matcher, og det lige så godt kunne have været en hvilken som helst anden dansker, så kan vi næppe dømme ham på dette grundlag. For vi er jo 5 millioner, og der kunne jo så nemt være 4 andre, der havde denne profil. Men der er forhåbentlig andre grunde til, at vi tror, det er ham. Og disse bliver så støttet af DNA analysen.

Omvendt kan man overhovedet ikke sige, der er sandsynlighed 1:1.000.000 for, at det ikke er Kurt (og dermed 99,9999 % sandsynlighed for, at han har gjort det. Det er noget virkelig gedigent vrøvl. Tallet 1:1.000.000 er sandsynligheden for at finde dette blodspor givet det ikke er Kurt, der har gjort det. (Og at det lige så vel kunne være en hvilken som helst anden.)

Med formler: H0 er hypotesen “Kurt har gjort det”, E er evidensen, altså blodsporet. H1 er den modsatte hypotese. “En anden end Kurt har gjort det”. Den betingede sandsynlighed, P(E|H1) er 1:1.000.000.

Og man kan IKKE vende den om. Der gælder IKKE P(H1|E)=P(E|H1). Vi har Bayes’ formel til at beskrive relationen:

P(H1|E)=P(E|H1)P(H1)/P(E)

Man formulerer det også som likelihoodratioer eller odds:

L(H1|E)=P(E|H1)/P(E|H0)

eller den omvendte:

L(H0|E)=P(E|H0)/P(E|H1)

Hvis nu det slet ikke er den generelle befolkning, der kan være tale om, men man for eksempel ved, det er en fra en bestemt familie, så ligner deres DNA hinanden. Lad os sige Kurt har en onkel, som kunne have gjort det, men som vi ikke kan finde/fange. Selvom Kurt så matcher er der en noget større sandsynlighed for, at onklen også matcher, end for at en hvilken som helst anden gør det, og altså ikke helt så god grund til at dømme Kurt. (Man kan regne præcist ud, hvad denne sandsynlighed er, men det gør jeg ikke her). Er den anden mulighed, at Kurts bror har gjort det, er der en ny beregning.

I mange sager er det DNA, man finder, en sammenblanding af flere. Og så bliver det mere indviklet at uddrage profilerne. Det har PhD-studerende Torben Tvedebrink lavet en algoritme til – se Videnskab.dk.

 

Posted in Blog | 1 Comment