Amita arbejder igen! Og så til matematikken. Der var flere emner oppe: Genetik – delvis match af DNA spor bruger statistiske metoder. Fuzzy search. Scale gradient projection. Geografisk profilering. Neurale netværk til billedrekonstruktion. GPS.
Scaled Gradient projection
Billederne fra overvågningskameraerne er ikke gode (måske forsøgt slettet), og Amita bruger “scaled gradient projection” metoder til at genfinde et godt billede. Metoden forklares af Charlie i en analogi med løsning af kryds og tværs, hvor nogle bogstavsammensætninger er umulige.
Et billede kan beskrives som en (lang) vektor x=(x1,x2,….,xN) hvor hver koordinat er farven af en pixel.
Det billede er ny blevet forvansket. Man har måske støj, en vektor n=(n1,….,nN), og en “blurring” afbildning H(x), som antages at være lineær – man ganger med en matrix (hvis læseren er utryg ved matricer, så tænk bare på H(x1,x2)=(ax1+bx2,cx1+dx2))
Det billede, vi ser, er
y=Hx+n
Nu gælder det om at finde x. Vi kender ikke H og n præcist; vi har måske visse ideer om H udfra eksempelvis tekniske oplysninger om kameraet eller om lagringen af billedet. Vi ved til gengæld, x er et billede – det er ikke et tilfældigt mylder af pixelfarver. Der er en mængde M af mulige billeder, så x tilhører M.
Opgaven er så: Find det x fra M, som mest sandsynligt giver anledning til det forvrængede billede, y. Det er maximum likelihood metode.
Det problem, man nu står med, er et optimeringsproblem med en begrænset mængde mulige løsninger, M. Og en funktion, der beskriver noget om, hvor god hver løsning er – likelihood funktionene, men det kunne også være et andet mål for, hvor god løsningen er.
Gradientagtige metoder til optimering:
Vælg et x, udregn f(x), og de afledte af f i x. Gå nu et (lille) stykke i den retning grad(f)(x), hvor f vokser mest (langs gradienten). Gør det igen i det punkt, man nåede til. Man går rundt på grafen for f over M. Går i den retning, hor f vokser mest og håber at ende på den højeste top. Man vælger sædvanligvis flere udgangspunkter og ser, hvor man ender fra hver af dem. Så undgår man, at man rammer en lille bule, som ikke er et maksimum.
Biledet (fra Wikipedia viser niveaukurver for en funktion, som svinger meget, og hvor man derfor får zig-zag opførsel på vej mod toppen.
Den metode, Amita bruger, indebærer et smart valg af skridtlængden. Og desuden, at man ikke nødvendigvis følger retningen grad(f)(x), men måske lidt skævt. Og så er der, så vidt jeg kan se, en projektion, der sender en tilbage i M, hvis man er røget udenfor.
Her er slides fra en præsentation af scaled gradient projection.
Delvis match af DNA
Koblingen mellem DNA og ydre karakteristika – fra genotype til fænotype – kan være meget indviklet, men der er egenskaber, som er forholdsvis simpelt kodet. I dette afsnit taler de om “hazel” øjenfarve og om en høj brunette, og det hentyder formentlig til arbejde på Stanford. Formidlingssitet “Understanding Genetics” har et indlæg om netop den øjenfarve.
Hæmofili kan skyldes en defekt på X-kromosomet. Det er recessivt, så kvinder får det kun, hvis begge deres X-kromosomer har defekten, hvorimod mænd, som jo kun har et X-kromosom, får sygdommen, hvis dette X-kromosom har defekten. Det ser ud til i serien, at den ene søster er bærer, mens den anden har to defekte X-kromosomer, og altså er syg.
Amita søger efter delvise match, eller muligvis bare efter hæmofilibærere, i DNA databasen. Jeg ved ikke, om hæmofili faktisk kan ses af DNA-registeret. Umiddelbart skulle man ikke tro det, for det er en pointe, at den del af DNA, man registrerer, er “junk” dna, som altså ikke koder for noget, man umiddelbart kan se. Hvis nu man faktisk brugte “genet for brunt hår” (hvis der er sådan et), så ville en mistænkt, der var kaldt ind, fordi et vidne havde set en brunette jo ikke være yderligere mistænkelig udfra DNA – for vi vidste, det var en brunette. Det drejer sig om uafhængighed. Tilføjet 30/4: At det er junk DNA, der registreres, er en konsekvens af, at man registrerer dele af DNA, som har stor variation i befolkningen – Ellers er der jo ikke nogen information i, hvordan mit DNA ser ud på det sted. Og de dele af DNA, der koder for noget, har ikke så stor variation. (Tak, Svante. Så blev jeg igen klogere)
Delvis match af DNA med henblik på at finde familiemedlemmer til dem, der allerede er i databasen er kontroversielt – linket er til New York Times. Problemet er, at man finder potentielle mistænkte ved en slags antagelse om, at familiemedlemmer til forbrydere er mere sandsynlige gerningsmænd/kvinder end den generelle befolkning. Man finder et delvist match, henter hele familien ind og finder så en, der mathcer fuldstændig. Hvis man så dømmer den person udelukkende ud fra DNA match (og manglende alibi), halter argumentet “der er sandsynligvis kun xxx personer, som matcher, og det er meget få ud af hele befolkningen, så derfor…” – for hvad med de xxx-1 andre? Måske har de heller ikke noget alibi. Men de blve ikke fundet, fordi deres familie ikke var i databasen og gav et delvist match.