Sikken et herligt Numb3rs afsnit! Men jeg holder mig til matematikken i det.
Charlie brugte Logistisk regression for at finde ud af, hvem blandt eksil-irakerne, der med størst sandsynlighed kunne være morderen. Mere nedenfor.
Fodaftryk
Larry analyserer fodaftryk og henviser til Petr Hlavacek, som ikke er matematiker, men en tjekkisk ekspert i fodtøj. Han er bl.a. kendt for at have analyseret Oetzi’s fodtøj. Oetzi er den 5000 år gamle mumificerede mand, der blev fundet i isen i de italienske alper i 1991. The Telegraph havde en artikel om Oetzi og hans fodtøj, der skulle være vældig komfortabelt – de tjekkiske skoeksperter rekonstruerede støvlerne (bl.a. noget med at garve med rå grisehjerne…) og vandrede rundt med dem i bjergene, så det er ganske vist. Hlavacek har også bidraget til at designe bedre sko til diabetikere, så de undgår koldbrand. Som sagt er han ikke matematiker, men som Numb3rs indledes med: “We all use math every day”, og det gør han vel også i sine analyser af fodtøj. Hvorvidt han virkelig kan sige, hvor høj man er, udfra fodaftryk, ved jeg ikke, men der er andre, der har lavet den slags analyser, og statistisk set hænger skostørrelse og højde jo sammen, så alene der er der en sammenhæng. Søg på forensic analysis og footprint. Der er en hel del hits. Larry siger i øvrigt også, at Hlavacek har analyseret Albrecht von Wallensteins støvler og set, at han havde syfilis.
Logistisk regression:
Charlie mener, at sandsynligheden for, at en given person er morderen, afhænger af en række data: alder, tidligere straffe,…
Den simpleste form for regression er den, mange har prøvet, når man finder “bedste rette linie” gennem nogen punkter. Man har par af punkter (x1,y1), (x2,y2), (x3,y3),… og mener, at sammenhængen er y=ax+b+et støjled der ikke er alt for stort.
Altså at der er en ret linie, der passerer tæt forbi punkterne. For at finde a og b, skal man overveje, hvad man mener med tæt forbi, og det kan f.eks. være mindste kvadraters metode. For et valg af a og b, ser man på [tex](a x_1 +b -y_1)^2[/tex], altså kvadratet på den lodrette afstand fra punktet (x1,y1) til linien. Det gør man for alle de datapunkter, man har. Den bedste rette linie (det bedste valg af a og b) er den, hvor summen af alle disse afstande er mindst mulig.
Men hvad nu, hvis de data, man har, ikke passer ind på en linie? Der er jo mange muligheder: Parabler, eksponentialfunktioner,…
I logistisk regression, som bruges i mange anvendelser, er det sandsynligheder, der afhænger af en stribe data. Sandsynligheden for, at man er den skyldige i et mord i Charlies tilfælde. For at bruge logistisk regression skal man studere et binært problem: Er man skyldig eller ej. Har man tuberkulose eller ej, har tabt sig eller ej, er ryger eller ej,…
Den sammenhæng, man forventer, er, at sandsynligheden [tex]p[/tex] opfylder ligningen [tex]ln(p/(1-p))=b_0+b_1x_1+b_2x_2+cdots+b_nx_n[/tex]
hvor [tex]x_j[/tex]’erne er alle de parametre: tidligere straffe, alder,…, man har for den mistænkte, vi kigger på. Man siger altså, at logaritmen til odds’ene er en lineær funktion af de forklarende variable, altså x’erne.
Nu skal man så have bestemt b_j’erne, og igen er det et spørgsmål om at få det til at passe med data, man kender, altså tidligere mord. Metoder til det kan for eksempel være maximum likelihood. Princippet er stadig, at man skal matche tidligere data bedst muligt med den model, man laver. Og at man antager, at det er en bestemt type model hvori man så skal bestemme de relevante parametre. Jo mere indviklet model, jo flere parametre. For eksemplet med bedste rette linie var der kun to, nemlig a og b.
Man bruger logistisk regression i biologi, medicin, sociologi og mange andre steder. Analysen laves normalt i et statistikprogram, ligesom vi jo laver bedste rette linie på lommeregneren eller i et regneark.
Pingback: 3-6 Longshot at numb3rs