Glimrende afsnit – og en konspirationsteoretiker, som havde lidt ret…
Jeg så matematik i noget om videorekonstruktion og nogle pingviner. I massespektroskopi til analyse af kemiske rester i et fingeraftryk. Og Simpsons paradoks.
Desuden var der et eksempel på en af de berømte/berygtede “pranks”, som både Caltech og MIT er stolte af. Denne var omskrivning af Hollywood skiltet, ved at klistre sort plastik op strategisk, så der stod Calsci. Det har Caltech studerende gjort i 2003: Her er det beskrevet i Time. Med billede. Overskriften er “Nerd humor meets California Landmark.”
Forensics Videoreconstruction
Man kan gennemsøge mange overvågningsvideoer samtidig for at finde f.eks. den samme bil flere steder og dermed følge dens rute. Ideen bag er at kombinere computerkraft og mennesker: Compteren søger og kommer med forslag, som mennesket ved skærmen godkender efterhånden, hvorefter computeren ved, at den er på ret spor. Det går, ifølge artiklen her, meget hurtigere, end hvis computeren skal søge færdigt selv. Systemet hedder VideoFerret. Matematikken bag er bl.a. afstandsmål (metrikker). Brugeren kan bestemme, hvordan man måler afstanden mellem to billeder (udsnit af billeder er det nu), altså hvad det betyder, at to billeder ligner hinanden. Et billede af en bil og et andet af den samme bil set fra en lidt anden vinkel kan være langt fra hinanden, hvis man tæller, hvor mange pixels, der afviger, og det samme gælder, hvis man har ændret belysningen en smule. Derfor er der afstandsmål, der svarer til den mindste variation af billede 1, man kan nøjes med for at få billede 2. Et eksempel er Earth Mover’s Distance, som er lidt mere indviklet…
Simpsons paradoks.
Basalt set skyldes Simpsons paradoks følgende brøkregningsresultat:
Der findes tal, a,b,c,d,A,B,C,D, så
* a/b < A/B
* c/d < C/D
og
* (a+c)/(b+d)>(A+C)/(B+D)
Eksempelvis:
* 1/5 < 2/8
* 6/8 < 4/5
* 7/13 > 6/13.
Det ser jo ret uskyldigt ud, men det har overraskende konsekvenser i sandsynlighedsteori/statistik. Her kommer en historie med disse brøker 🙂
En medicinsk behandling testes og man ser på bedring med den nye og den gamle behandling.
Ud af 13 mænd bliver 5 behandlet med den nye og 1 får det bedre. 8 får den gamle behandling og 2 får det bedre.
Ud af 13 kvinder bliver 8 behandlet med den nye og 6 får det bedre. 5 bliver behandlet med den gamle og 4 får det bedre.
Blandt mænd er der sandsynlighed 1/5 for at få det bedre med den nye behandlig, 2/8 med den gamle.
Blandt kvinder er sandsynligheden 6/8 for at få det bedre med den nye behandling. 4/5 med den gamle.
Som i brøkregningen ovenfor ses, at sandsynligheden samlet for at få det bedre med den nye behandlig er 7/13 og med den gamle er den 6/13. Så glemmer man køn, skal der behandles med den nye, men mænd for sig og kvinder for sig skal bruge den gamle ??? Det ser jo mystisk ud. Kigger vi nærmere på tallene, er det klart, at mænd i det hele taget har ringere chance for at få det bedre (3/13) end kvinder (10/13). Så en mulig forklaring kan være, at mændene i denne test er mere syge end kvinderne, og det ser også ud til, at man ikke giver så mange af dem den nye behandlig- måske fordi de er mere syge. Altså at der er en eller flere underliggende variable, vi ikke har med. Og at det er dem, der forklarer forskellene.
Betingede sandsynligheder:
Brøkerne ovenfor er betingede sandsynligheder: Sandsynligheder for at få det bedre med ny/gammel behandling givet køn. Med formler, hvor A er “få det bedre”, B er “ny behandling”, C er “er kvinde”. og ~B er “ikke B”, altså gammel behandling. ~C er “ikke kvinde”, altså mand 🙂
P(A/B) > P(A/~B) (sandsynligheden for at få det bedre med ny behandling er større end med den gamle)
P(A/B & C) < P(A/~B & C) (sandsynligheden for at få det bedre givet “ny behandling OG kvinde” er mindre end med “gammel behandling OG kvinde”)
P(A/B & ~C) < P(~B & ~C). (sandsynligheden for at få det bedre givet “ny behandling OG mand” er mindre end med “gammel behandling OG mand”)
Faktisk kan man, hvis datamængden er stor nok (eller der er tale om kontinuerte variable), finde et C (en opdeling af data i to andre grupper – C og ikke C), så uligheden P(A/B) > P(A/~B) vendes om, når man betinger med C og med “ikke C” som ovenfor.
Et eksempel fra det virkelige liv
Her er data om dødsstraf i drabssager i Florida i perioden 1973-1978. Opdelt efter den dømtes race:
Dømt Dødsstraf Anden straf.
Sort 59 2547
Hvid 72 2185
Der er altså 3,2 % af de hvide mordere, der får dødsstraf og 2,3 % af de sorte.
Hvis nu vi medtager offerets race, giver det et noget andet billede:
Offer Morder Dødsstraf Anden straf
Sort Sort 11 2309
Sort Hvid 0 111
Hvid Sort 48 238
Hvid Hvid 72 2074
Der er sandsynlighed 0,45% for at få dødsstraf, hvis offeret var sort. Og 5,2% hvis offeret var hvid. (Man bør naturligvis regne efter, om disse tal er signifikante – chi^2 test eller lignende). Man skal altså tænke sig om, før man drager konklusioner. Bemærk, at ingen hvide har fået dødsstraf for at slå en sort ihjel. De første tal var altså misvisende, fordi sorte mest slås ihjel af andre sorte og tilsvarende for hvide ofre – morderen er oftest hvid.