3-16 Contenders

Den kampsport, dette afsnit handler om, minder om Mixed Martial Arts, en hastigt voksende sport flere steder i USA, men det har jeg ikke forstand på, så tilbage til matematikken…

Charlie eller Amita nævner “Kruskal count”, da de vil finde fællestræk mellem de personer, der har været til stede ved de to kampe, hvor en af deltagerne døde.
Da den mistænkte, Ellis, er stukket af, analyserer Charlie mønsteret i hans telefonopkald hidtil (hans call pattern). Ved at se på Ellis’ venners telefonopkald nu og sammenligne med Ellis’ “call pattern”, finder de den telefon, han nu bruger – en af vennernes.
Charlie og Amita analyserer de kampe, der sættes igang af lederen af ligaen i forhold til de kampe, man burde have sat igang udfra deltagernes tidligere resultater, i.e., match mellem lige stærke kæmpere. (Her er ranking for MMA i fald nogen er interesseret.)

Kruskal Count
Kruskal count er et korttrick… Men matematikken bag kan bruges andre steder end i tryllekunstnerverdnen, og det må jo være det, der hentydes til her. Jeg forstår faktisk ikke, hvordan generaliseret Kruskal Count kan hjælpe med at indsnævre den liste af personer, men hvis nogen kan fortælle mig det, så vil jeg meget gerne bringe det videre her på bloggen.
Men korttricket er faktisk smart, så det får I noget om:

En fra publikum får et sædvanligt sæt spillekort uden jokere, som hun starter med at blande. Nu vælger hun et hemmeligt tal mellem 1 og 10. Kortene i bunken, som ligger med bagsiden opad, vendes nu om med billedsiden opad, et af gangen, mens hun tæller. Når hun når til sit hemmelige tal, startes forfra med det tal, der står på det kort, hun er nået til. Og så fremdeles.
Eksempel: Hvis hun har valgt tallet 2 og det andet kort (kaldet første nøglekort) er en 10’er er det næste nøglekort nummer 12 i bunken, altså det, hun når til efter at tælle 10 frem fra det første nøglekort. Hvis det kort er en syver, er det næste nøglekort nummer 19 i bunken. Etc.
Esser tæller som ettere og billedkort som 5.
Det sidste nøglekort i bunken er det hemmelige kort, som tryllekunstneren skal gætte. Hvis hun f.eks. når til en syver, og der ikke er 7 kort tilbage i bunken, er det den syver, der skal gættes.

Tryllekunstneren begynder nu forfra med bunken,vælger sit eget hemmelige tal og gør som ovenfor. I mere end 80 % af tilfældene ender man ved det samme kort. Hvis tryllekunstneren vælger 1 som hemmeligt tal, altså lader det første kort være et nøglekort, rammer hun rigtigt i lidt mere end 85 % af tilfældene. Det er ret indviklet at regne ud, for man skal tage hensyn til, at der er mange forskellige blandinger af et sæt kort. I artiklen The Kruskal Count af J. Lagarias, E.Rains og R.J.Vanderbei, analyseres situationen. En af pointerne er, at hvis bare et af tryllekunstnerens nøglekort er det samme som et af publikummerens, så vil de være ens fremover. Det har noget at gøre med kobling af Markovkæder, for nu at skrive et fagord, men det går ud over bloggens mål og blogskriverens evner at gøre rede for det…
Kruskal Count er opkaldt efter og opfundet af Martin Kruskal, som var fysiker og matematiker og har bidraget til en imponerende mængde emner. Partielle differentialligninger og sorte huller for eksempel. Han er nok mest kendt for bidrag til at forstå solitoner.
I øvrigt er det en af hans brødre, som har bidraget til statistik, så måske har Numb3rs folkene taget fejl her.

Call Pattern Analysis
Der findes mange slags Call Pattern Analysis. For eksempel hos mobilselskaber, i callcentre, …
jeg tror, Charlie så på Ellisø opkalds længde og hvor langt væk, han ringede eller måske simpelthen hvem han ringede til. Det mønster genfandt han så i den teleforn, som Ellis havde lånt af en af vennerne. Hvis han nu kun lånte den engang imellem, og vennen stadig brugte den, skulle Charlie se efter en ændring i vennernes mønstre, hvor det nye mønster så er en slags sum af Ellis’ og vennens.
Man skulle egentlig tro, at man bare kunne se efter ændringer hos vennerne. Hvis en af dem skifter vaner, er deet vel hans telefon, der bliver brugt af en anden. Det ville være noget i branchen changepointdetection. Man kan i en simpel model forestille sig data, der hidtil har ligget på en linie med hældning 2 og så ændrer sig til en linie med hældning 2,3.

Posted in Blog | Leave a comment

3-15 End of Watch

Først et ikke-matematik fact: Skuespilleren, der spiller Megan, var gravid under indspilningen af sæson 3, så man kan more sig med at holde øje med, hvordan de ændrer lyset og i det hele taget undlader at vise hendes mave.
Nå, men matematikken:
Charlie og Amita brugte en 4.ordens Runge Kutta metode i starten – der hvor de skød brændende papirkugler efter et legetøjsfort…
Charlie analyserede Laser Swath Mapping af det område, hvor betjentens lig skulle findes.
Millie lavede en analyse af Alans golfbane og dens genskin til naboerne.
Charlie brugte Critical Path Analysis til at analysere, hvor betjenten mon havde været, da han blev skudt.
Der blev henvist tilbage til Charlies analyse af “shooting chains” i et tidligere afsnit, 2-12. Og han så på banders territorier, som jeg skrev om i Bander og Planter.

Laser Swath Mapping eller LiDar
Ved kortlægning af store områder er det praktisk at bruge fly. Man tager f.eks. billeder og bruger dem til at lave kort via fotogrammetri (kunsten er at få dem til at passe sammen og have styr på perspektivet af den runde Jord. ) I Laser Swath Mapping kortlægger man topografi, altså buler op og ned i terrænet. Man udstyrer et mindre fly med en GPS, så man hele tiden ved, hvor man flyver, og en laser. Laseren sender 2000-5000 “glimt” ud i minuttet, og man registrerer hvor lang tid, der går, fra de er sendt ud og til de når tilbage til flyet, efter at være reflekteret fra jorden. Laserglimtene sendes ud lodret ned og skråt ud til siden i en vinkel på plus minus 20-30 grader vinkelret på flyveretningen. På den måde får man kortlagt et bælte (en swath), hvis bredde afhænger af, hvor højt, man flyver.
GPS systemet afhænger af tidsmåling, og det gør denne metode også. For det første skal GPS positionsbestemmelsen være præcis – man bruger DGPS, differential GPS, hvor man har faste kendte stationer, man måler sin position relativt til. For det andet bevæger laserglimt sig med lysets hastighed, og afstanden bestemmes af hvor lang tid, det tager for glimtet at komme ned og tilbage. Hastigheden er ca. 300000 km/s, så hvis man måler tiden 0.0000001 sekund forkert, får man en fejl på 30 m. Og det er jo et ordentligt hul eller en bakke.
Man kan så bruge flyets position (bestemt ved DGPS) og afstand samt vinkel for laserglimtet, til at regne X,Y,Z-koordinater ud for punkter på Jorden. Se for eksempel Geocomm for nærmere spcifikationer af nøjagtighed, flytyper m.v. Et andet link er fra South Carolina
hvor de ganske vist kalder metoden LiDar, men det er det samme, så vidt jeg kan se.

Også havisen omkring Grønland er kortlagt ved Lidar metoder, som man kan læse det her.

Jeg skrev om matematikken i GPS i afsnit 2-07

Critical Path Analysis
Skal et firma udføre en kompliceret opgave, som består af mange delopgaver, vil man ofte kunne lave nogen af dem samtidig, mens andre afhænger af hinanden. I en “Critical Path Analysis” kortlægger man strukturen i en graf. Først analyseres hvilke opgaver, der afhænger af andre, og hvor lang tid, de tager.
Eksempel, som jeg har fundet på nettet:

A Produktdesign varer 5 måneder og skal ikke bruge input.
B markedsanalyse varer 1 måned og skal ikke bruge input
C Produktions analyse, afhænger af A , tager 2 måneder
D Produkt model A 3
E Salgsmateriale A 2
F Omkostningsanalyse C 3
G Product testning D 4
H uddannelse af sælgere B, E 2
I Prisfastsættelse H 1
J Projekt rapport F, G, I 1

Nu kan man lave en graf.

Kanterne i grafen er der, hvor man foretager sig noget.
Man kan udføre opgaven H, når man står i knuden hvor B og E er udført forud. Nu analyserer man stier fra start til slut. Der er ADGJ, ACFJ, AEHIJ, BHIJ. Tidsforbrug er: ADGJ 13 måneder, ACFJ 11, AEHIJ 11, BHIJ 5.
Den kritiske sti er den, der tager længst tid. Projektet vil mindst tage 13 måneder og hvis der sker forsinkelser af A, D, G elle J, vil det tage mere end 13 måneder. Man kan altså måske spare tid ved at give flere ressourcer til en af de processer eller ved at dele op på en anden måde. De andre stier er ikke kritiske, så der kan man godt snøvle lidt undervejs uden at forsinke det samlede projekt.
Man kan også analysere omkostninger ved lignende metoder. Det kan man læse mere om under linket ovenfor. Der findes værktøj – bl.a. via regneark, som laver nogen af udregningerne. Og her er et webbaseret værktøj. Bemærk, at der udregnes “slack” for de opgaver, der ikke er på den kritiske sti. Slack er den tid, man maksimalt kan snøvle uden at forsinke det samlede projekt.
Hvis man står for at skulle bygge hus, kan det sikkert være smart at tænke forløbet igennem med de briller på.

Posted in Blog | Leave a comment

3-14 Take Out

Jeg så mange matematikanvendelser her:

Charlie analyserede pengestrøm til en bank på en Stillehavsø ved at bruge Outlier detection.

Millie foreslog, at Charlie skulle bruge en trusselsmatrix (threat matrix) til at analysere de mange røverier.

Charlie skulle lave pharmacokinetik for et stort medicinalvarefirma.
Og Millie snakkede om Syzygies – jeg kan ikke lige huske i hvilken forbindelse, men noget med planeterne perfekt på linie…. Det har også en præcis matematisk betydning, men den får I ikke idag.

Outlier detection

I et stort datamateriale med en vis underliggende struktur (tænk på bedste rette linie) kan der være visse datapunkter, der ligger meget langt fra den fælles struktur. Det kaldes outliers. I visse sammenhænge, vil manb fjerne outliers, før man f.eks. laver bedste rette linie, fordi man simpelthen tror, det er fejlagtig data. Men det kan også være tegn på, at noget skal undersøges nærmere.

I artiklen “Phony Prices May Hide Import-Export Profits From IRS”, Jonathan Weisman
Washington Post Staff Writer
Friday, November 1, 2002;

beskrives, hvordan man kan hvidvaske penge ved at camouflere dem som eksport eller import af en vare med fiktiv pris.

I 2000 eksporterede nogen 182509 kilo honning til Yemen, hvor man ved, Bin Laden har forbindelse til tre honningfirmaer. Prisen var $2,63 pr kilo. Det er 38 procent over gennemsnitsprisen på honning i 2000, 1,91 $. Det giver 131406 $ for meget, som altså er penge bragt ind i USA fra Yemen, før 11. september 2001.

Ved at analysere enorme datamængder for import og eksport, opdelt i kategorier, udregner John Zdanowicz og Simon Pak gennemsnitspriser (eller rettere medianpriser) og udskiller de transaktioner, der ligger for langt fra (25% over eller under). De vurderer, at manipulation med import og eksportpriser snød den amerikanske stat for mere end 50 milliarder dollars i 2001. Ideen er, at man køber en vare i Indien for 100 dollars, påstår, den koster 199, sælger den for 200. Og man skal kun betale skat af fortjenesten, som reelt var 100 dollars, men i regnskabet ser ud til at være 1 dollar.
Generelt er analysen noget mere indviklet, end bare at kigge på medianpriser. mMen det er da fint, at man kan sige noget med så simpel en tilgang.

Og der er mange andre eksempler. Pointen er, at man skal holde øje med det usandsynlige. At outliers kan være tegn på andet end fejlindtastninger. Forsikringsselskaber leder efter svindel med den type metoder og kreditkortfirmaer holder øje med usædvanlige transaktioner som tegn på, at nogen misbruger et kreditkort.
Problemet er at finde ud af, hvad usædvanligt skal betyde. For kreditkort vil det afhænge af den, der sædvanligvis bruger det: Hvor bruges det, hvor store beløb, hvor tit,… Og man vil nødig mistænke en kunde, der en enkelt gang bruger kreditkortet til at købe en stor ting. Den gren af matematik, statistik og datalogi, der beskæftiger sig med den slags, kaldes Data Mining.

Trusselsmatrix
Jeg ved ikke helt, hvad Charlie og Millie gjorde her, men en Trussels matrix er en opstilling af trusler og vurdering af dem på systematisk facon. Her er en trusselsmatrix om narkotika i USA.

Pharmakokinetik
Pharmacokinetik drejer sig om, hvordan medicin (og andet, vil jeg tro) udbredes i kroppen. Hvis man spiser det, hvis man sprøjter det ind under huden, i en vene, …
Hos Novo har de for eksempel en hel afdeling for pharmakokinetik. En anden vigtig gren af studiet af medicin i kroppen er pharmakodynamik, som vist nok mere handler om, hvordan medicinen så optages eller reagerer med andet i kroppen. PK/PD er pharmakokinetik og pharmakodynamik.
Matematikken bag kommer fra mange brancher. Statistiske metoder er en stor del af det, men også differentialligninger – kompartmentmodeller, hvor man f.eks. beskriver, hvordan mængden af insulin og glucose forskellige steder i kroppen influerer på hinanden.
I Bergmans minimalmodel for vekselvirkning mellem glucose og insulin, kan Glucose være enten i væv (leveren) eller i plasma, og insulin kan have to former, hvoraf kun den ene er aktiv i at udskille glucose. Det er det, der er de fire “compartments”. Meget glukose i blodet sætter insulinproduktionen i vejret, hvis ikke der allerede er meget insulin. Og omvendt er insulin (det aktive) medvirkende til at udskille glucose. Alt ialt får man tre differentialligninger, der beskriver vækst af glucose, aktivt insulin og (inaktivt?)insulin. Se f.eks. denne poster (af Malene Højbjerre og Kim Emil Andersen) om at bruge Bayesiansk statistik til at analysere minimal modellen. Man kan finde både compartmentmodellen og differentialligningerne.

Posted in Blog | Leave a comment

3-13 Finders Keepers

Der var to væsentlige matematikanvendelser denne gang: “Computational Fluid Dynamics” og “Target Discrimination Algorithm”.

Computational Fluid Dynamics

Her blev det brugt til at designe hurtige både, men det er en teknologi, der bruges rigtig mange steder.

Fluid dynamics dækker over måden, væsker og luft strømmer på. Og herunder, hvordan det strømmer henover skibe, undervandsbåde, flyvinger, tog, biler, vindmøllevinger, helikoptere og andre ting, man vil designe.

Matematikken bag er i første omgang Navier Stokes ligningerne, som er partielle differentialligninger:

rho left(frac{partial mathbf{v}}{partial t} + mathbf{v} cdot nabla mathbf{v}right) = -nabla p + nabla cdotmathbb{T} + mathbf{f},

En partiel differentialligning er en ligning, hvor de(n) ubekendte er funktion(er). Det er funktioner af flere variable – her er funktionen v hastigheden, som væsken strømmer med, og den er en funktion af, hvilket punkt, vi kigger på og desuden af tiden, ialt 4 variable. I ligningen indgår ændringen af v som funktion af tiden (den med de bløde d’er) og ændring langs x, y og z-aksen indgår også. For mere information om de størrelser, der indgår, se f.eks. Wikipedia
Man kan altså beskrive, hvordan væske bevæger sig ved hjælp af en ligning. Problemet er nu, at den slags ligninger er meget svære at løse. Og ovenikøbet ved vi faktisk ikke, om der altid er løsninger, men det er en anden historie.

I Computational Fluid Dynamics forsøger man at løse den slags ligninger for at beskrive væske (eller luft). En af grundideerne er, at man opdeler væsken i små områder, lad os sige små kasser og omskriver problemet til, hvordan væsken bevæger sig mellem kasserne. Og desuden lader man tiden bevæge sig i små hop, så man ser på væskens udvikling efter 1 sekund, 2 sekunder, 3 sekunder etc. i stedet for at have en kontinuert beskrivelse. Princippet er, at man ved at dele op i meget små kasser og meget små tidsskridt får en løsning, der ligger tæt på den rigtige.

Man skal altså bruge gode estimater af, hvor langt fra den rigtige løsning, man er. Det er noget af det virkelig smarte: Man kan give vurderinger af den fejl, man laver, uden rent faktisk at regne den rigtige løsning ud. Hvis man vurderer, at fejlen er større, end man kan leve med i det konkrete problem, må man lave en opdeling i mindre kasser eller mindre tidsskridt.

Endnu en smart ide er, at man kan lave fejlvurderinger på mindre områder, så man kan nøjes med at lave mindre kasser i de områder, hvor fejlen bliver stor. For eksempel vil områder omkring skibsskrog skulle deles i mindre stykker, hvis skroget krummer meget, end der, hvor det er nogenlunde fladt. Det gælder om at undgå at opdele i unødvendigt små stykker, da det betyder mere computertid eller simpelthen kan gøre det umuligt for computeren.

Vestas bruger man Computational Fluid Dynamics(CFD) programmer til at regne på, hvor stor kraft, møllevingerne på virkes med, og mere generelt til at designe nye vinger.

Der er mange der arbejder med CFD – en af dem er Marsha Berger, som bl.a. har lavet noget af matematikken i NASA’sCart3D. Der kan man se, hvordan opdelingen i kasser, (mesh) bliver omkring forskellige objekter – rumfærger, raketter m.v. Og man kan læse om programmet Cubes, som laver den adaptive opdeling, hvor man får mindre kasser de steder, hvor det er nødvendigt.

Target Discrimination Algoritmer
Charlie skulle finde en bestemt lastbil på satellitbilleder af Los Angeles. Target discrimination kan være mange ting. Man ønsker at finde kampvogne i Irak eller fly på radar eller måske kufferter på bagagebånd (det ved jeg nu ikke, om man gør, men jeg ville prøve at finde noget fredeligt…). Man kan også forestille sig, at det er vigtigt, hvis fly skal flyve freeflight og ikke i fastsatte luftkorridorer over Atlanterhavet – så kan det være smart med automatisk advarsel om andre fly.

Det indgår som en del af Automatic Target Recognition systemer (ATR). Se f.eks. denne kursusbeskrivelse for et kursus om netop det. Target discrimination bestpr dels i at sortere uvæsentlig information fra – træer, støv, regn,… og dels at genkende bestemte objekter. Der er mange indgangsvinkler til det. I første omgang handler det om, hvordan man har repræsenteret sine billeder. Det vil typisk være komprimeret, så man ikke lagrer alle pixels, og det er der flere metoder til. Vi har før haft wavelets på bloggen, vi har haft eigenfaces, som er en god måde til repræsentation af billeder af ansigter, og der er mange andre. Vi har også set analyse af radarbilleder, hvor man ledte efter objekter, der bevæger sig med en vis hastighed.
Matematikke i det kan være mange forskellige ting. For at kunne genkende omridset af en lastbil, selvom det er regnvejr, kan man forestille sig, at man bruger et afstandsmål: Hvor tæt er dette omrids på det, vi ved er omridset af lastbilen.

Posted in Blog | Leave a comment

3-12 Ni koner

Titlen ni koner er underdrevet – der var nogen, der havde mange flere!

Charlie og Amita fik ideen til at se på indavlskoefficienter, da Millie lettere opstemt indfandt sig.Millie havde fortalt Alan om Calabi Yau mangfoldigheder i forbindelse med strengteori. Det vil jeg ikke komme ind på – men Alans bemærkning om, at strengteori handler om good vibrations som dengang i 70’erne, var da helt på sin plads i betragtning af den løftede stemning…

Indavlskoefficienter og Wrights ligning.

Sewall Wright, (1889-1988), genetiker på University of Chicago, var sammen med R. Fisher og J.B.S.Haldane ophavsmand til teorien om ændringer af genhyppighed under selektion. Desuden indførte han begrebet tilfældig genetisk drift, som er teorien om, hvordan genhyppigheden ændrer sig under mutationer, i.e., tilfældige ændringer, som ikke skyldes selektion.

Her handlede det om hans studier af indavl og kvantificering af indavl: Er det for eksempel værre at være datter af to halvsøskende, end af en fætter og kusine?

Hvis der kun er en fælles forfar er indavlskoefficienten er ifølge Wrights formel,
Fx=(1/2)^{n1+n2+1}
hvor n1 er afstanden (antal generationer) fra moderen til den fælles forfar og n2 er afstanden fra faderen.

Er forældrene halvsøskende, har de f.eks. fælles far, og n1=n2=1, så koefficienten bliver (1/2)^3=1/8.
Hvis forældrene er fætter og kusine, har de både fælles bedstemor og bedstefar, og så lægger man de to koefficienter sammen. For bedstemor får vi n1=n2=2, og det samme for bedstefar, så vi får (1/2)^5+(1/2)^5=1/16.
For det lige nu sørgeligt aktuelle tilfælde i Østrig, hvor børnene har samme far og morfar, er n1=1 og n2=0, så vi får (1/2)^2=1/4.
Har de fælles forfædre også fælles forfædre (og her kan man jo tænke på kvæg eller hunde i stedet for mennesker, hvis man synes, det begynder at blive lidt ubehageligt) skal man for hver forfader y udregne
Fx=(1/2)^{n1+n2+1}(1+Fy)
hvor Fy er indavlskoefficienten for forfaderen y.

Indavlskoefficienten udtrykker sandsynligheden for, at et tilfældigt locus (sted) er homozygot med begge alleller fra samme allel hos en fælles forfar. (Identical by descent)

Et locus består af en allel fra faderen og en fra moderen: Hvis far er Aa og mor er Aa, kan barnet blive Aa med sandsynlighed 1/2, AA med sandsynlighed 1/4 og aa med sandsynlighed 1/4. Og AA samt aa er homozygote (“samme allel fra far som fra mor”). Det kan udmærket ske, uden begge kommer fra samme forfar.

Lad os tage eksemplet hvor far og mor er halvsøskende. Hvis deres fælles far er Aa, vil far have fået farfars a med sandsynlighed 1/2, og mor vil have fået a fra morfar (=farfar) med sandsynlighed 1/2. Hvis både far og mor har fået dette a, er barnet med sandsynlighed 1/4 altså aa. Hvor det er netop dette a, der indgår. Samlet er sandsynligheden for, at barnet er homozygot med netop dette a

P(barn=aa)=P(barn=aa| far = ?a og mor = ?a)P(far=?a)P(mor=?a)= 1/4 *1/2 *1/2= 1/16.

Men barnet kunne jo også være homozygot med bedstefars A, så ialt er sandsynligheden for, at denne tilfældige allel er homozygot med samme bid fra bedstefar

1/16 + 1/16= 1/8

og det er indavlskoefficienten.

Indavlskoefficienten siger noget om, hvor mange flere, der bliver af de homozygote, end forventet.
Man kan også beskrive indavlskoefficienten i en befolkning som
1-O(f(Aa))/E(f(Aa))
hvor O(f(Aa) er den observerede frekvens af Aa, og E(f(Aa)) er den forventede.
I den generelle befolkning regner man med, den er ca. 0,03. Det skal man bruge i retsgenetik, hvor man f.eks. skal sige, at det er så meget mere sandsynligt, at denne person er far til barnet (eller skyldig i en forbrydelse), end en hvilken som helst anden person. Det kræver, at man ved, hvordan fordelingen af genotyperne (Aa, AA og aa er genotyper) er i den generelle befolkning, og der er altså lidt flere homozygote, end der skulle være, hvis man slet ikke havde indavl.

Hvis man har en stor nok ( faktisk uendelig, men lad os sige stor nok…) befolkning fuldstændig uden indavl og uden mutation, siger Hardy Weinberg princippet, at frekvensen af genotyperne vil være konstant fra generation til generation. Efter en enkelt generation og fremover. Mere præcist:
Lad os sige, der findes N alleller ialt, og at pN er A’er, mens qN er a, så er p+q=1, og der vil i næste generation være p^2M personer med AA, q^2M med aa og 2pqM med Aa, hvis der er M individer i næste generation. (p og q er frekvenserne af A og a). Man kan tænke på, at et individ får to alleller tilfældigt valgt og uafhængigt af hinanden. Sandsynligheden for at det ene allel bliver a, er q. Sandsynligheden for, at det ene bliver A, er p. Det giver sandsynlighed p^2 for at blive AA, q^2 for at blive aa og 2pq for at blive Aa eller aA, hvilket er samme genotype.

I en indavlet befolkning bliver der altså flere homozygote. Det er uheldigt, især for visse arvelige sygdomme. Lad os sige, man bliver syg, hvis man har aa. Hvis man er Aa (eller AA), træder sygdommen ikke igennem, fordi a er recessivt og A er dominant. Så der bliver flere syge i en indavlet befolkning.
Eksempler på sygdomme, som er knyttet til en recessiv allel er cystisk fibrose og PKU (PhenylKetonUri), som er det, man tester spædbørn for meget tidligt ved en blodprøve.

Omvendt kan effekten over lang tid blive, at sygdommen svarende til aa udryddes. Hvis ikke personer med aa kan få børn, overlever a kun i Aa, og dem bliver der færre af i en indavlet befolkning.

I The effect of reproductive compensation on recessive disorders within consanguineous human populations
A D J Overall, M Ahmad and R A Nichols, Heredity, Juni 2002, ser de på effekten af, at børn med aa erstattes, i.e., at forældrene får endnu et barn for at kompensere for det syge eller døde barn. Det vil holde frekvensen af aa oppe, idet forældre med Aa får flere børn.

På Google Books kan man læse i Consanguinity, Inbreeding and Genetic drift in Italy, Luigi Luca Cavalli-Sforza, Antonio Moroni. Man har kunnet bruge vatikanets optegnelser over ægteskaber i en region i Norditalien til at beregne indavlskoefficienter (forudsat, at børnenes forældre er dem, der er gift med hinanden). Det sammenlignes så med diverse optegnelser over sygdomme og med blodtypefordeling etc.

Posted in Blog | Leave a comment

Bloggen har været i “bad standing”

Vi har desværre været udsat for hackerangreb, som har gjort, at bloggen er kommet på Googles sorte liste. Det er forhåbentlig ved at gå i orden, og jeg håber, at vi kan undgå det i fremtiden. Tak til Hans for et stort arbejde med at rydde op efter hackerne. Det er åbenbart en risiko, når man blogger.

Posted in Blog | Leave a comment

3-11 Killer Chat

Charlie og i høj grad også Amita denne gang, brugte bl.a. “Multi attribute compositional models” (til at se, hvilke fælles træk, der var mellem de huse, hvor ofrene blev fundet). Det er en slags marketing analyse, hvor man forsøger at forudsige forbrugernes opførsel. Multi attribute går på, at der er flere ting, der på virker forbrugernes beslutning, og at de vægtes forskelligt af forskellige forbrugere. Det vil jeg ikke gå mere ind i her. Jeg vil skrive lidt om Onion Routing og om Stylometri. (som blev brugt til at analysere chatkommunikation)

Onion Routing:

I transmissionen af videoer brugte forbryderen “onion routing”. Den seneste generation hedder Tor. Systemet er oprindeligt designet af den amerikanske flåde. Man kommunikerer over nettet via flere servere, så det bliver svært at overvåge, hvilke sites, man besøger, og omvendt kan de sites ikke se, hvor man kommer fra/hvem man er. Informationen sendes via mindst tre “mellemstationer”, så ingen af disse ved både hvor informationen kommer fra og hvor dens endelige destination er. Det kan der jo både være noget privatlivets fred i og på bagsiden af medaljen kan forbrydere jo få lige rigeligt med fred… Det bruges af journalister, af almindelige privatpersoner, af militæret (i hvert fald i USA), af diverse aktivister – fred, miljø etc., afvirksomheder og mange andre. Det er ikke fuldstændig sikkert mod angreb, og det er netop det, Charlie bruger.

Man lægger det hele i lag som i et løg:

Alle mellemstationer har en offentlig krypteringsnøgle og en privat dekrypteringsnøgle. Disse er kendt af “routeren”, som bestemmer hvilken vej, min besked skal sendes. Kald mellemstationerne S1,S2,S3, hvor 3 er den, der skal have beskeden. Krypteringerne kaldes K1, K2, K3 og K4

I det inderste lag ligger Beskeden, krypteret, med K3.

I næstinderste lag ligger IPadressen på S3, krypteret, med K2.

Næstyderste lag har IPadressen på S2 krypteret med K1.

Yderste lag er IPadressen på S1.

Nu sendes hele “pakken” til S1, som dekrypterer IP-adressen på S2 og sender til S2. Denne dekrypterer og finder IP-adressen på S3, hvortil det inderste lag sendes. S3 dekrypterer nu beskeden og er glad…

Matematikken er i bl.a public key kryptering, som jeg har skrevet om her på bloggen.

Stylometri:

Stylometri er anvendelse af statistiske metoder til at identificere forfatteren til en tekst udfra andre tekster af samme forfatter.

Man uddrager en stribe variable af teksterne, og der er visse af disse, man mener kun afhænger af forfatteren og ikke af den konkrete tekst:

Ordlængdefordelingen: 20 % med tre bogstaver, 13 % med 4 bogstaver,…

Man kan se på forekomsten af bestemte ord etc.

Nu bruger man statistiske metoder: Hvor meget mere sandsynligt er det, at denne tekst er skrevet af Shakespeare end af andre forfattere på den tid. Eller måske sammenligner man to mulige forfattere.

Jeg vil muligvis komme tilbage til stylometri, men lige nu er det blevet sent, så I må nøjes med dette.

Posted in Blog | Leave a comment

3-10 Brutus

Denne gang lagde jeg mærke til crowd dynamics, billedanalyse, netværk analyse og noget med von Neumann.

I øvrigt har CIA vist ikke haft et projekt Brutus, men de havde den slags projekter, MK-ULTRA, hvor man manipulerede med folks hjerner, så det er ikke meget galt, at Brutus kunne være realistisk.

Crowddynamics eller forsamlingsdynamik (eller mylderdynamik …).

I 2001 fik Keith Still en PhD-grad i matematik fra University of Warwick, og emnet var analyse af store menneskemængder. Vejleder var Ian Stewart, som bloglæsere måske kender fra en stribe af populære bøger om matematik.
Det er Still, der har været konsulent på dette afsnit.
Still har nu et firma, der rådgiver om nødplaner for evakuering af steder med mange mennesker. Han har udviklet et program, Myriad, som simulerer flow af menneskemængder gennem forskellig “geometri”, i.e., forskelligt antal udgange, placering af skillevægge etc. Matematikken bag er en blanding af flere discipliner. Menneskemængder består af folk i forskellig størrelse, og det betyder noget for, hvordan flokken bevæger sig, så man udtager en passende blanding, men skal også overveje, hvordan det ser ud, hvis nu en hel flok rugbyspillere er i byen. – Det bruger statistik. Algoritmen bliver meget let for kompliceret – man skal sørge for, at det kan regnes ud af en computer, i.e., kompleksitetsteori tages i ed. Så vidt jeg kan læse mig til, gøres det ved, at hver person i simulationen interagerer med sine nærmeste naboer udfra meget simple principper – gå mod nærmeste udgang og så tæt på den foran som muligt. Det er altså et eksempel på emergent opførsel, som vi tidligere har haft oppe i bloggen. (Der så vi på det program, man har brugt til at lave gnuflokke i Løvernes Konge). Man kan også modellere flokkes opførsel ved differentialligninger, som vi var inde på her.

I en artikel i Nature 28/9-2000, Vol 407, Simulating dynamical features of escape panic, Helbing, Farkas og Vicsek, er emnet, hvordan man modellerer, at folk reagerer på at støde ind i andre – panikken stiger. Det er igen en differentialligning. Den minder om den, jeg omtalte i “Mørkt stof”, hvor byttedyr reagerer på omgivelserne. De ændrer hastighed, i.e., accelerer, afhængigt af, hvor de andre dyr er. I artiklen i Nature accelerer hver person afhængigt af, hvor vægge og andre personer er, og der er en panikterm, som afhænger af, hvor meget, man bliver skubbet til.

Netværksanalyse og Metcalfes lov

Charlie analyserer netværket af handel med våben, og Amita spørger, om han bruger Metcalfes lov. Robert M.Metcalfe er en af de fire opfindere af Ethernet (Patent for Xerox PARC i 1975). og har har efter sigende påstået, at “værdien af et netværk” er proportional med (antallet afmedlemmer)^2. Så hvis et netværk med 10 medlemmer – det, man måske har i et lille kollektiv- er 100k, så er værdien af et netværk med 100 medlemmer 10000k.

Det er ikke helt klar, hvad “værdien” betyder, men under dot com boblen, blev Metcalfes lov brugt som argument for, at værdien af internetselskaber skulle vokse ganske enormt:

Hvis det koster 100 kr at tilføje en abonnent til aol.com eller et andet firma, er udgiften ved at tilføje x abonnenter 100x. Men værdien af at tilføje f.eks. 20 abonnenter til et netværk med 1000 abonnenter er (1010^2)k-(1000^2)k= 40400k.

Man har altså en omkostningsfunktion C(m)= K+mx, hvor m er antal medlemmer.

Og en værdi af foretagendet på V(m)= km^2.

I en glimrende artikel, “Metcalfes law is wrong ” beskriver Bob Briscoe, Andrew Odlyzko, og Benjamin Tilly en række problemer ved den antagelse. Jeg vil blot lave en simpel graf af funktionerne 5m+10 og 3m^2

Metcalfe

Som man kan se, er værdien af investeringer i netværket enorm, når blot det er stort nok. De to grafer vil krydse hinanden, og derefter er overskuddet stort.

Men det giver jo faktisk heller ikke mening, at et netværks værdi vokser på den måde. Forbindelserne i et netværk er ikke alle lige meget værd. Man har ikke brug for at ringe til alle dem, man er i telefonselskab med. En mere moderat vækst i værdien, som foreslås i artiklen, er V(m)= m ln(m).

Argumentet er: Tag et fast medlem af netværket og se på de andres værdi for dette medlem. Påstanden er, at det generelt er sådan, at hvis værdien af den mest værdifulde af de andre er k, så er den næste k/2 værd, den næste k/3 etc. For store n, er k(1+1/2+1/3+1/4+…+1/n) cirka lig med k*ln(n), og man får altså ialt n*ln(n)*k

metcalfe2.gif

Jeg har plottet funktionerne m (rød), 1/2 m^2(gul) og m*ln(m) (grøn).

Pointen er, at den grønne vokser langsomt, men den overhaler alligevel linien på et tidspunkt. Bemærk i øvrigt, at det ikke betyder noget, om vi siger, væksten er proportional til n*ln(n) eller n*log(n), hvor ln(m) er den naturlige logaritme, og log(m) er 10-tals logaritmen, for alle logaritme fuktioner er proportionale:

log(x)=ln(x)/ln(10)

Posted in Blog | 1 Comment

3-09 Waste Not – Skarpskytten fra Texas

3-09 Waste Not – Skarpskytten fra Texas

Der optrådte en del matematik her. Ikke alt var relevant for opklaringen, men pyt.

Charlie nævnte Skarpskytten fra Texas som et eksempel på, at der altid vil være områder med højere forekomst af forskellige sygdomme end andre områder, men det behøver ikke at være tegn på, at der er noget galt i det område – det var der så her, men der var også rigtig mange flere kræfttilfælde blandt børnene. Og det var der på alle de skoler, hvor det fordækte firma havde lavet skolegård.

Charlie og Larry lavede seismisk undersøgelse af området under skolegården. Det er der også meget matematik i. Det er et inverst problem – vi aflæser noget på overfladen og forsøger at regne ud, hvordan undergrunden ser ud.

Charlie, Larry og Amita havde fået ny institutleder, Mildred Finch. Hun havde arbejdet på AMANDA, hvor man kigger efter neutrinoer (Antarctic Muon And Neutrino Detector Array) ved at se efter muoner, som dannes, når neutrinoer reagerer med noget andet. Man kan nemlig ikke måle neutrinoer. I øvrigt mente hun, Charlie skulle være instituttets Sean Connery og tiltrække nye PhD-studerende(???). Mon ikke hun reviderer det til Daniel Craig, når hun har set den seneste James Bond film… Man kunne skrive meget om hendes forsøg på at tage Amita under sine vinger. Der har været en del diskussion i USA om, at Amita er lidt for meget underlagt Charlie, og at det er rigtig skidt for en kvindelig PhD ikke at løsrive sig, fordi alle så tror, at det er manden i samarbejdet, der har lavet det svære. Måske har producerne læst kritikken. Jeg ved ikke helt, hvad man skal mene om den diskussion; så den lader jeg ligge her.

Skarpskytten fra Texas og kræftklynger

Skarpskytten fra Texas refererer til en meget almindelig fejlanvendelse af statistik. Bemeldte mand i Texas skyder mod sin lade og tegner derefter en skydeskive rundt om det område, hvor han har ramt mest. Så erklærer han sig selv for Texas’ skarpskytte.

Se det kan de fleste nok gennemskue problemet i, men hvad med følgende: Man tæller antallet af kræfttilfælde i Horsens, Kolding, Vejle og Fredericia. I Fredericia er der flest. Og der er flere, end det er sandsynligt at finde, hvis man tilfældigt vælger en af de fire byer og tæller kræftforekomster. Men det er heller ikke det, man har gjort. Man har på forhånd udvalgt den med flest. Så det, man skal overveje, er, hvad sandsynligheden er for, at den by med størst hyppighed har netop den hyppighed. Og det er jo noget andet. Det gav anledning til ophidsede diskussioner i Ugeskrift for Læger i 70’erne. Statistikken siger, at der ikke er markant flere kræfttilfælde i Fredericia i den undersøgelse, hvis man regner det rigtigt ud.

Lad os tage et lidt simplere eksempel:

Lad os antage, fødsler er fordelt jævnt hen over året, og vi har 480 patienter med skæve tæer født i perioden 1990 til 95. Hvis det nu viser sig, at der er flest født i juni, nemlig 55, er det så påfaldende? Hvis de var helt jævnt fordelt, ville der jo være 40 i hver måned.

Hvis jeg tager en tilfældig måned ud og spørger, hvad sandsynligheden er for, at der er netop 55 med skæve tæer født i den måned, forudsat alle fødselsdatoer er lige sandsynlige ikke bare for den generelle befolkning, men også for dem med skæve tæer. Så er udregningen

[tex]C(480,55)(1/12)^{55}(1-1/12)^{(480-55)}[/tex]
hvor C(480,55) er binomialkoefficienten, antal måder, man kan tage 55 ud af 480. Det udregnes
[tex]frac{480!}{55!(480-55)!}[/tex]
Jeg får 0,0035, og det er jo ikke meget. Sandsynligheden for, at der er 55 eller flere i en tilfældig måned er 0,0106.

Hvis jeg havde spurgt om sandsynligheden for, at der er 55 eller flere i den måned, hvor der er flest, ser udregningen anderledes ud. Det er faktisk ret besværligt, fordi antallet i de enkelte måneder ikke er uafhængige, når jeg antager, der er 480 i alt. Så man skal sno sig (tilnærme med en poissonfordeling med parameter 40 for dem, der vil prøve selv).

Med en poissonfordeling er sandsynligheden 0,014 for, at der i en tilfældig måned er mindst 55. (Brug for eksempel Poissonregnemaskinen her)

Sandsynligheden for, at der er mindst 55 i den måned, hvor der er flest, er 0,156, altså 15,6%

(udregnes som P(max er mindst 55)=1-P(max<55)= 1-(P(færre end 55 i en tilfældig måned)^12))

I statistiske testmetoder har man kriterier for, hvornår en hypotese kan forkastes udfra et sæt data. Man ser på sandsynligheden for at få de data eller noget, der anses for “værre” (55 eller flere med skæve tæer) forudsat, at hypotesen holder. Kan man så forkaste hypotesen om, at dem med skæve tæer fødes jævnt hen over året, udfra ovennævnte resultat? Næppe. 15,6% er en stor sandsynlighed, og overhovedet ikke nok til at forkaste hypotesen. Havde man fejlagtigt brugt de 1,4% ville man nok have forkastet hypotesen.

Posted in Blog | Leave a comment

3-8 Hardball

Kan man gennemskue, om en baseballspiller er dopet udfra deres præstationer? Det kan man da forhåbentlig – ellers var det vel dumt at dope sig. Men hvor sikker er man på, om det er steroider og ikke bare tilfældigheder.

Der var en del matematik i dette afsnit, “avanceret Sabermetrik”, som jeg vil fortælle lidt om. Charlie nævnte Shiryayev-Roberts changepointdetection. Det bliver vist for langhåret for bloggen, men overordnet set handler det om at se, hvornår man ser et skift i, hvilken fordeling, data “følger”. For eksempel kan man skifte fra at ligge på en normalfordeling med en middelværdi til en normalfordeling med en anden middelværdi. Change point detection er meget væsentligt i mange anvendelser: Er der sket et skift i aktiemarkedet, er patientens vejrtrækning virkelig ændret radikalt, er der en epidemi på vej,… Men her er det altså baseballspillere og deres præstationer, man ser på.

Sabermetrik

Sabermetrik er baseballstatistik. Det er opkaldt efter SABR, Society for American Baseball Research. Spillernes præstationer kvantificeres – antal homeruns, hurtighed, etc. Man sammenligner dem med hinanden og forsøger at forudsige, hvordan de vil præstere i næste sæson. Det kan man så bruge til at gætte (og spille) på, om det ene eller det andet hold vil vinde. Jeg ved for lidt om Baseball til at kunne forklare de forskellige mål for præstation, men Wikipedia giver flere eksempler. I Numb3rs bruger Bill Waldo statistikken til at sammensætte “Fantasy” baseballteams. (Lidt ligesom sofacykelholdene i Tour de France). Man sætter et hold af spillere fra forskellige hold, og så bruger man deres præstationer i sæsonen til at se på, hvilket Fantasy hold, der ville have vundet, altså sabermetriske metoder.
I dette afsnit af numb3rs har man fundet en formel, der kan se, at en spiller bruger steroider.
Det kan man jo nok ikke se med 100% sikkerhed, men hvis en spiller pludselig begynder at præstere meget bedre i forhold til et af de mange mål – løber hurtigere, slår hårdere, … og det passer med, hvad man kan forvente ved brug af steroider, kan man nok få en mistanke.

Steroider og home runs

I 2007 skrev en fysiker, Roger Tobin, en artikel “On the potential of a chemical Bonds: Possible effects of steroids on home run production in baseball” til American Journal of Physics. Se pressemeddelelsen . I 1927 satte Babe Ruth rekord med 60 home runs i en sæson, og den rekord holdt til 1961, hvor Roger Maris havde 61 home runs. I de efterfølgende 35 år var der ikke nogen, der havde mere end 52 home runs, men i perioden 1998-2006 var der 6 spillere, der havde mere end 60 home runs på en sæson. Faktisk havde Barry Bonds 73 home runs i 2001. I 2003 indførte Baseballturneringerne test for steroider, og antallet af home runs faldt drastisk. Der har ialt været 20 spillere, der har slået mere end 50 home runs på en sæson, og det er altså ret dramatiske, at man pludselig har 6, der slår mere end 60.

Tobin regner på effekten af at kunne slå hårdere og finder, at steroider kan forklare det meste af det øgede antal home runs. Omvendt kan mange home runs måske være et tegn på brug af steroider.

Tom Tango og Derek Zumsteg har studeret Barry Bonds’ præstationer og afhængigheden af steroider (ham med de 73 home runs). Der er en periodisk svingning i præstationerne svarende til at bruge steroider i 3 uger og holde en uges pause. Han bruger flere mål, men et af dem er HR-rate=Antal Homerun/Antal slag. Eller rettere antal slag, fraregnet “walks” (hvor man måske bare går hen til første base eller hvad? Jeg har spillet en meget lille smule base ball for rigtig mange år siden, og jeg husker det mest som en avanceret form for rundbold…)

I de uger, hvor han er på steroider, er hans HR-rate i 2002 9,8%, når han er på steroider og 3,9% når han ikke er det. Og der er tilsvarende afvigelser i de andre år med steroider.

For at se, om det nu er dramatiske afvigelser, har man brug for statistik. Der er en lang diskussion af det på denne blog
Man kan f.eks. finde links til regneark med diverse data.

Man kan spørge om flere ting:
Man tager en tilfældig spiller og deler sæsonen op i 4 ugers blokke (3 med steroider, 1 uden), og man ser på alle de 28 mulige opdelinger (start på sæsonens dag 1, start på dag 2,…start på dag 28) Så vælger man den, hvor der er størst udsving mellem 3-ugers perioderne og 1 ugers perioderne. Så vil man altid finde en afvigelse, der ser mystisk ud – det er jo det, man har udvalgt opdelingen efter. Men

hvor meget værre er det, man ser hos Bonds, end hos de andre?

Hvor meget værre er det i årene med steroider end i årene uden?
Man ser altså på, om udsvingene i Bonds’ præstationer kunne være tilfældigheder. Mere præcist: Hvor sandsynligt er det at se de data for Bonds’, hvis han nu ikke var på steroider?

Hvis man har normalfordelte data, måler man det i standardafvigelser, altså hvor langt væk fra middelværdien data ligger: 68% af data ligger indenfor 1 standardafvigelse, 95% indenfor 2 standardafvigelser og 99,7% indenfor 3 standardafvigelser. Så hvis man finder data, der ligger mere end 3 standardafvigelser væk, er det meget usandsynlige data. Og man må genoverveje sin hypotese om normalfordelte data med den middelværdi og den spredning. I tilfældet med Bonds: Mon ikke han er på steroider, når hans data er blandt de meget usandsynlige, hvis han ikke var det.

Shoeless Joe Jackson og the Black Sox skandalen.

Larry nævner Black Sox skandalen: I en artikel “Did Shoeless Joe Jackson Throw the 1919 World Series?”, The American Statistician, Vol 47, no.4, pp. 241+250 af Jay Bennett, bruges statistiske metoder til at analysere Baseballskandalen fra 1919, hvor Chicago White Sox bevidst tabte til Cincinnati Reds og dermed gav dem, der spillede på kampen og vidste det, en fordel. (Det var mafiaen, der havde sat det i værk. Og der hentydes til skandalen i Godfatherfilmene)

Spørgsmålet er, om Joe Jackson var med til det. Hvis ikke, skulle han måske inkluderes i baseball Hall of Fame…

Konklusionen er, udfra statistisk analyse af kampene og hans præstationer, at han spillede så godt, at han formentlig ikke var med til at lade dem tabe. Faktisk spillede han bedre i World series end alle andre og bedre end forventet udfra hans egne tidligere præstationer. Man laver en hypotesetest: Hvor sandsynlige er de data, man ser, hvis han rent faktisk spiller dårligere end forventet. Og afviser hypotesen med meget stor sandsynlighed.

Posted in Blog | Leave a comment