4-16 Atomnummer 33.

Atom nummer 33 er Arsenik. Charlie og Larry demonstrerede egenskaber ved en ikke-Newtonsk væske. der var noget om Social Network Analysis, om Affinitets analyse, om skjult kontra åbenlys dynamik.

Affinitetsanalyse
Her er vi i området “datamining”. Man forsøger at uddrage information fra store datamængder. Overordnet ser man i affinitetsanalyse på egenskaber, begivenheder el. lign, der ofte optræder sammen. Charlie nævnte et eksempel fra markedsanalyse, hvor man åbenbart konstaterede, at bleer og øl ofte blev købt samtidig. Heraf konkluderede man meget underligt, at det var mænd, der “blev sendt i byen efter” bleer. Helt ærligt: Kan man ikke forestille sig, at mænd simpelthen har ansvaret for bl.a. køb af bleer. Eller at kvinder køber øl??? Nå, men det er jo netop det, der er pointen. Man snakker om “i det store og hele”, altså statistik.
Man skal have kvantificeret, hvad man mener med,at det optræder “ofte” – er det 50 % af indkøb af bleer, der også involverer køb af øl? Hvor mange køber øl, uden at købe bleer etc..
Jeg har fundet eksemplet med bleer og øl andre steder bl.a. her i en blog om markedsanalyse. (Der refereres til en bog, “Discovering Knowledge in Data: An Introduction to Data Mining” – link til Google Books.) Øl og bleer er efter sigende et klassisk eksempel i “indkøbskurvsanalyse”
Affinitetsanalyse er “med retning”, forstået som, “hvis en kunde køber øl, køber hun bleer”. Eksempel: Hvis man observerer, at der ud af 1000 kunder er 200, der køber bleer og af disse er der 50, der køber øl. Så vil man sige, at køb af bleer implicerer køb af øl med støtte (support) på 50/1000= 5% og konfidens 50/200 =25 %. Support er sandsynligheden for køb af både bleer og øl. Konfidens er sandsynligheden for køb af bleer givet man køber øl.
Udtrykt med betingede sandsynligheder er Support= P(bleer OG øl), Konfidens = P(bleer | øl).
Man kan så vurdere, hvilke sammenhænge, der er tydeligst udfra support og konfidens – f.eks. ganger man de to sammen. Man kan naturligvis også have flere variable med: Hvis man køber bleer og øl, så køber man Weekendavisen. Digt selv videre.
Charlie snakker faktisk om support values og prediction values, og mon ikke, han mener konfidens, når han siger prediction values.
Det er der, han gennemskuer, at præsten og hans påståede søn har mere “association” end f.eks. præstens søn og den tidligere præsts datter.

Social Network Analysis
Har vi haft flere gange på bloggen. Se her.

Ikke Newtonsk væske
I en Newtonsk væske er viskositeten konstant. Altså er væsken lige flydende uanset, hvilke kræfter man bruger på den – rører hurtigt rundt eller slår på den. Viskositeten afhænger af temperatur og tryk. Mere præcist er der en lineær differentialligning
t(y)=m du/dy
hvor m er viskositeten. Jo mere flydende, jo mindre er m.
Man skal tænke sig, at man har væsken i en (stor) balje. Man lægger en plade i overfladen og flytter den med hastighed u. Så vil man få en effekt ned igennem væsken, som afhænger af, hvor dybt man er nede.
t(y) er “shear stress” i en retning parallelt med overfladen, du/dy ændrigen i hastigheden u jo længere man kommer ned – (y-koordinaten er nedad). Shear stress måles i kraft pr areal og er noget med, hvor meget kraft der skal bruges for at flytte væsken med den hastighed, den må have i dybde y, når den er 0 i bunden og vi har bestemt, hvad den er i overfladen. (Jeg er lidt på dybt vand (!) her, så fysikkyndige må meget gerne korrigere.)

I vand vil effekten ned igennem være større end i havregrød.

I en ikke-Newtonsk væske afhænger viskositeten af, hvordan man “behandler” væsken, (m i ligningen ovenfor er en funktion af f.eks. du/dt, at hvor længe, man har påvirket (rørt rundt) eller andre faktorer udover temperatur og tryk.). Eksempelvis moderne maling, som er mere flydende, når man smører det ud, men er ret geleagtigt, når det er i bøtten – det er tixotropisk; faktisk afhænger viskositeten af, hvor længe man har påvirket malingen.
Andre væsker bliver mindre flydende, når man påvirker dem. F.eks. majsstivelse eller kartoffelmel opløst i vand, ketchup og kagecremepulver (som er mest majsstivelse). Man bruger ikke-Newtonske væskers egenskaber i koblinger i differentialet i visse fire-hjulstrukne biler.
Der er masser af videoer på nettet med folk, der går på ikke-Newtonske væsker – man fylder et svømmebassin med kagecreme eller vand med stivelse og løber på det. Som Charlie og Amita siger, er der ikke meget fornuft i det, men det er rigtig sjovt. Men anvendelserne er der altså f.eks. i maling og smøring. Og, ikke mindst, kagecreme.


Fra en spansk TV-kanal


 På en højttaler – det ligner nærmest små dyr…

 

Brainiacs John Tickle går på kagecreme (custard). Kommenteret af TopGears Richard Hammond, som dengang var vært på Brainiacs.

De har selvfølgelig også gået på kagecreme i Mythbusters og i Time Warp, men det må i selv Google jer til.

4-15 End Game

Først må jeg indrømme, at det var småt med troværdige matematikanvendelser i dette ellers spændende afsnit. Men Charlie, Amita og Larry snakkede om matematik. Der var en del om OODA loop, som Charlie efter sigende brugte til at forudse Porters og Ferraros næste træk. Mobiltelefoneres bevægelse blev kortlagt via forbindelser til sendemaster. Udfra en “Integrated Noise Model” fandt Charlie og Amita huset, hvor Ferraro gemte sig.

Så var der en del om vedvarende energi og klimaproblemer. At planen i starten var at brænde majs af i fyret lyder helt ude i hampen. Det er der ikke meget grøn energi i. Men solcellerne og måske også afbrænding af tørrede alger kan da godt hænde at være en god ide se Science Daily.

OODA-loop
Observe, orient, decide, and act

File:OODA.Boyd.svg

Diagram fra Wikipedia.

Det ligner det diagram, Charlie havde på tavlen i sit kontor. Ideen er, and man Observerer (modstanderen) Orienterer sig i forhold til traditioner, tidligere erfaringer, arv, ny information (se stjernen i det blå felt). Så Beslutter man sig og Handler. Og observerer, hvad der så sker etc.

Man skal forsøge at gennemskue de andres OODA loop, så man kan “kortslutte det” ved at forvirre dem. Og man skal agere hurtigere – ved at have bedre materiel (jagerfly f.eks.) eller ved at tænke og beslutte sig hurtigere. John Boyd gik derfor ind for hurtige adrætte kampfly og var med til at designe F16 og F/A 18 Hornet, som bruges idag (Adam fra et andet glimrende TV-program, Mythbusters, fløj i den seneste episode med Blue Angels, de amerikanske opvisningsjagerfly, og det er, så vidt jeg ved, F/A 18 Hornets)

OODA loop beskrivelsen bruges i beslutningsteori for firmaer, og skal selvfølgelig tages med et gran salt.

Integrated Noise Model, INM

INM er en model for støj i nærheden af lufthavne. Udviklet af de amerikanske FAA, Federal Aviation Administration. Modellen indeholder standarder for mere end 100 forskellige flytyper, og det er nok dem, Charlie vil sammenligne med. Og udfra den støj, der er på videoerne af gidslerne vil han se, hvad det er for fly og sammenligne med INM for lufthavne i Los Angeles.
INM kan bruges til at beregne f.eks. hvor mange mennesker, der kan forvente støj på mindst XdB i mindst Ytimer om dagen. Det er ganske indviklet. Man kan flytte rundt på start og landingsbaner og se, hvad der sker ved det, man kan bruge forskellige flytyper og man kan vælge forskellige støjmetrikker, mål for støj. Der er en præsentation af systemet her, hvor man kan se nogen af mulighederne.
En Støjmetrik, noise metric, er måde at opgøre støj på. I artiklenNot another Noise Metric, som desværre ikke er gratis tilgængelig, diskuteres flere metrikker: Community Noise Index (CNI), Noise per Seat Index (NPSI), Effective Perceived Noise Level (EPNL), Day-Night Equivalent Sound Exposure Level (DNL), A-weighting, maximum level (Lmax), and signal-to-noise ratio (S/N).
Man kan jo selv finde på nogen: Gennemsnitlig støj over et år. Maksimum støj over et år. Støj om natten, støj om dagen.
Københavns Lufthavn har støjmålinger og diverse restriktioner vedr. nat og dag flyvning her. I Aktuel Naturvidenskab 2005 er en artikel om bl.a. måling af lyd, Når støjen skader – nye metoder kan forhindre fremtidens høreskader af Dorte Hammershøi, Henrik Møller og Rodrigo Ordoñez, Aalborg Universitet.
Lyd måles normalt i decibel, en skala som måler relativt til et valgt niveau. Man vægter lyden i forhold til, hvor godt vi hører det, og siden vi hører godt i frekvensområdet 250 og 4000 Hz, anses det for værre, hvis larm er i det område end f.eks. med lavere frekvenser. Denne vægtning indgår, når man skriver dB (A) eller A-vægtet decibel. Ifølge artiklen viser det sig, at højfrekvent støj er mere skadeligt end støj i det omrøde, hvor vi let kan høre det. Man bør derfor nok ændre kravene til støj.

Om decibel:
Hvis to højttalere spiller præcis samme frekvenser, men den ene har et dobbelt så højt lydtryk som den anden, så vil forskellen målt i decibel være 10 log (2) = 3 dB. Spiller den 10 gange så højt, er det 10 log (10) = 10. Vi bruger 10-tals logaritmen. Spilede den anden en million gange så højt, ville forskellen i decibel være 10 log (1000000)= 60.
87 dB siger, at 10 log (“højttaler 2″/”højttaler 1″)=86. Altså højttaler 2 spiller 10^(8,7)=501 187 234 gange så højt som højttaler 1, som vi tænker på som referenceniveauet.
Man skal altså have en reference – den, der svarer til 0dB. dBA giver dette grundniveau afhængigt af frekvensen, så at høre 1000 hz ved et givet lydtryk er flere dBA end at høre 30 hz ved samme lydtryk. Referenceniveauet er lavet ved at lade mennesker fortælle, hvornår noget ved forskellig frekvens lyder lige højt. F.eks., hvornår de lige præcis kan høre en lyd ved en given frekvens.

Man bruger logaritmiske skalaer dels fordi det svarer bedre til ørets følsomhed og dels fordi det er let at sammenligne lydtryk og effekten, som er lydtryk^2. Det skyldes, at
log (x^2/y^2)=log ((x/y)^2) = 2log (x/y), så man kan sammenligne ved at gange eller dividere med 2. Havde man ikke taget logaritmen var sammenligningen via kvadratrod og “i anden”

Man kan også måle lydtryk i forhold til en målbar fysisk størrelse, og her er grundniveauet normalt 20 mikroPascal. Lydtrykket er størrelsen (amplituden formentlig) af den ændring i trykket, lydbølgen forårsager. I decibel er det så 10 log (“lydtrykket”/20 mikropascal). Dette kaldes på engelsk dBSPL for Sound Pressure level) Normal tale svarer til ca 74 dB i denne skala, smertetærsklen er 130 dB. I dBA skalaen vil dette i princippet afhænge af, om man taler med dyb eller høj stemme. Men man taler måske med forskelligt lydtryk afhængigt af ens frekvens?

Vægtning til dBA, dBB og dBC. Den vandrette akse giver frekvenser, den lodrette er lydtryk målt i forhold til 20 mikropascal, altså et fast niveau.

4-14 Checkmate

Amita og Larry brugte “temporal link analysis” på alle emails til den mistænkte bagmand. Amita talte om semantic netgroup terms, Charlie snakkede om Supervised multiclass labelling og the Chanel algorithm (?), Amita brugte backwards induction.

Temporal link analysis
Her er seriens forfattere inspireret af artiklen Identifying Potential Suspects by Temporal Link Analysis. P.Gloor og S.Niepel. I den artikel analyseres emails mellem 150 personer i og omkring Enron skandalen. De bruger et mere generelt værktøj udviklet af Gloor’s gruppe under innovative Collaborative Knowledge Networks iCKN på MIT (Boston, USA). Programmet, TeCFlow, analyserer emails og visualiserer kommunikationen grafisk. Eksempelvis illustrerer man, hvor mange emails, der indeholder ordene prohibit, confidential og andre, man mener kunne være mistænkelige. Og der er kanter mellem ordene, hvis de optræder i samme mail.
Man illustrerer udvikling over tid af f.eks. centralitet i netværket af afsendere og modtagere af mails, altså, at få personer står for meget af trafikken i forhold til mere homogene net. Man kan analysere, om nogen primært modtager, mens andre primært afsender. Og meget mere. Pointen er, at man har et program, der udfra en database med emails, laver illustrationer og sorterer, så man kan finde hoved og hale i den store mængde data.

Gloor og co. lægger vægt på at kunne illustrere det tidslige aspekt.
Der er en del matematik og algoritmer bag: I opbygningen af databasen skal man f.eks. sørge for, at søgning i den er let for den slags søgninger, man har planer om. Et andet aspekt er repræsentationen af graferne – knuder med kanter imellem. hvor langt skal der være mellem knuderne for at det ser godt ud?
Her bruger de Fruchterman Reingold graftegningsalgoritmen, som er fra en artikel i 1991. Ideen er, at man bruger fysiske love til at bestemme, hvor knuder og kanter skal være. Knuderne betragtes som elektrisk ladede partikler, der frastøder hinanden, og kanterne er fjedre. Programmet placerer hjørner og kanter og algortimen flytter dem, indtil det hele er i ligevægt – meget kort fortalt. Der findes en del algoritmer af den type – man kan variere, hvilke kræfter, der skal virke og dermed få andre tegninger af grafen. På engelsk kanldes det “force directed” algoritmer.
Der er flere illustrationer af, hvordan de virker, på You Tube. Jeg ved ikke, om denne er den bedste; algoritmen er ikke helt perfekt implementeret, men nu kan I jo se:

At visualisere store datamængder studeres f.eks. i Sydney Information Visualization Group, hvor de har mange flotte billeder af grafer.

Supervised multiclass labelling
Det er en ny algoritme, SML, fra 2007 til genkendelse af bestemte elementer i billeder; eksempelvis bjerge. (Artiklen bag er Carneiro, G.; Chan, A. B.; Moreno, P. J.; and Vasconcelos, N. “Supervised Learning of Semantic Classes for Image Annotation and Retrieval.” IEEE Trans. Patt. Anal. Mach. Intell. 29, 394-410, 2007.). Det er et program, der skal lære af en stor billeddatabase, og der er rigtig meget sandsynlighedsteori og statistik bag læreprocessen. I programmer der skal lære, bruger man ofte Bayesiansk statistik, hvor man starter med en fordeling, en prior, og opdaterer den efterhånden som man bliver klogere. I dette tilfælde er det delvist “supervised”, så mennesker skal fodre med billeder og sige ja eller nej, når programmet påstår, noget er et bjerg, en kanin eller hvad man nu synes, det skal lære.
Der findes flere af den slags algoritmer, og Google er f.eks. interesserede i at få mulighed for, at man kan søge efter et billede af en bjørn ved at søge i, hvad der er på billedet og ikke hvad der står i billedteksten, som man vist nok gør nu.

4-13 Black Swan

Jeg skrev om dette afsnit i foråret, inden jeg opdagede, at de var holdt op med at sende nye afsnit – distræt matematiker…
I kan læse om Black Swan afsnittet her.
Der er en lang række artikler om Nicolas Talebs “Black Swan” og især hans polemiske stil i The American Statistician 61 her, men det koster vist penge at læse dem, så det er der ikke meget ved.
Jeg vil se, om jeg kan finde en statistiker, der ved, hvad der er op og ned på Talebs “teorier”, som vist mere er populære bøger.