Bones of Contention. 2-10. Voronoi diagrammer og kulstof 14 datering.

Hej Bloglæsere.

Denne episode er bygget på bl.a. “The Kennewick Man”, som overhovedet ikke er matematik, men en blanding af arkæologi og politik. Se for eksempel her på about.com, eller National Park services Archeology Program
eller i Google. Åbenbart fandt man et skelet, der er ca. 10000 år gammelt, og det politiske går så på, om indianerne alligevel ikke er “de oprindelige” beboere i USA. Herunder, hvilken race skelettet havde, og hvem der har ret til at begrave det. Og hvad betyder det for rettigheder til land etc. En lang historie.

Matematikken var dels den matematik, der ligger bag kulstof 14 datering, (eksponentiel vækst) og dels Voronoi diagrammer. Jeg holder mig til Voronoi diagrammerne. Kulstof 14 kan man læse om på dansk mange steder på nettet; jeg er lige ved at tro, at Wikipedias danske version er ok på dette område. Lad mig nøjes med at gøre opmærksom på, at metoden blev indført i Danmark af Hilde Levi
Desuden havde antropologen data, som Charlie lagde ind i FORDISC, et program, der udfra en række data om kranier kan klassificere dem. F.eks. efter køn, men også efter om de hører til en af de 28 populationer, man har data om i “Howells databank”. Her er der jo noget statistik begravet, men jeg kender ikke programmet. Hvis man Googler FORDISC kan man se, at der (ikke overraskende) er en del debat om den slags klassifikation.

Voronoi diagrammer.

her er et Voronoi diagram (fra Eric Weissteins Mathworld https://mathworld.wolfram.com/VoronoiDiagram.html)
Man har på forhånd givet nogle punkter i (et stykke af) planen. Dette stykke af planen opdeles på en måde, så

  • Der er præcis et af de oprindelige punkter i hvert område.
  • Hvis man er i et af områderne, er det punkt, der ligger der, det punkt, der er tættest på – altså ligemeget hvor i det tilhørende område, jeg er.

En forklaring, jeg har snuppet fra min amerikanske blogkollega, er: Forestil jer en ørken med en masse vandautomater. vi vil lave en opdeling, så man altid ved, hvilken vandautomat, der er tættest på. Har man kun to punkter, er der en linie imellem, hvor man er lige tæt på begge punkter; de liniestykker, man ser i Voronoi diagrammmet er dele af sådanne midtnormaler. Er man på en af kanterne er man lige tæt på mindst to af punkterne. Man kan lege med det på denne applet fra Cornell – sæt punkter ind ved at klikke.
Man kan også lave rumlige Voronoi diagrammer – med samme specifikation. (Man kalder det også en Voronoitesselation).
denne side, som er en del af en større samling af applets til geometri (også Steinertræer), lavet af Takashi Ohyami, kan man lave Voronoitesselationer udfra andre afstandsmål end det sædvanlige. Se også metriske rum fra tidligere på blogen.
Anvendelser er der masser af; og der er sågar en hjemmeside om Voronoi diagrammer, deres anvendelser etc.
Et eksempel er GIS-systemer. Vil man finde det nærmeste busstoppested, er det det stoppested, hvis Voronoiområde, man står i.

Min kollega, Jesper Møller, som har arbejdet meget med Voronoitesselationer i statistik, har fortalt mig om mange andre anvendelser:
Det bruges i biologi til at studere planter, der konkurrerer om plads, lys, etc. og til at modellere dyrs territorier.
Grævlinges territorier modelleres for eksempel som Voronoidiagrammer med grævlingehuler som udgangspunkt.
I økonomi kan man vurdere, hvor mange forbrugere, der vil bo tættest på et nyt supermarked med forskellige mulige placeringer, før man rent faktisk placerer det nye supermarked. (Charlie forklarede det med burgerrestauranter). Bygger man IKEA i Aalborg, har man uden tvivl overvejet, hvor mange kunder, der vil foretrække at tage dertil og ikke til IKEA i Århus. (Det er nok ikke kun et spørgsmål om afstand, eller i hvert fald er det afstand målt i tid og ikke fugleflugtslinie).

Galakser ser ud til at være koncentreret om sideflader, kanter og især hjørner af en 3D Voronoi-tesselation af rummet. Og hvad er så “punkterne”, altså kernerne i Voronoi-tesselationen? Jeg har, via Jesper, fået en forklaring fra astrofysikeren Rien van de Weygaert, og når man ikke er vant til at færdes blandt astrofysikere, kan man godt blive lidt svimmel af den slags:
Voronoimodellen (kosmisk “skum”) forklares ved, at man i Universets tidlige fase havde en meget jævn (uniform) fordeling af masse, men dog med lidt variation, så der var steder med midre massetæthed og steder med højere tæthed. Som tiden går, vil masse tiltrækkes til de områder, hvor der er højere tæthed, og det er selvforstærkende, så man får mere og mere masse nogen steder, og tomrum de steder, hvor der i starten var lavere massetæthed. Der er mange kræfter, der virker: tyngdekraft, hydrodynamik, dannelse af stjerner, supernova eksplosioner etc. og astrofysikerne har ikke styr på hele det samspil.
Men den information, vi har, tyder på, at galakserne danner en slags “skum” struktur – ligesom sæbeskum.
Galakserne sidder, hvor tætheden oprindeligt var størst, og imellem er der tomrum, som oprindeligt var minima i tætheden af masse.
Rien skriver meget poetisk, at det er “et ocean af mørkt stof og galakserne sidder på toppen af de højeste tårne (mest tæthed) af mørkt stof”. At det er en Voronoitesselation, der bedst beskriver skummet, skyldes bl.a., at de kan varieres og komme til at passe med mange forskellige antagelser om universet, og når man skal bruge statistiske metoder til at se, hvilken struktur, der passer bedst til data, er det godt at have en fleksibel struktur.
Det samme gælder anvendelserne i biologi etc., hvor man også skal have strukturen til at passe med noget kendt data.

Charlie ville modellere placering af bosættelser udfra kendskab til naturlige ressourcer som floder; på den måde ville han finde gravpladser. Man modellerer faktisk bosættelser på den måde, men det kunne nu ikke bruges til noget i serien…

Hilsen Lisbeth www.math.aau.dk/~fajstrup
numb3rs@math.aau.dk

Posted in Blog | 2 Comments

Numb3rs på norsk tv

Jeg ved, at der er læsere af bloggen, som ikke kan se Kanal 5. Hvis I kan se Norge 2, kan I alligevel se Numb3rs. Det er torsdag aften. De er et par episoder efter Kanal 5, og de tekster på norsk, men det burde vel ikke være et problem. Apropos, så har jeg reklameret lidt for bloggen i Norge. Velkommen til eventuelle norske læsere.

Hilsen Lisbeth. numb3rs@math.aau.dk

Posted in Blog | Leave a comment

Steinerpunkter

Der er flere definitioner på et Steiner punkt. En af de mere kreative definitioner er, at det er et punkt, som skal bruges til at løse et af de problemer, Jakob Steiner rejste.
I sidste uges Numb3rs refererede Charlie til Steinerpunkter i forbindelse med Steinertræer. Vi har nogle punkter i planen og vil lave et netværk af stier, der forbinder alle punkterne, og som er så kort som muligt. Vi forlanger, at netværket udgør en graf, altså består af punkter og linier imellem dem – stier må ikke bue. Typisk skal man tilføje flere punkter end de oprindelige for at lave sådan en graf. For tre punkter (som ikke ligger på linie) skal man tilføje et punkt inden i trekanten, som man ser på billedet (fra Wikipedia, hvor det er stillet frit til rådighed – tak for det…)

Man kan vise, at vinklerne mellem de tre kanter er 120 grader.
Starter men med 4 punkter, A,B,C,D, skal man tilføje to Steiner punkter:


med mindre A,B,C og D ligger som hjørner i et kvadrat.
Der vil altid gå tre kanter ud fra et Steiner punkt, og vinklerne mellem disse kanter er 120 grader.
Man skal højst tilføje N-2 Steiner punkter, når man starter med N punkter.
Steiner træer er for eksempel nyttige, når man skal designe elektriske kredsløb. Hvorvidt de var nyttige i sidste uges Numb3rs, er jeg ikke sikker på. Hvis Charlie rent faktisk fandt et Steiner punkt for tre punkter i et terræn med bakker og buskads, må han have brugt et afstandsmål hørende til området, så man for eksempel måler afstand i, hvor lang tid det tager at komme fra et sted til et andet, og måske lader berberisbuskads være uigennemtrængelige, så afstand bliver langs en sti, der løber udenom. Den slags generaliserede Steinertræ-problemer har man også studeret. Mange af Steinertræ-problemerne er NP-fuldstændige – se forklaring tidligere på bloggen.

Charlie forklarede om sæbebobler og Steinertræer. Man kan få sæbehinder til at løse Steinertræ-problemet ovenfor ved at tage to stykker plexiglasplade, forbinde dem med (ret korte) pinde svarende til de punkter, vi vil lave Steinertræ for (Nu sidder de to plader sammen – parallelt med en lille afstand i mellem) Man dypper hele konstruktionen i en balje med sæbevand, og når man tager den op, vil den sæbehinde, der dannes mellem punkterne (mellem pindene), netop svare til et Steinertræ, se tegning her. Sæbehinder danner minimalflader – flader, der “ikke kan trække sig mere sammen” uden at gå i stykker. Minimalflader er et stort og interessant emne i både matematik og design. Måske kommer der mere om det i Numb3rs – jeg skal se på Numb3rs til i morgen, så I får ikke mere om Steinerpunkter og sæbehinder…
Hilsen Lisbeth. www.math.aau.dk/~fajstrup
numb3rs@math.aau.dk

Posted in Blog | Leave a comment

Toxin 2-09. Informationsteori, broerne i Königsberg

Hej Numb3rsfans.
I dag snakkede Charlie om en del spændende matematik. Om det ligefrem spillede en rolle i opklaringen af forbrydelsen kan man nok tvivle på, men pyt med det. De opklarede jo sagen. Matematikken var bl.a. informationsteori, broerne i Königsberg, Steinerpunkter og sæbebobler. I må vente med Steinerpunkterne og sæbeboblerne til senere – måske i næste uge.

Informationsteori.
Charlie nævner informationsteori og siger noget om, at der er forskel på tilfældighed. Han snupper sin fars kryds og tværs og giver et eksempel: Hvis man skal finde næste bogstav i et ord, hvor man kender de første tre, er der nogle bogstaver, der er mere sandsynlige en andre.
Informationsteori er mange ting – flere sider i Encyklopædien – men Charlie mener nok matematisk informationsteori.
Ideen om, hvordan man kan give et mål for mængden af information i f.eks. en besked, der skal sendes over nettet, skyldes Claude Shannon i artiklen A mathematical theory of Communication fra 1948, hvor han bl.a. definerer informationsmængden, entropien. Entropi defineres via sandsynlighedsteori; man skal have et mål for, hvor meget klogere, man er blevet af at få en bestemt information. Vi forudsætter, at man på forhånd har en ide om, hvad der sandsynligvis kunne ske. Er beskeden så, at noget, vi anså for meget usandsynligt, er sket, vil vi anse det for mere information, end hvis vi får vished om, at noget, vi allerede mente var ret sandsynligt, rent faktisk er sket. Er informationen udfaldet af at slå et slag med tre terninger, vil jeg blive mere overrasket over 3 seksere, end over 2 seksere og en treer, fordi det sidste er et mere sandsynligt udfald (der er tre måder, man kan få 2 seksere og en treer svarende til, hvilken terning, der giver en treer). Man vil også blive mere overrasket over at få at vide, at det regnede i San Francisco i juni, end at det regnede i København. Så man måler informationen udfra, hvad man ved om sandsynligheden for de forskellige mulige informationer.
Et aspekt af informationsteori er at uddrage hvor lidt plads, der skal til for at repræsentere informationen – hvor mange bits. De bits, der er overflødige er redundante. Hvis vi ved, beskeden handler om et slag med en terning, behøver vi ikke bruge plads til at fortælle, at værdien er under 10, vi kan nøjes med et ciffer i titalssystemet og tre bits i totalssystemet. Inden vi skal sende beskeden vil vi forsøge at komprimere den mest muligt – smide overflødig information væk.

Et andet aspekt af sagen er, at man faktisk ofte sender overflødig information med: hvis man skal sende på en “kanal med støj”. Som f.eks. afspille en CD eller sende noget over nettet. Hvis beskeden risikerer at blive ændret lidt undervejs, vil man gerne kunne rekonstruere den. Det kan man f.eks., hvis man har sendt samme besked to gange, altså sendt overflødig information. Men det kan gøres noget mere intelligent – det er det, kodningsteori beskæftiger sig med. Se f.eks. Olav Geils hjemmeside. Hvor meget ekstra information, der skal med, afhænger af, hvor meget støj, der er på linien.

Broerne i Königsberg

(fra Eric Weissteins Math World)
viser de syv broer i Königsberg (nu Kaliningrad). Königsbergbro problemet er: Findes der en gåtur, hvor man kommer over alle syv broer, kun en gang over hver, og starter og slutter samme sted.
Euler gav svaret: Nej, det gør der ikke. Og han gav et kriterie. Man kan betragte problemet mere generelt: Er der i grafen (igen fra Eric Weissteins Math World https://mathworld.wolfram.com)

her en tur rundt, som starter og slutter i samme hjørne (en af de røde prikker) og passerer alle kanter præcis en gang. Svaret er for generelle grafer (punkter forbundet med kanter som ovenfor), at det er der, hvis og kun hvis der udfra alle hjørner går et lige antal kanter. Altså hvis hvert hjørne er forbundet til et lige antal andre hjørner. Se mere under Verdensår for Matematik.
Det er en væsentlig pointe, at det er fuldstændig ligegyldigt, hvilken facon landområderne har – derfor er de trukket sammen til de røde punkter. Den slags matematik hører til i algebraisk topologi, hvor vi studerer egenskaber ved geometriske objekter, som er mere kvalitative end afstand, areal, vinkel etc. Vi vil have lov til at strække vores objekter, men dog ikke rykke dem i stykker. Som når vi er ligeglade med, om vi ser på billedet af broerne eller figuren med røde punkter og kanter mellem dem. Man siger, at vi ikke kan se forskel på en kaffekop og en doughnut, men tro mig, DET kan vi. Matematikere er generelt ret glade for kaffe…

Mere om Steiner punkter og sæbebobler senere

Hilsen Lisbeth www.math.aau.dk/~fajstrup
numb3rs@math.aau.dk

Posted in Blog | Leave a comment

In plain sight, 2-08, Steganografi, flokopførsel.

Hej Bloggere.
Den matematik, der især var nyttig for Charlie idag, var steganografi, kryptering og noget om flokopførsel. Kryptering har vi haft oppe på bloggen før, så jeg koncentrerer mig om steganografi og flokopførsel.

Steganografi
Ønsker man at sende information, som uvedkommende ikke kan læse, kan man kryptere informationen. Ønsker man yderligere, at det er skjult for uvedkommende, at der overhovedet er noget hemmelig information, kan man bruge steganografi. Det dækker over alt fra usynligt blæk til topmoderne metoder.
I Numb3rs havde nogen skjult et pornografisk billede i et andet billede, og det lykkedes Charlie og Larry at finde det frem. De brugte Pradeep Sen algoritmen, hvilket man kan læse mere om på Pradeep Sens flotte hjemmeside, eller på artiklens hjemmeside. Jeg forstår faktisk ikke, hvordan det blev brugt i programmet; man kan finde billeder af noget, der ikke umiddelbart er med i billedet, men har stået et andet sted og kan ses via lys, der reflekteres i det og dernæst i noget, der er med på billedet. Måske brugte Charlie det, da han fortalte Megan, at der var en reflektion af en person med i billedet af pigen. Skriv endelig, hvis du fik fat i det.

Ideen bag at skjule et billede i et andet er, at der er meget information i et digitalt billede, som man ikke umiddelbart kan se, når man kigger på det. For hver pixel har man tre tal, RGB-koden, som siger, hvor meget hhv rød, grøn og blå, der er i netop den pixel. F.eks. 22, 85, 217 (i virkeligheden er det binært, altså skrevet i totalssystemet; de læsere, der føler sig hjemme i totalssystemet, kan tænke på det, men jeg holder mig til 10-talssystemet i denne omgang)
Punktet 22,85,217 giver en farve; se flere farver i RGB-systemet, hvor 0,0,0 er sort, 255, 255, 255 er hvid, 255,0,0 er rød, 0,255,0 er grøn og 0,0, 255 er blå, og andre koder er blandinger. Man kan lege med det her

Forskellen på farven 22,85,217 og 20,80,210 er ikke til at se, så jeg kan gemme information i det sidste ciffer (for jer, der stadig tænker binært: de sidste to bits kan ændres, uden at ændre synligt på billedet).

Wikipedia kan man se et eksempel på et billede af nogle træer, hvor det billede, der fremkommer ved at bruge de sidste to bits, i første omgang er meget mørkt (alle bits er tæt på 0,0,0), men gør man det lysere i et billedbehandlingsprogram, fremkommer et billede af en kat.

Der er links til diverse software, som kan lave steganografi fra Wikipedia-siden.
Der har været vedholdende rygter om, at steganografi er brugt af terrorister, men et andet rygte siger, at det er et firma, der sælger steganoanalysesoftware (som finder gemte beskeder i billeder), der har spredt rygtet…

Flokopførsel
I udsendelsen i sidste uge snakkede Charlie om emergensteori, mens han kiggede på et terrarie med myrer. Det dækker over mange forskellige ting, og er bl.a. en teori i filosofi, i udviklingsbiologi og i psykologi. Fælles er, at man har mange individer, som hver for sig agerer udfra simple regler, men tilsammen ser det ud som om, de har taget en fælles beslutning; der opstår struktur i helheden – f.eks. svømmer fisk i stimer, fugle flyver i flok og myrer vandrer ad faste stier. Og den egenskab, hele systemet har, kan man ikke se på de enkelte individer – man kan ikke se på et atom, hvad trykket er i en gas, eller på en fugl, om den flyver i flok… Altså, at “det hele er mere end summen af delene”
Flokopførsel, som blev omtalt i udsendelsen idag, har tre grundprincipper: kom ikke for tæt på naboen, gå i samme retning som naboerne i gennemsnit, styr imod naboernes gennemsnitlige position. Det blev først simuleret i 1986 af Craig Reynolds’ såkaldte Boids og er blevet brugt i animationsfilm til at lave realistiske “flokke”, som f.eks. en flok pingviner i “Batman Returns” og bissende gnuer i “Løvernes Konge”. Charlie analyserede amfetaminbrugeres opførsel – måske kan man sammenligne med gnuerne – og lavede en fejl ved ikke at bruge, at der kan være en flokleder, som agerer efter andre regler end de “menige”.

Hilsner
Lisbeth www.math.aau.dk/~fajstrup
numb3rs@math.aau.dk

Posted in Blog | 3 Comments

Convergence – 2-07. GPS, data mining

Hej Numb3rs fans.

Jeg lagde mærke til en hel del matematik denne gang: Fourieranalyse, data-mining, banen for et projektil, GPS-systemet og diverse fra Charlies forskning – og hans konkurrent fra tiden på Princeton: Repræsentationsteori, den unitære gruppe, neurale netværk og et par imponerende integraler. I får noget om datamining og om GPS idag. Vi må se, om jeg får tid til at se på de andre emner en anden gang.
I øvrigt fremgik det, at alle mobiltelefoner i USA er udstyret med en GPS-chip, så de kan spores, og så man lagrer, hvor de har været. Det skulle være et krav efter 11/9. Sådan er det ikke i Danmark. Her kan man (politiet efter en dommerkendelse) få at vide, hvilke master en bestemt telefon har haft forbindelse til; den har forbindelse til en mast og et bestemt panel på masten – den mast, der er tættest på. Det giver en 120 graders vinkel (der er tre paneler) udfra masten, hvor telefonen har været. Området afgrænses af, hvor andre master ville være tættere på. Ser man ikke bare på gemte data, men får tilladelse til en sporing af en bestemt telefon i en kommende periode, kan man gøre det mere præcist. Vist nok noget med at lukke for det panel, der er tættest på, hvorefter telefonen opretter forbindelse til det, der er næsttættest på.

GPS
Der er masser af matematik bag GPS-systemet. Og bag det kommende europæiske projekt, Galileo.
GPS-systemet blev oprindeligt udviklet af det amerikanske militær, men anvendes nu, som de fleste ved, af masser af mennesker; f.eks. til at finde vej. Når man køber “en GPS” plejer man nok at mene et dyr, der kan bruges til at fortælle, hvordan man kommer fra Aalborg til Sønderborg; som kan tegne det på et kort, og som undervejs kan fortælle, at nu skal vi snart dreje til højre.
GPS er den del af apparatet, der regner ud, hvor vi er. GPS-systemet består af 21 aktive og 3 reservesatellitter, i baner 20200 km over Jorden med banehældning 55 grader (i forhold til Ækvator). De er placeret, så man til enhver tid og på ethvert punkt på Jorden vil kunne “se” mindst 4 satellitter (der er midst 4 satellitter over horisonten).
Udfra satellitternes koordinater og GPS-modtagerens afstand til hver af dem, kan man bestemme modtagerens koordinater.
Det er der naturligvis noget geometri i, og man skal i sidste ende løse et ligningssystem, hvor der kun burde være tre ubekendte, nemlig x, y og z koordinaten for GPS-modtageren i et passende koordinatsystem.
Men så let går det ikke. Afstanden til en af satellitterne udregnes ved, at satellitten har et MEGET nøjagtigt ur (faktisk to ure – så er der et i reserve); den sender et signal, 1001111011… et tal for hvert tidsinterval- f.eks. hvert sekund, men det er nu meget hyppigere. Modtageren kan generere samme følge af tal. Hvis nu modtageren havde et lige så præcist ur, ville man

  • kunne se, hvor meget talfølgen er forskudt/forsinket;
  • bruge det til at regne ud, hvor lang tid det tager for satellittens signal at nå frem,
  • og dermed finde afstanden – hastigheden for signalet er lysets hastighed.

MEN modtageren har ikke sådan et fint ur – de er nemlig dyre, og det er GPS-modtagere ikke. Derfor er der 4 ubekendte: x, y og z koordinaten, og unøjagtigheden i uret i modtageren. Man skal altså bruge 4 satellitter.
Læs mere i Johan P. Hansens noter om, hvordan man løser de fire ligninger. Man kan også se andre aspekter af matematikken i GPS. Især om, hvordan følgerne af 0 og 1 frembringes i sender og modtager.
Der er også brug for fejlkorrigerende koder (omtalt her på bloggen) – så støj på signalet kan fjernes – der er en hel del statistik og masser af fysik f.eks. relativitetsteori; både den specielle og den generelle.

Data mining
Charlie ledte efter sammenhænge i store datamængder.
Data mining, som vi ikke plejer at oversætte, dækker over flere forskellige teknikker. Overordnet går det ud på at lede efter struktur og sammenhæng i store datamængder. Struktur kan f.eks. være: Kunder, der køber både cola og økologisk mælk, skal nok også have en pose lakrids, eller noget i den retning. Det kan være at finde risikable kunder i kreditforeningen eller forsikringsselskabet, eller at opdage, at der er en sammenhæng mellem at spise bestemte ting og at få grøn stær. Et andet eksempel er undersøgelse af DNA-microarrays, hvor man måler aktiviteten af tusindvis af gener og leder efter gener med abnormt aktivitetsniveau i forhold til alskens sygdomme.
Det drejer sig normalt om meget store datamængder, hvor man ikke bare kan undersøge alle de mulige sammenhænge.
Man skal altså være mere smart. (Og her har jeg fået hjælp af Poul Svante Eriksen, som ved meget om Data mining)

Der er mange forskellige metoder, f.eks. taksonomi a la Carl von Linné’s klassifikation af planter, men lad mig omtale en, som er af geometrisk natur.
Man har, ligesom jeg omtalte i sidste uge, datapunkterne i et rum af meget høj dimension. Det skal man ikke filosofere så meget over. Dimensionen er simpelthen antallet af koordinater for hvert punkt (f.eks. hver kunde). Så hvis der er 8 egenskaber for hvert punkt, har rummet dimension 8.

Vi forestiller os, at der er noget interessant struktur; altså at data ikke er normalfordelt, men er delt op i flere “skyer” af punkter.
Lad os forestille os, at vi er i planen; altså at der er to egenskaber for hvert datapunkt. Lad os sige, vi har tre dataskyer, alle liggende ud ad x-aksen – en ligner en cirkel med centrum i (2,0) og radius 1, en med centrum i (6,0) og radius 3, og en med centrum i (122,0) og radius 3. (Plus en hel del punkter som ligger spredt rundt omkring udenfor cirklerne)
Nu projiceres ind på y-aksen (svarende til, at man glemmer punkternes x-koordinat, så et punkt med koordinater (7,8) bliver sendt til punktet (0,8), men det gør punktet (15,8) også.) Man kan se det for sig, som at alt mases ind på y-aksen.
Så bliver de tre skyer ud ad x-aksen mast sammen til 1 sky.
Hvis vi i stedet projicerer på x-aksen, vil der stadig være tre “skyer”, nu af dimension 1.
Man kan også forestille sig, at den bedste projektion ikke kan skille alle skyer ad, men måske kun 7 ud af 10.
Man leder efter den projektion, som ser mest “interessant” ud, og det kan man definere på mange måder. For eksempel at den bevarer mest afvigelse fra normalfordelingen. Igen er der noget at overveje: Hvad er f.eks. et mål for afvigelsen fra normalfordelingen? (Det kan man vælge).
Der er mange andre teknikker bag data mining – se f.eks. Wikipedia
Som Charlie siger, kan man sommetider finde sammenhænge, som ikke giver mening. Han fortæller, at man brugte data-mining til at lede efter terrorister efter 11/9, og en af de meget mistænkelige personer var Condoleeza Rice. Hun har jo oplagt haft forbindelse til meget, der har med terror at gøre. Så man skal altså have mennesker til at se efter, om resultaterne giver mening.

Hilsen Lisbeth www.math.aau.dk/~fajstrup
numb3rs@math.aau.dk

Posted in Blog | 1 Comment

Numb3rs på DVD på dansk

Jeg har fået et tip – tak til Louise – om, at filmkaeden.dk skriver, at Numb3rs sæson 2 udkommer med danske tekster 27/6-07.
Hilsen Lisbeth.

Posted in Blog | Leave a comment

2-6 Soft Target. Diffusion, perkolation, lineær diskriminantanalyse.

Hej bloggere.
Matematikken idag var noget om diffusion af gasser, “site”-perkolationsteori og lineær diskriminantanalyse.

Perkolation eller gennemsivning.
Charlie ville bruge “site”-perkolationsteori til at anlysere, hvordan forbryderen kom ind i metroen; og senere til at finde ud af, hvordan en forbryder vile kunne komme ind på Rådhuset.
Perkolationsteori giver gode modeller for problemer i fysik.
Man spørger f.eks. om væske kan sive igennem et porøst materiale eller ej. Modellen kan være, at væsken skal fra punkter i planen med heltalskoordinater til nabopunkter, og at der en vis sandsynlighed for, at passagen til en given nabo er åben.

(Fra Eric Weisstein “Percolation Theory.”)
Billedet “bond percolation” viser perkolation fra hjørnepunkter til hjørnepunkter, mens “site percolation” forestiller en situation, hvor man skal passere fra en kant til en anden kant via kvadratet imellem.
Jeg vil kun diskutere “bond percolation”.
Nogle passager mellem punkter er åbne, andre ikke. Man kan forestille sig, at billedet laves ved, at man for hver kant kaster en mønt, som med sandsynlighed p vender den side opad, hvor der står “passagen er åben”. (Samme sandsynlighed for alle kanterne.)

Hvis sandsynligheden p for, at en passage er åben, er 0, kan der ikke sive noget igennem fra top til bund; er den 1, kan der.
Hvis man har et stort område af planen med – 100×100 punkter f.eks., vil der være en meget brat overgang fra sandsynligheder p, hvor der ingen vej er fra top til bund (sandsynligheden for, at der er en vej igennem, er 0), til sandsynligheder p, hvor der altid er en vej (med sandsynlighed 1).

Har man hele planen med, siger et resultat af Kolmogorov, at der er en grænsesandsynlighed pc, hvor der ingen gennemsivning (vej igennem) er for sandsynligheder mindre end pc, og der altid er for sandsynligheder større end pc.

Der er altså et brat skift i egenskaber, en slags faseovergang. Sandsynligheded kan for eksempel afhænge af temperaturen i et materiale.
Man har en del formodninger om perkolationsteori fra eksperimenter i fysik, men de er forbavsende svære at vise.

Anvendelserne af perkolationsteori er mange; ledning af elektrisk strøm, gas og olies vandring gennem porøse materialer, spredning af viden, udbredning af en revne i et keramisk materiale etc.

Diffusion
Når man lukker (giftig) gas ud af en beholder, vil den spredes. Man har gassens molekyler samlet på et lille område, og de bevæger sig og støder ind i andre molekyler og spredes på den måde. Hvordan det sker, afhænger af mange faktorer: temperaturen af gassen i forhold til omgivelserne, trykket i beholderen, massen af gasmolekylerne i forhold til de andre molekyler siger noget om, hvad resultatet af sammenstødene er, og hvor tit de forekommer. Den slags studeres i statistisk mekanik, hvor sandsynlighedsteori er en af ingredienserne. De ligninger, vi bruger til at beskrive opførslen alt i alt, altså ikke for hvert enkelt molekyle, men for rigtig mange af dem, er partielle differentialligninger – man beskriver, hvordan tætheden af gassen forskellige steder i rummet ændrer sig med tiden. Et eksempel på en diffusionsligning er varmeledningsligningen, som siger, hvordan varme udbreder sig i et materiale – varm det op i den ene side, og det bliver efterhånden varmt over det hele, hvis ellers det leder varme. Charlie brugte en generaliseret diffusionsligning til at studere togvognen.
Lineær diskriminantanalyse.(LDA)
Charlie fortæller, at man efter det første angreb på World Trade Center i 1994 (tror jeg nok) analyserede mulige mål for nye terrorangreb ved hjælp af lineær diskriminantanalyse. Det er en metode i statistik, og jeg vil ikke rode mig ud i en alt for lang forklaring. Men det er en metode til at analysere en stor datamængde – for hvert muligt terrormål har man en hel masse tal: Hvor mange vil blive dræbt, hvor let er det at komme til, hvor spektakulært er det etc. Hvis man har 127 af den slags variable for hvert mål, er det et 127 dimensionalt rum, man opererer i – hvert terrormål er et punkt i et rum af dimension 127. Man vil gerne finde en opdeling af det 127 dimensionale rum, som skiller forskellige typer data ad.
Ligesom en plan i det 3-dimensionale rum, der deler det i to dele. Man skal så ikke kende alle de tre koordinater for at se, om et punkt er på den ene eller den anden side af planen. Man skal faktisk kun kende et tal, som er en kombination af de tre koordinater. Hvis planen er x-y-plane, skal man kun kende z-koordinaten. Hvis planen, der deler op, er mere “på skrå” er det en linearkombination ax+by+cz, der afgør, om punktet (x,y,z) er på den ene eller den anden side af planen med ligning ax+by+cz=d. Man har altså reduceret dimensionen af datasættet. For at finde den eller de(generaliserede) plan(er), der deler datasættet op, bruger man LDA.
Jeg mener, det er det, man bruger LDA til. I får en rettelse efter påske, hvis jeg har bildt jer noget ind. Statistik er ikke lige min hjemmebane!

God påske
Lisbeth Fajstrup
numb3rs@math.aau.dk

Posted in Blog | 1 Comment

Numb3rs 2. sæson på DVD

Amazon UK annoncerer de, at Numb3rs sæson 2 kommer på Region 2 DVD – i PAL version – 14. Maj. Jeg ved ikke, om det er med danske tekster, og det er muligt, at den ikke har bonusmateriale med. Det havde Region 2 versionen af Sæson 1 ikke.

Vi har fået mail fra oversætteren af Numb3rs, Christian Rokamp:
Hej Numb3rs-bloggere,

Jeg tekster serien på dansk, og det glæder mig at se, at mine formodentlig mangelfulde oversættelser af matematiske begreber ikke angribes i bloggen. Serien er unægteligt en udfordring for en sproglig kandidat.

Fortsat held og lykke med bloggen!

Hilsen Lisbeth.
numb3rs@math.aau.dk

Posted in Blog | Leave a comment

Hund og kat

Der er andre modeller og eksempler på strategier end spilteori. Hvis vi nu forestiller os en (meget dum) hund, der vil fange en kat. Lad os sige, at hunden hel tiden løber lige hen mod katten, og at den løber med konstant hastighed, og at vi kender kattens rute – den er måske også lidt dum.

Vi kender altså kattens bane og dermed også hundens retning og hastighed. Har man læst bloggen tidligere, vil man se, at her er tale om en differentialligning for at bestemme hundens bane, udfra dens hastighedsvektor.

Vi har ikke en hastighedsvektor for hvert punkt i planen, for hastighedsvektoren for hunden afhænger både af, hvor hunden er og hvor katten er. Så det er mere indviklet.

Man kan løse differentialligningen numerisk, og Arne Jensen har lavet to eksempler:

Katten, den røde, løber i zig-zag, hunden er blå. Den fanger katten til sidst, og så begynder det forfra.


Her løber katten langs en ellipse, og hunden fanger den aldrig, men bliver ved med at løbe i en mindre ellipse – med tungen ud ad halsen, vil jeg tro.

De to “film” er lavet i Maple, og for dem, der vil lege videre, er det første Maple Worksheet her
og det andet her

Man kan selv tænke på mindre fredelige anvendelser end hunde, der jager katte – men det vil jeg lade læserne om.

Hilsen
Lisbeth
numb3rs@math.aau.dk

Posted in Blog | Leave a comment