Amita og Larry brugte “temporal link analysis” på alle emails til den mistænkte bagmand. Amita talte om semantic netgroup terms, Charlie snakkede om Supervised multiclass labelling og the Chanel algorithm (?), Amita brugte backwards induction.
Temporal link analysis
Her er seriens forfattere inspireret af artiklen Identifying Potential Suspects by Temporal Link Analysis. P.Gloor og S.Niepel. I den artikel analyseres emails mellem 150 personer i og omkring Enron skandalen. De bruger et mere generelt værktøj udviklet af Gloor’s gruppe under innovative Collaborative Knowledge Networks iCKN på MIT (Boston, USA). Programmet, TeCFlow, analyserer emails og visualiserer kommunikationen grafisk. Eksempelvis illustrerer man, hvor mange emails, der indeholder ordene prohibit, confidential og andre, man mener kunne være mistænkelige. Og der er kanter mellem ordene, hvis de optræder i samme mail.
Man illustrerer udvikling over tid af f.eks. centralitet i netværket af afsendere og modtagere af mails, altså, at få personer står for meget af trafikken i forhold til mere homogene net. Man kan analysere, om nogen primært modtager, mens andre primært afsender. Og meget mere. Pointen er, at man har et program, der udfra en database med emails, laver illustrationer og sorterer, så man kan finde hoved og hale i den store mængde data.
Gloor og co. lægger vægt på at kunne illustrere det tidslige aspekt.
Der er en del matematik og algoritmer bag: I opbygningen af databasen skal man f.eks. sørge for, at søgning i den er let for den slags søgninger, man har planer om. Et andet aspekt er repræsentationen af graferne – knuder med kanter imellem. hvor langt skal der være mellem knuderne for at det ser godt ud?
Her bruger de Fruchterman Reingold graftegningsalgoritmen, som er fra en artikel i 1991. Ideen er, at man bruger fysiske love til at bestemme, hvor knuder og kanter skal være. Knuderne betragtes som elektrisk ladede partikler, der frastøder hinanden, og kanterne er fjedre. Programmet placerer hjørner og kanter og algortimen flytter dem, indtil det hele er i ligevægt – meget kort fortalt. Der findes en del algoritmer af den type – man kan variere, hvilke kræfter, der skal virke og dermed få andre tegninger af grafen. På engelsk kanldes det “force directed” algoritmer.
Der er flere illustrationer af, hvordan de virker, på You Tube. Jeg ved ikke, om denne er den bedste; algoritmen er ikke helt perfekt implementeret, men nu kan I jo se:
At visualisere store datamængder studeres f.eks. i Sydney Information Visualization Group, hvor de har mange flotte billeder af grafer.
Supervised multiclass labelling
Det er en ny algoritme, SML, fra 2007 til genkendelse af bestemte elementer i billeder; eksempelvis bjerge. (Artiklen bag er Carneiro, G.; Chan, A. B.; Moreno, P. J.; and Vasconcelos, N. “Supervised Learning of Semantic Classes for Image Annotation and Retrieval.” IEEE Trans. Patt. Anal. Mach. Intell. 29, 394-410, 2007.). Det er et program, der skal lære af en stor billeddatabase, og der er rigtig meget sandsynlighedsteori og statistik bag læreprocessen. I programmer der skal lære, bruger man ofte Bayesiansk statistik, hvor man starter med en fordeling, en prior, og opdaterer den efterhånden som man bliver klogere. I dette tilfælde er det delvist “supervised”, så mennesker skal fodre med billeder og sige ja eller nej, når programmet påstår, noget er et bjerg, en kanin eller hvad man nu synes, det skal lære.
Der findes flere af den slags algoritmer, og Google er f.eks. interesserede i at få mulighed for, at man kan søge efter et billede af en bjørn ved at søge i, hvad der er på billedet og ikke hvad der står i billedteksten, som man vist nok gør nu.