Artiklen er oversat efter Bruce Schneier, "Anonymity and Netflix", 15.2. 2008 fra Cryptogram efter aftale med forfatteren af Mikael Hertig.
Danmark har meget store registre, )1 hvor de identificerende oplysninger er anonymiserede. I det omfang, teknikkerne til anonymisering af data for eksempel i de store epidemiologiske registre: Cancerregistret, Scleroseregistret mv. svarer til de her beskrevne, har vi her i landet et meget stort problem. Det vil jeg vende tilbage til
Netflix, Inc. (Nasdaq: NFLX) er ifølge deres egen hjemmeside verdens største on filmudlejer, der tilbyder mere end 7 millioner abonnenter adgang tilmere end 90.000 DVD-titler plus et voksende bibliotek på mere end 5.000 titler som umiddelbart kan læses på pc. [se link]
Anonymitet og Netflix-basen
Sidste år udsendte den amerikanske filmudlejer Netflix en opfordring til deres 500.000 kunder om at deltage i udviklingen af et bedre anbefalingssystem end det hidtidige. Deltagernes persondata blev anonymiseret, idet man fjernede anbefalernes navne og personlige oplysninger og erstattede dem med tilfældige tal .
Forskerne Arvind Narayanan og Vitaly Shmatikov fra University of
Texas deanonymiserede nogle Netflix-data ved at sammenligne rangordninger og tidsstemplinger med offentligt tilgængelige informationer i en anden database, Internet-filmdatabasen Internet Movie, IMD [se linket].
Deres forskning illustrerer nogle indbyggede sikkerhedsproblemer, der er forbundet med anonymiserede data - men først er det vigtigt at forklare, hvad de gjorde og ikke gjorde.
Samkøring med andre registre
De vendte ikke anonymiteten fra hele Netflix-databasen tilbage. Hvad de gjorde var at samkøre de anonyme medvirkende brugere, som også deltog i vurderingerne af filmene under eget navn på et andet datasæt, IMDb. (Mens IMDbs oplysninger er offentlige strider en gennemgang af dem ved simpel crawling mod IMDbs værdisæt, så forskerne brugte nogle få observatiner for at bevise deres algoritme)
Forskernes pointe bestod i at demonstrere, hvor lidt information der er tilstrækkelig til at deanonymisere informationerne fra det anonymiserede Netflix datasæt ved brug af åbne persondata fra et andet datasæt.
Jamen, er det ikke indlysende? Der har været skrevet om risikoen ved anonyme databaser før, som for eksempel i IEEE 2001 papiret i en IEE journal. Forskerne, der arbejder med anonyme Netflix data hængte jo ikke deres deltageres persondata - sådan som andre gjorde med AOLs [America On Line] søgebase sidste år - de sammenlignede blot med et allerede tilgængeligt datasæt med tilsvarende observationer - en helt normal data måde at vride informationer ud af datasæt på (datamining).
Men da sådanne muligheder dukker op hyppigere, kan masser masser af anonyme data komme i fare.
Mange samkøringsmuligheder- også med Google
Nogen med adgang til en anonymiseret telefondatabase kan helt eller delvist deanonymisere den ved at sammenstille den med en forhandlers ordredatabase. Eller Amazons [stor boghandel] on line anmeldelser kunne udgøre nøglen til deanonymisering af en offentlig database over kreditkøb eller en større base med flere boganmeldelser.
Med sin berømte database over brugernes søgninger kunne Google let afanonymisere en database over internethandler eller "zero in" på søgninger i over medicinske termer for at afanonymisere en offentlig database med helbredsoplysninger.
Forhandlere som vedligeholder kunde- og indkøbsinformationer vil let kunne bruge deres datasæt til delvis afanonymisering sammen med store søgemaskinedata, hvis disse blev givet fri i anonymiseret form. En adresseforhandler der har styr på baser fra flere selskaber vil let kunne deanonymisere de fleste persondata i baserne.
'3 Ret let- og der kræves kun få informationer'3'
Hvad Texasforskerne demonstrerer er, at denne proces ikke er svær, og at den ikke kræver ret mange informationer. Det viser sig, at hvis man fjerner de første 100 film fra listen, som alle ser, er vores filmvaner individuelle. Det vil med sikkerhed også gælde vores læsning af bøger, vores internetindkøb, vores telefonvaner og vores vaner for søgning på nettet.
Desværre er modforholdsreglerne utilstrækkelige. Netflix kunne have randomiseret sit datasæt ved at fjerne undertabeller, ændre tidsstemplinger og tilføre tilfældige fejl til de individuelle ID-numre, som erstattede navnene. Men alligevel viser det sig, at det kun vil gøre nøden lidt sværere at knække. Det viser sig, at Narayanans and Shmatikovs afanonymiseringsalgoritme er overraskende robust og arbejder med dele af datasæt, data som er blevet forvandlet og selv data med fejl i.
Med blot otte film-evalueringer, (hvoraf to kan være forkerte) og data med op til to ugers tidsforskydning kan de hele vejen hen til det unikke identificere 99% af datasættet. Hvad de herefter mangler, er bare en smule identificerbare data - for eksempel fra IMDb, fra din blog - hvor som helst fra. Læren er, at der kun behøves en lille navnedatabase over nogle for at fjerne anonymiteten på en langt større database.
Bekræftelse af kendt viden
Anden forskning når til samme konklusion. Ved at bruge anonyme data fra folketællingen i 1990 fandt Latanya Sweeney, at 87% af hele USAs befolkning, 216 millioner ud af 248, kunne identificeres ud fra postnummer, fødselsdag og køn. Omkring det halve af USAs befolkning er identificerbar ud fra køn, fødselsdag og by- eller landsbynavn, hvor de bor. Ved at udvide det geografiske felt til et amt reduceres tallet til de endnu signifikante 18%. "I almindelighed er nogle få karakteristika nok til unik identifikation af en person", skrev forskerne.
Det samme kom forskere fra Stanford University til med brug af 2.000 folketællingsobservationer. Det viser sig, at fødselsdag (måned og dag alene) udsorterer folk i tusinder af små bunker, er utrolig værdifuld til at fratage menneskers anonymitetsbeskyttelse.
Det har helt grundlæggende betydning, når man skal vurdere effekterne af at frigive anonymiserede data. På den ene side er anonyme data fantastisk gode for forskerne - AOL gjorde en god ting, da de frigav anonyme data til forskningsformål, og det blev sagt, at deres tekniske direktør trak sig, og et forskerhold blev fyret efter offentlig ballade. Store anonyme medicinske databaser er enormt værdifulde for samfundet: til stort anlagte farmakologiske -undersøgelser, opfølgninger over lang tid og så videre. [vel også Epimiologiske undersøgelser, o.a.] Selv anonyme telefonbaserede data bruges til fascinerende undersøgelser.
Vi må have holdbare anonymiseringsløsninger
På den anden side er anonymiseringen meget skrøbelig i en tid, hvor alle og enhver samler data om os hele tiden - og meget mere risikabel end det oprindeligt så ud til
Som alt muligt andet indenfor itsikkerhed bør anonymitetsløsninger ikke introduceres, før de viser sig holdbare overfor tværgående angreb. Vi ved alle, at det er tumpet an introducere et krypteringssystem, før det har stået imod angreb. Hvorfor skulle vi forvente anonymitetssystemer skulle være anderledes? Og, som alt muligt andet indenfor sikkerhed er anonymitet en afhandlet størrelse. Der er fordele, der er medfølgende risici.
Narayan og Shmatkov arbejder for tiden på at udvikle algoritmer og teknikker, der muliggør sikker frigivelse af anonyme datasæt som Netflixs. Sådan forskning kan vi alle få gavn af.