Klik på mig
SEnyt
Årgang: 6, senest rettet: 08. feb. 2010
 
 




Links

NOAH


Socialistisk Folkeparti


 Enhedslisten

 Greenpeace

 Socialdemkraterne


Kritisk Debat

Socialpolitisk Forening




FSocialistisk Folkeparti
ASocialdemokraterne
ØEnhedslisten

KKlimadebat



 
 Send til en ven Skriv kommentar til artiklen Kommenter Udskriv artiklen Udskriv Af: Bruce Schneier, am borgerrettighedsk. Skriv til forfatteren, 15. jan. 2008

Anonymiserede personer i baser kan identificeres

Den anonymisering, der normalt tilbydes i webløsninger, er i praksis alt for ringe, og mennesker risikerer derfor at få deres anonymitet brudt. Det har et par forskere påvist.
Artiklen er oversat efter Bruce Schneier, "Anonymity and Netflix", 15.2. 2008 fra Cryptogram efter aftale med forfatteren af Mikael Hertig.

Danmark har meget store registre, )1 hvor de identificerende oplysninger er anonymiserede. I det omfang, teknikkerne til anonymisering af data for eksempel i de store epidemiologiske registre: Cancerregistret, Scleroseregistret mv. svarer til de her beskrevne, har vi her i landet et meget stort problem. Det vil jeg vende tilbage til

Netflix, Inc. (Nasdaq: NFLX) er ifølge deres egen hjemmeside verdens største on filmudlejer, der tilbyder mere end 7 millioner abonnenter adgang tilmere end 90.000 DVD-titler plus et voksende bibliotek på mere end 5.000 titler som umiddelbart kan læses på pc. [se link]

Bruce Schneier
Bruce Schneier

Anonymitet og Netflix-basen

Sidste år udsendte den amerikanske filmudlejer Netflix en opfordring til deres 500.000 kunder om at deltage i udviklingen af et bedre anbefalingssystem end det hidtidige. Deltagernes persondata blev anonymiseret, idet man fjernede anbefalernes navne og personlige oplysninger og erstattede dem med tilfældige tal .

Forskerne Arvind Narayanan og Vitaly Shmatikov fra University of
Texas deanonymiserede nogle Netflix-data ved at sammenligne rangordninger og tidsstemplinger med offentligt tilgængelige informationer i en anden database, Internet-filmdatabasen Internet Movie, IMD [se linket].

Deres forskning illustrerer nogle indbyggede sikkerhedsproblemer, der er forbundet med anonymiserede data - men først er det vigtigt at forklare, hvad de gjorde og ikke gjorde.

Samkøring med andre registre

De vendte ikke anonymiteten fra hele Netflix-databasen tilbage. Hvad de gjorde var at samkøre de anonyme medvirkende brugere, som også deltog i vurderingerne af filmene under eget navn på et andet datasæt, IMDb. (Mens IMDbs oplysninger er offentlige strider en gennemgang af dem ved simpel crawling mod IMDbs værdisæt, så forskerne brugte nogle få observatiner for at bevise deres algoritme)

Forskernes pointe bestod i at demonstrere, hvor lidt information der er tilstrækkelig til at deanonymisere informationerne fra det anonymiserede Netflix datasæt ved brug af åbne persondata fra et andet datasæt.

Jamen, er det ikke indlysende? Der har været skrevet om risikoen ved anonyme databaser før, som for eksempel i IEEE 2001 papiret i en IEE journal. Forskerne, der arbejder med anonyme Netflix data hængte jo ikke deres deltageres persondata - sådan som andre gjorde med AOLs [America On Line] søgebase sidste år - de sammenlignede blot med et allerede tilgængeligt datasæt med tilsvarende observationer - en helt normal data måde at vride informationer ud af datasæt på (datamining).

Men da sådanne muligheder dukker op hyppigere, kan masser masser af anonyme data komme i fare.

Mange samkøringsmuligheder- også med Google

Nogen med adgang til en anonymiseret telefondatabase kan helt eller delvist deanonymisere den ved at sammenstille den med en forhandlers ordredatabase. Eller Amazons [stor boghandel] on line anmeldelser kunne udgøre nøglen til deanonymisering af en offentlig database over kreditkøb eller en større base med flere boganmeldelser.

Med sin berømte database over brugernes søgninger kunne Google let afanonymisere en database over internethandler eller "zero in" på søgninger i over medicinske termer for at afanonymisere en offentlig database med helbredsoplysninger.

Forhandlere som vedligeholder kunde- og indkøbsinformationer vil let kunne bruge deres datasæt til delvis afanonymisering sammen med store søgemaskinedata, hvis disse blev givet fri i anonymiseret form. En adresseforhandler der har styr på baser fra flere selskaber vil let kunne deanonymisere de fleste persondata i baserne.

'3 Ret let- og der kræves kun få informationer'3'
Hvad Texasforskerne demonstrerer er, at denne proces ikke er svær, og at den ikke kræver ret mange informationer. Det viser sig, at hvis man fjerner de første 100 film fra listen, som alle ser, er vores filmvaner individuelle. Det vil med sikkerhed også gælde vores læsning af bøger, vores internetindkøb, vores telefonvaner og vores vaner for søgning på nettet.

Desværre er modforholdsreglerne utilstrækkelige. Netflix kunne have randomiseret sit datasæt ved at fjerne undertabeller, ændre tidsstemplinger og tilføre tilfældige fejl til de individuelle ID-numre, som erstattede navnene. Men alligevel viser det sig, at det kun vil gøre nøden lidt sværere at knække. Det viser sig, at Narayanans and Shmatikovs afanonymiseringsalgoritme er overraskende robust og arbejder med dele af datasæt, data som er blevet forvandlet og selv data med fejl i.

Med blot otte film-evalueringer, (hvoraf to kan være forkerte) og data med op til to ugers tidsforskydning kan de hele vejen hen til det unikke identificere 99% af datasættet. Hvad de herefter mangler, er bare en smule identificerbare data - for eksempel fra IMDb, fra din blog - hvor som helst fra. Læren er, at der kun behøves en lille navnedatabase over nogle for at fjerne anonymiteten på en langt større database.

Bekræftelse af kendt viden

Anden forskning når til samme konklusion. Ved at bruge anonyme data fra folketællingen i 1990 fandt Latanya Sweeney, at 87% af hele USAs befolkning, 216 millioner ud af 248, kunne identificeres ud fra postnummer, fødselsdag og køn. Omkring det halve af USAs befolkning er identificerbar ud fra køn, fødselsdag og by- eller landsbynavn, hvor de bor. Ved at udvide det geografiske felt til et amt reduceres tallet til de endnu signifikante 18%. "I almindelighed er nogle få karakteristika nok til unik identifikation af en person", skrev forskerne.

Det samme kom forskere fra Stanford University til med brug af 2.000 folketællingsobservationer. Det viser sig, at fødselsdag (måned og dag alene) udsorterer folk i tusinder af små bunker, er utrolig værdifuld til at fratage menneskers anonymitetsbeskyttelse.

Det har helt grundlæggende betydning, når man skal vurdere effekterne af at frigive anonymiserede data. På den ene side er anonyme data fantastisk gode for forskerne - AOL gjorde en god ting, da de frigav anonyme data til forskningsformål, og det blev sagt, at deres tekniske direktør trak sig, og et forskerhold blev fyret efter offentlig ballade. Store anonyme medicinske databaser er enormt værdifulde for samfundet: til stort anlagte farmakologiske -undersøgelser, opfølgninger over lang tid og så videre. [vel også Epimiologiske undersøgelser, o.a.] Selv anonyme telefonbaserede data bruges til fascinerende undersøgelser.

Vi må have holdbare anonymiseringsløsninger

På den anden side er anonymiseringen meget skrøbelig i en tid, hvor alle og enhver samler data om os hele tiden - og meget mere risikabel end det oprindeligt så ud til
Som alt muligt andet indenfor itsikkerhed bør anonymitetsløsninger ikke introduceres, før de viser sig holdbare overfor tværgående angreb. Vi ved alle, at det er tumpet an introducere et krypteringssystem, før det har stået imod angreb. Hvorfor skulle vi forvente anonymitetssystemer skulle være anderledes? Og, som alt muligt andet indenfor sikkerhed er anonymitet en afhandlet størrelse. Der er fordele, der er medfølgende risici.

Narayan og Shmatkov arbejder for tiden på at udvikle algoritmer og teknikker, der muliggør sikker frigivelse af anonyme datasæt som Netflixs. Sådan forskning kan vi alle få gavn af.


1: En foreløbig undersøgelse antyder, at den danske håndtering af selve anonymiseringsopgaven i epidemiologiske registre teknisk set ikke har været anset for nogen specielt vanskelig opgave: Man har blot fjernet de direkte personhenvisende informationer fra baserne.
Se også:
CD-tabssagen blev Englands privacy -Tjernobyl…
Sikkerhed og/eller tryghed?
IT-sikkerhedsmarkedet som et brugtvognsmarked…
Schneiers dryp: Værdien af privatlivets fred )1…
Hvem ejer din computer?
Senere artikler:
SEnyt udgiver artikelsamling af Bruce Schneier
Andre links:
Netflix
IMDB base med filmratings -
Retssikkerhedsfonden
Artiklen, Schneier refererer til
Netflix -rapporten (engelsk)
Se også:
http://www.Senyt.dk/default.asp?Dok=714  CD-tabssagen blev Englands privacy -Tjernobyl…
http://www.Senyt.dk/default.asp?Dok=499  Sikkerhed og/eller tryghed?
http://www.Senyt.dk/default.asp?Dok=535  IT-sikkerhedsmarkedet som et brugtvognsmarked…
http://www.Senyt.dk/default.asp?Dok=427  Schneiers dryp: Værdien af privatlivets fred )1…
http://www.Senyt.dk/default.asp?Dok=399  Hvem ejer din computer?
Senere artikler:
http://www.Senyt.dk/default.asp?Dok=765  
http://www.Senyt.dk/default.asp?Dok=1001  SEnyt udgiver artikelsamling af Bruce Schneier
Andre links:
www.netflix.com  Netflix
http://www.imdb.com/title/tt0478365/  IMDB base med filmratings -
http://www.retssikkerheds-fonden.dk/  Retssikkerhedsfonden
http://arxiv.org/abs/cs/0610105  Artiklen, Schneier refererer til
http://www.Senyt.dk/bilag/netflix2.pdf  Netflix -rapporten (engelsk)
Billede

Vejrudsigten


'SeNYT udgives af Nensome ApS Forlag, Brorsonsvej 2, 2630 Taastrup. Tlf 70 22 43 88
Ansvh: Mikael Hertig.
Enhver, der ønsker at støtte den brede venstrefløj, kan få lov til at publicere sine artikler, billeder mv. Henvendelse herom til
forlag@nensome.com
Vi mangler for tiden: litteraturanmelder, kritisk sportskribent, musikredaktør, jurist, musikinteresseret, madanmelder (Ulønnet)



Bliv abonnent. SEnyt garanterer abonnenters og læseres anonymitet. Oplysninger om personer, herunder emailadresser, vil ikke blive røbet, solgt eller videregivet. Der anvendes kun obligatoriske sessionscookies, der normalt slettes efter besøget.
Som abonnent kan du udvælge emner eller stikord efter interesse, du kan vælge at blive orienteret efter hver ny artikel, eller du kan vælge at nøjes med en reminder, hver gang redaktøren sender en mail til læserne.


Opret lokalredaktion

Nu er der mulighed for at oprette en lokalredaktion. Hvis den lokale annonceavis er for ukritisk eller ensidig, kan det være en god ide at åbne for stof et andet sted. Frederiksberg har fået sit eget menupunkt. Der kan oprettes lokalredaktioner overalt, hvor nogen ser en fordel i det. På Senyt rejses der ikke krav om en konstant strøm af artikler.



DR København


  • 17 gange dyrere at parkere i Ørestad
    09. feb. 2010
    Mens de fleste københavnere betaler 690 kroner om året for en parkeringstilladelse, så må beboere i Ørestad punge ud med 12.000 for at stille bilen derhjemme.
  • Kokain gemt i spartelmasse
    09. feb. 2010
    Tre kilo kokain skjult i en spand med ti kilo spartelmasse sender nu to københavnske kioskejere i varetægtsfængsel.
  • Visitationszone omkring indkøbscenter
    09. feb. 2010
    Skyderi og sammenstød mellem unge får nu politiet til at oprette en visitationszone i området omkring Waves - det tidligere Hundige Storcenter.


Ansvh: Mikael Hertig. Nensome ApS Forlag, Brorsonsvej 2, 2630 Taastrup. email redaktion@senyt.dk, Tl 70 22 43 88

Indhold - (site map)