Politiedepartementen in New York gebruiken binnenkort misschien locatiegebonden tweets om misdaad te voorspellen. Het klinkt als een vergezocht sci-fi scenario uit Minority Report, maar toen ik Dr. Matthew Greber sprak, de onderzoeker van de University of Virginia die achter de technologie zit, legde hij uit dat het systeem veel mathematischer is dan metafysisch.
Het systeem dat Greber heeft gemaakt is een amalgaam van zowel oude en nieuwe technieken. Momenteel focussen veel politiedepartementen zich op criminele hot spots gebaseerd op daadwerkelijk gepleegde misdaden. Deze aanpak, genaamd kernel density estimation (KDE), oftewel kerndichtheidsinschatting, combineert een historisch misdaadsregister met een geografische locatie en maakt gebruik van een waarschijnlijkheidsfunctie om de mogelijkheid van toekomstige misdaad te berekenen voor een gebied. Ondanks dat KDE een dienstbare aanpak voor het anticiperen van misdaad is, valt het in het niet in vergelijking met de dynamiek van de datastroom van Twitter, volgens Dr Gerber’s onderzoekspaper “Predicting Crime Using Twitter and Kernel Density Estimation”.
Videos by VICE
Dr. Greber’s aanpak is ongeveer hetzelfde als KDE, maar vindt plaats in de ontastbare ruimte van data en taal, dus zonder papierwerk. Het systeem zet de Twitter-omgeving in kaart: zoals de politie dat nu doet met de fysieke omgeving met behulp van KDE. Het grote verschil is dat Greber kijkt naar waar mensen op dit moment over praten, maar ook nadat ze dat doen, en kijkt hoe goed die twee bij elkaar passen. De algoritmes kijken naar bepaalde taal die de waarschijnlijkheid van een naderende misdaad aangeeft, zegt Greber. “We zouden mensen kunnen observeren die er over praten om uit te gaan, dronken te worden, naar bars gaan, sport evenementen, enzovoorts – we weten dat dit soort evenementen gerelateerd zijn aan misdaad, en dat is wat de modellen oppikken.”
Wanneer deze data is verzameld, zorgen de GPS-tags in tweets er voor dat Greber en zijn team ze op een virtuele kaart kunnen vastpinnen en hot spots voor potentiële misdaad kunnen schetsen. Iedereen die er over tweet dat hij of zij naar de club gaat, is echter niet noodzakelijk van plan een misdaad te plegen. Greber test de nauwkeurigheid van zijn aanpak door Twitter-gebaseerde KDE voorspellingen met traditionele KDE voorspellingen te vergelijken. De grote vraag is: werkt het? Voor Greber is het antwoord een resolute: “soms.” “Het helpt voor sommigen, en het doet pijn voor anderen,” zegt hij.
Volgens de studieresultaten, leverde de Twitter-gebaseerde KDE analyse betere prestaties in voorspellingsnauwkeurigheid in vergelijking met traditionele KDE voor misdaden als stalken, vandalisme en gokken. Brandstichting, kidnapping en intimidatie toonde een afname in nauwkeurigheid tegenover de traditionele KDE analyse. Het is niet duidelijk waarom deze misdaden moeilijker zijn om te voorspellen door gebruik te maken van Twitter, maar de studie meldt dat het probleem mogelijkerwijs ligt bij het soort taal dat gebruikt wordt op Twitter. Deze wordt namelijk gekenmerkt door korte en informele taal die moeilijk te ontleden is door algortimes.
Deze benadering tot high-tech misdaadpreventie brengt bekende debatten over privacy naar boven. Onder andere over het gebruik van de data van twitteraars waar ze niet expliciet toestemming voor hebben gegeven. De zaak wordt met name gevoelig wanneer de data wordt gebruikt door de politie om criminelen op te zoeken. Op dit punt is Greber onverschillig, ondanks dat hij het sociale scepticisme erkent van het collecteren van data voor staatsdoeleinden. “Mensen schrijven zich in om hun tweets te GPS-taggen. Het is een mogelijkheid, en als je het niet doet, zullen je tweets niet op die manier verzameld worden,” zegt hij. “Twitter is een openbare dienst, en ik denk dat mensen zich daar redelijk van bewust zijn.”
Greber staat er op dat er geen gevaar is voor individuele targeting wanneer het aankomt op het gebruik van de Twitter-gebaseerde misdaadsvoorspelling, aangezien het systeem – ondanks dat het individuele namen vast legt – geen individuen analyseert. Noch identificeert het wie de echte daders van misdaad zijn. Het probleem ligt misschien niet bij het vastleggen van individuen door de politie, maar bij groepen en buurten. De bruikbaarheid van de technologie ligt, tenslotte, in het efficiënter localiseren van politie hulpmiddelen (patrouilles etc.) in specifieke geografische locaties.
Greber weerlegt dit echter. “Je zou kunnen zeggen dat het de politie in staat stelt om zich te richten op bepaalde buurten, en dat soort dingen, maar dat doen ze al met de kennis die ze op dit moment hebben. De politie weet dat bepaalde buurten slecht zijn, en ze richten zich daaop met extra patrouilles, invallen en dat soort dingen.”
Het lijkt een beetje een tautologie. Twitter-gebaseerde KDE-analyse zou de mogelijkheid tot het targetten van specifieke buurten of groepen niet in de hand werken, maar alleen omdat het al gebeurt. De data onderbouwt dit nog niet, maar het lijkt er op dat de pre-crime analyse op Twitter in “slechte” buurten – die, laten we eerlijk zijn, vaak code is voor “grotendeels niet-blanke” buurten – kan dienen als een virtuele incarnatie van Stop and Frisk. Hoewel social-media gebaseerde misdaadsvoorspelling niet expliciet is gericht op minderheidsbuurten kan het effect kan hetzelfde zijn, zoals Greber noteert, maar met het schone, technologische alibi van mathematische analyse.
Pre-crime analyse gebaseerd op tweets komen binnenkort misschien naar districten in Queens en de Bronx, zegt Greber. De NYPD heeft hun interesse geuit voor pilot programmas in deze stadsdelen. Greber merkt op dat de wijdverspreidde toepassing van de technologie nog ver weg is, omdat het bewijs dat het misdaadcijfers omlaag brengt nog geleverd moeten worden. Maar als de technologie door technologisch progressieve districten wordt opgepakt, zul je je niet alleen zorgen moeten maken over je werkgever die je tweet ziet over het feit dat je een paar biertjes achterover gooit, maar ook over de politie.