Wat er mis is met het algoritme dat criminaliteit zou moeten voorspellen

De Amerikaanse politie maakt volop gebruik van PredPol – software die misdaad zou kunnen voorspellen. Maar volgens academici draagt dit behoorlijk wat problemen met zich mee.
18 februari 2019, 8:44am
surveillance

`Vorige week publiceerde Motherboard een onderzoek waaruit bleek dat Amerikaanse wetshandhavingsinstanties landelijk gebruikmaken van PredPol. Deze software zou criminaliteit kunnen voorspellen op basis van de onbewezenbroken windows’-theorie, waarbij ervan wordt uitgegaan dat plekken met veel misdrijven en vandalisme hier vanzelf meer van zullen aantrekken.

Ons onderzoek liet zien dat de lokale politie in Kansas, Washington, South Carolina, Californië, Georgia, Utah en Michigan de software gebruikt of heeft gebruikt. In een presentatie die in 2014 aan verschillende politiediensten werd gegeven, zegt het bedrijf achter PredPol dat de software “gebaseerd is op bijna zeven jaar aan nauwgezet academisch onderzoek naar het ontstaan van criminaliteitspatronen. (…) De berekeningen zien er ingewikkeld uit – en het is ook ingewikkeld voor normale, sterfelijke mensen – maar het gedrag waarop de wiskunde is gebaseerd, is makkelijk te begrijpen.

1550163519102-Screen-Shot-2019-02-05-at-94906-AM

Afbeelding: een schermopname van een diapresentatie met de titel ‘Predictive Policing Tacoma Overview Deck (2012 July).’ Verkregen via de politiedienst van de Amerikaanse stad Tacoma, Washington.

Dit gedrag wordt door het bedrijf beschreven als “herhaald slachtofferschap” van een bepaald adres, “nabij herhaal slachtofferschap” (adressen in de buurt van plaatsen waar eerder misdrijven hebben plaatsgevonden) en “lokaliteit” (wat betekent dat criminelen eerder geneigd zijn om misdaden te begaan in de buurt van hun eigen huis of plekken waar ze al eerder een misdrijf hebben gepleegd).

Motherboard heeft echter een aantal wetenschappers gesproken die stellen dat de wiskundige theorie achter PredPol nogal gebrekkig is. Bovendien zou het algoritme dat door hen aan de politie werd voorgelegd veel te simplistisch zijn om daadwerkelijk criminaliteit te kunnen voorspellen.

Dit wordt bevestigd door Kristian Lum, wie in 2016 meewerkte aan een onderzoek waarin de algoritmische mechanismen van PredPol met echte misdaadgegevens werden getest. Hij vertelt in een telefoongesprek met Motherboard dat, hoewel PredPol wordt aangedreven door ingewikkeld uitziende wiskundige formules, de werkelijke functie kan worden samengevat als een voortschrijdend gemiddelde – of een gemiddelde van verschillende deelgroepen binnen een gegevensverzameling.

The self-exciting point process model of burglary.

“Het feit dat het zo simplistisch is, wordt door PredPol bedolven onder alle mooie verhalen over de fancy seismografische modellen die voor de software worden gebruikt,” zegt Lum. “De gegevens waar ik als onderzoeker naar heb gekeken, bleken in de praktijk echter niet meer te zijn dan een voortschrijdend gemiddelde.” Waar het op neerkomt, is dat PredPol het gemiddelde neemt van plekken waar al eens eerder arrestaties hebben plaatsgevonden, en vervolgens de politie vertelt om daar weer heen te gaan.

De academische basis voor de software van PredPol is gebaseerd op een statistische modelleermethode om aardbevingen te voorspellen, wat hier toegepast wordt op criminaliteit. Net zoals aardbevingen waarschijnlijk op soortgelijke plaatsen zullen voorkomen, beweert PredPol dat misdaden waarschijnlijk ook op soortgelijke plaatsen zullen voorkomen.

De hoofdgegevenswetenschapper van PredPol, George Mohler, was coauteur van verschillende academische artikelen die vaak worden geciteerd in de verslagen van PredPol. Het eerste artikel heet "Self-exciting point process modeling of crime," en werd in 2011 gepubliceerd in het Journal of the American Statistical Association. In 2012 kwam “Geographic Profiling from Kinetic Models of Criminal Behavior” uit en in 2015 verscheen "Randomized Controlled Field Trials of Predictive Policing,” waarin verder op de theorie uit 2011 wordt ingegaan.

Motherboard sprak met Suresh Venkatasubramanian, een professor in informatica aan de University of Utah en een lid van de bestuursraad van ACLU Utah. Hij vertelt ons dat gegevens over aardbevingen en gegevens over criminaliteit uiteraard op verschillende manieren worden verzameld.

“Het belangrijkste verschil is dat je in aardbevingsmodellen overal seismografen hebt. Overal waar een aardbeving plaatsvindt, vind je ook een seismograaf,” legt Venkatasubramanian uit. Dat is bij criminaliteit niet het geval. “Hier heeft het probleem dus vooral te maken met de vraag in hoeverre je in staat bent om gegevens te verkrijgen over hetgeen je waarneemt, aangezien niet alles uit het model af te lezen is.”

In andere woorden: Als het op aardbevingen aankomt, kunnen we ervan uitgaan dat we gegevens binnenkrijgen over iedere aardbeving die op aarde plaatsvindt. In het geval van criminaliteit zijn er daarentegen nog een aantal andere factoren die de criminologische gegevens beïnvloeden. In sommige gemeenschappen wordt bijvoorbeeld vaker naar de politie gebeld dan in andere, waardoor sommige misdrijven ook vaker bij de politie gemeld worden dan andere. Daarnaast kunnen politieagenten voor een groot deel zelf bepalen of ze iemand arresteren of niet. In steden die vanuit de ‘broken windows’-ideologie werken (waaronder New York, Los Angeles en Boston) wordt de politie zelfs nadrukkelijk aangemoedigd om kleine criminaliteit op te sporen en de misdadigers hard te straffen, terwijl deze criminaliteit in andere buurten misschien onopgemerkt zou blijven.

Wanneer een middel als PredPol de politie vertelt waar ze heen moeten gaan, worden de misdaadgegevens ook automatisch door PredPol zelf beïnvloed. Hierdoor ontstaat er een feedbackloop die zichzelf alleen maar versterkt. In 2017 schreef Venkatasubramanian mee aan een artikel hierover, met de titel "Runaway Feedback Loops in Predictive Policing."

“Als de politie aan de hand van voorspellingen te werk gaat, stuur je ze in feite naar bepaalde buurten op basis van wat je verteld wordt. Maar dat betekent ook dat er in andere buurten helemaal geen politie aanwezig is, omdat het systeem je niet heeft verteld om daarheen te gaan,” legt Venkatasubramanian uit. “Als de gegevens die in het systeem terechtkomen worden gegenereerd door de politie in deze bepaalde buurten, houdt dit dus in dat de volgende gegevensronde enkel weer daarop wordt gebaseerd.” De gegevens die terugkeren in het systeem worden door de software zelf zo steeds minder correct.

“Omdat deze gegevens worden verzameld als een bijproduct van de politieactiviteit, hebben voorspellingen die zijn gedaan op basis van patronen die uit deze gegevens zijn afgeleid geen betrekking op toekomstige gevallen van criminaliteit in het algemeen,” merkt Venkatasubramanian op in zijn onderzoek. “Wat dat betreft heeft predictive policing [ofwel voorspellend politiewerk] een treffende naam. Het voorspelt namelijk geen toekomstige criminaliteit, maar toekomstig politiewerk.”

Het marketing- en trainingsmateriaal van PredPol, dat Motherboard van de politie in Tacoma heeft ontvangen, zegt echter iets heel anders. Volgens het bedrijf zijn hun misdaadprognoses niets anders dan rationele en objectieve voorspellingen.

“PredPol bestaat niet uit gissingen en speculaties,” staat er in het document. “Onze voorspellingen zijn gebaseerd op harde gegevens over waar en wanneer misdaden hebben plaatsgevonden. PredPol gebruikt wiskundige modellen om u te vertellen wat momenteel de meest waarschijnlijke locaties voor criminaliteit zijn.”

Motherboard vroeg aan PredPol of de ‘self-exciting point’-theorie ook in 2019 nog de basis zal blijven van hun software, maar het bedrijf reageerde niet op ons bericht.

Venkatasubramanian legt uit dat de eenvoudige, zichzelf versterkende uitkomst van het algoritme van PredPol wordt gedreven door een bepaalde vorm van kunstmatige intelligentie, namelijk machinaal leren. Uit hun meest recente gegevens blijkt dat PredPol gebruikmaakt van een methode voor machinaal leren die gecontroleerd leren wordt genoemd. Dit betekent dat je gegevens invoert in het systeem, waarna het systeem op basis van een actie weer gegevens uitvoert. Op basis van die gegevens begint het systeem vervolgens weer aan een nieuwe actie.

Venkatasubramanian denkt echter dat ondersteund leren in deze criminologische context een betere aanpak zou zijn. Dit betekent simpel gezegd dat een machine een regel probeert te maken die het juiste antwoord geeft op een bepaalde vraag. “Bij ondersteund leren houd je rekening met het feit dat je slechts beperkte feedback hebt en je acties de uitkomst kunnen beïnvloeden,” legt Venkatasubramanian uit.

Tenzij ieder afzonderlijk misdrijf wordt gemeld en de politie overal even hard optreedt, is het onmogelijk om een lerend systeem te hebben dat in staat is om criminaliteit te voorspellen. In plaats daarvan eindig je met niet meer dan een zelfvervullende voorspelling, waarbij de politie enkel criminaliteit vindt op de plaatsen waar ze volgens het systeem moesten kijken.

Dit brengt nog een ander probleem dat voortkomt uit de privatisering van politiewerk aan het licht, namelijk dat academici PredPol enkel van buitenaf kunnen bestuderen met behulp van gegevens die publiekelijk beschikbaar zijn gemaakt door de bedrijven. Lang niet alle gegevens zijn even makkelijk te verkrijgen, doordat veel interne gegevens verborgen blijven om bedrijfsgeheimen te bewaren. Hierdoor hebben mensen vaak geen idee wat er echt speelt, wat er ook voor zorgt dat mensen van kleur een onnodig groot risico lopen.

Uit een onderzoek naar arrestaties voor drugsgebruik en -bezit dat in 2016 door Lum en William Isaac werd uitgevoerd, bleek dat mensen van kleur twee keer zo’n grote kans hadden om het doelwit van de politie te worden als witte mensen. En dat terwijl het geschatte drugsgebruik onder zwarte en witte personen ongeveer gelijk was. Voor het onderzoek keken Lum en Isaac naar alle arrestaties tussen 2010 en 2011 in Oakland, Californië, in verband met de formule voor politietoewijzing van PredPol, zoals werd beschreven in Mohlers artikel "Randomized Controlled Field Trials of Predictive Policing” uit 2015.

Volgens documenten van PredPol is de software niet in staat om het bezit of gebruik van drugs te voorspellen, maar ‘wanpraktijken’ kunnen volgens het bedrijf wel worden voorspeld.

Tussen 2011 en 2015 hadden zwarte mensen in de Verenigde Staten 3,49 keer meer kans om beschoten te worden door de politie dan witte mensen, zo blijkt uit een statistische analyse van de US Police-Shooting Database. En schietpartijen door de politie vinden vaker plaats dan je denkt. Volgens een onderzoek van VICE News hebben officieren van de 50 grootste politiediensten in Amerika tussen 2010 en 2016 gemiddeld meer dan 500 mensen per jaar neergeschoten.

Uiteindelijk is PredPol niets meer dan een middel dat de huidige wetshandhaving in stand houdt. Maar gezien het feit dat deze handhaving het in Amerika het vaakst op mensen van kleur heeft gemunt, wordt het risico dat ze momenteel al lopen alleen nog maar vergroot.