FYI.

This story is over 5 years old.

Tech

Het online bestaan is nogal lastig als je van achteren ‘Butts’ heet

Mensen met ondeugende achternamen en zelfs hele steden kunnen al jaren moeilijk mailadressen en andere accounts maken door het ‘Scunthorpe-probleem’.
Screenshot via Natalie Weiner/Twitter

Dinsdagmiddag plaatste Natalie Weiner, een auteur voor SB Nation, een foto op Twitter van haar poging om een nieuwe account aan te maken op een website. De reden waarom haar account werd afgewezen, volgens de site, was dat er 'aanstootgevende taal was ontdekt in het achternaam-veld.'

Al snel stond Weiners Twitter-feed vol met honderden sympathieke reacties. “Ik heb dit ook verrassend vaak,” zei ene Kyle Medick. James Butts “is ook wel bekend met deze problemen” en Matt Cummings was “het ook niet vreemd.” Arun Dikshit (ja, echt) zei dat afgewezen worden door een algoritme bijna dagelijkse kost is geworden voor hem. “Bij één van mijn banen moest de IT-afdeling een regel maken voor de e-mailserver om te voorkomen dat mijn e-mails werden afgewezen als porno-spam,” aldus Clark Aycock.

Advertentie

Weiners Twitter-gesprek is een samenkomst van mensen met achternamen die algoritmische obsceniteitsfilters in de war brengen, maar het is niet helemaal nieuw. Dit soort valse positieven zijn al sinds het begin van het internet een probleem voor spamfilters, en waren toen zo wijdverspreid dat computerwetenschappers er zelfs een naam voor hebben bedacht: het ‘Scunthorpe-probleem’.

Scunthorpe is een industriestadje in het Verenigd Koninkrijk, op ongeveer vier uur rijden ten noorden van Londen. Er wonen zo’n 80.000 mensen en gedurende een korte periode in 1996 kon geen van hen zich inschrijven bij AOL, toen een van de grootste internetproviders. Zoals hier beschreven in RISKS Digest, een forum dat al heel lang bestaat en populair is onder systeembeheerders, kwam de kwestie onder de aandacht van AOL nadat een inwoner van Scunthorpe met de naam Doug Blackie geprobeerd had zich in te schrijven.

Toen Blackie contact opnam met AOL kreeg hij te horen dat zijn registratie was mislukt vanwege een automatisch filtersysteem dat reeksen letters in registratievelden scande, met de bedoeling aanstootgevende woorden te blokkeren. In het geval van Scunthorpe registreerde het filter het woord ‘cunt’ en dacht daarom dat de naam van de stad een scheldwoord was.

Volgens de berichtgeving in RISKS Digest kondigde AOL aan – in plaats van het probleem op te lossen – dat de stad voortaan in hun systeem bekend zou staan als ‘Sconthorpe’. Rob Kling, toen lid van de commissie Computers en Openbare Orde van de Vereniging van Computerapparatuur, schreef op het RISKS-forum: “Ik kan me voorstellen dat er misschien zelfs mensen bestaan wiens achternaam Scunthorpe is. De bereidheid van AOL om in de naam van het fatsoen iemands identiteit te wissen, is pas echt onfatsoenlijk.”

Advertentie

Achteraf bezien bleek de kritiek van Kling opmerkelijk vooruitstrevend.

Zoals Weiners virale tweet aantoont, is het Scunthorpe-probleem in de afgelopen twee decennia niet verdwenen, ondanks opmerkelijke vooruitgang in zelflerende systemen en algoritmische moderatie. Sommige instanties van het Scunthorpe-probleem waren best grappig, zoals die keer toen leden van het Britse parlement hun eigen wet tegen seksuele misdrijven niet konden bekijken vanwege een spamfilter van de overheid, of toen de e-mails van het Londense Horniman-museum werden gemarkeerd omdat systemen dachten dat ze van een ‘horny man’ afkomstig waren. Maar voor mensen wiens namen als beledigend kunnen worden gezien is deze algoritmische censuur voornamelijk gewoon irritant.

Michael Veale, een wetenschapper die onderzoek doet naar verantwoordelijke zelflerende systemen aan het University College in Londen, vertelde me dat het Scunthorpe-probleem zo moeilijk op te lossen is omdat het maken van effectieve obsceniteitsfilters afhangt van het vermogen van het filter om een woord in context te begrijpen. Ondanks de vooruitgangen op het gebied van kunstmatige intelligentie, is dit iets waar zelfs de meest geavanceerde, zelflerende algoritmen nog steeds mee worstelen.

“Dit werkt beide kanten op,” vertelde Veale me in een e-mail. “Cock (een vogel) en Dick (de voornaam) zijn beide volledig onschuldig in bepaalde contexten, zelfs op websites voor kinderen, maar er zijn ook gevallen waarin dat niet het geval is. Mensen die misbruik willen maken van zo’n systeem kunnen er zo manieren voor bedenken.”

Advertentie

Veale haalt gebruikers aan die nu merknamen gebruiken – de Googles en de Skypes – om te verwijzen naar groepen mensen die ze willen lastigvallen. “Dit zijn de laatste termen die grote platforms willen blokkeren, en de technologieën zijn echt nog niet geavanceerd genoeg om te weten in welke context ze worden gebruikt.”

En soms is het probleem eenvoudigweg een geval van slecht programmeerwerk. Kijk bijvoorbeeld naar het geval van Jennifer Null, wiens naam vaak werd afgewezen in invoervelden, omdat het programma haar achternaam behandelde als een regel code in plaats van als tekst.

Deze tekortkoming in algoritmische moderatie is de laatste tijd een belangrijk probleem geworden, omdat platforms zoals Facebook worstelen met de realiteit van het moeten modereren van miljarden gebruikers. Wel een voordeel voor diegenen wiens namen vaak worden gemarkeerd door filters: veel platforms vertrouwen steeds meer op mensen om inhoud te modereren, omdat zij de context beter kunnen interpreteren en begrijpen. Hoewel dit zijn eigen problemen met zich meebrengt, vooral wanneer deze mensen worden gebruikt om AI te trainen en daardoor hun eigen vooroordelen in het systeem inbrengen, is het in veel gevallen het beste van twee kwaden.

Dus totdat AI een betere grip krijgt op het begrijpen van input binnen een bepaalde context, zit er maar een ding op voor de Kyle Medicks en James Butts van de wereld: glimlachen en incasseren.

Volg Motherboard op Facebook, Twitter en Flipboard.