​De Freedom Index gaat orde scheppen in de online chaos

Op de normale manier van zoeken mis je 98% van de data, en Freedom Index gaat daar verandering in brengen.

|
26 februari 2016, 8:03am

"Google's mission is to organize the world's information and make it universally accessible and useful," aldus Google. In deze missie heeft 's werelds bekendste zoekmachine jammerlijk gefaald. Dat stelt althans Simon Davies, een doorgewinterde voorvechter van privacy in de digitale wereld. Het internet is een bende, en het wordt langzaamaan onmogelijk je weg te vinden in de uitpuilende digitale archieven. Om orde te scheppen in deze virtuele chaos, en het internet in volle glorie navigeerbaar te maken, ontwikkelden Davies en zijn partner Sander Venema met hun initiatief Code Red een niet per se ingenieus maar potentieel extreem revolutionair indexeringssysteem: The Freedom Index.

Het probleem is dat zoekmachines als Google je slechts een heel beperkte selectie van de schier onuitputtelijke online archieven laten doorspitten. In het conventionele (op dit moment nog 'normale') zoeken mis je 98% van de data, doordat je wordt geacht te weten wat je zoekt en wáár je het moet zoeken. "De grote zoekmachines zijn ontworpen voor een veel kleiner en veel minder dynamisch internet," legt Davies uit. "Tegenwoordig produceren ze een onacceptabele hoeveelheid ruis, waardoor de nuttigste content op het internet wegzinkt."

Het belangrijkste probleem is volgens Davies dat het bijna onmogelijk is om buiten je eigen taal, en zelfs buiten je eigen geografische locatie te zoeken. We vinden onszelf aardig bij de pinken wanneer we behalve worst ook sausage kunnen googelen, maar weinigen zullen denken aan de Ierse, Zweedse, Slovaakse, Russische, of Portugese vertalingen – terwijl informatie over worst uit die contreien ook zeer de moeite waard zou kunnen zijn.

Het zoeken op basis van overeenkomende termen voorkomt bovendien dat je resultaten te zien krijgt die – afgezien van synoniemen – eveneens relevant zijn voor jouw zoektermen. Op die manier vind je dus alleen informatie waarvan je weet dat je die zoekt, en vind je nooit het goud waar je níet naar zocht.

Het tweede probleem is wat Davies 'gettovorming' in de online informatie noemt. "Hiermee bedoel ik dat organisaties steeds meer hun eigen gesloten systemen opzetten – noem het informatiesilo's. Er zijn miljoenen van zulke silo's op het internet, en heel weinig daarvan staan met elkaar in verbinding." Je moet op voorhand van het bestaan van de silo afweten in je zoektocht naar relevante informatie, want conventionele zoektechnieken kunnen die silostructuur niet doorbreken.

De onvindbaarheid versterkt zichzelf vervolgens doordat moeilijk vindbare bronnen steeds lager in je zoekresultaten komen te staan. Als gevolg van die gettovorming kent het internet structureel geheugenverlies. Nuttige informatie zakt verder en verder weg in het online moeras, en als gevolg vindt er een niet per se nuttige selectie plaats die je telkens naar dezelfde, goed vindbare informatie leidt. Dit komt nog eens bovenop de commerciële partijdigheid in zoekresultaten.

De probleemstelling maakt de oplossing voor de hand liggend: als woorden beperken, moet je iets met cijfers gaan doen. De Freedom Index is een simpele twaalfcijferige indexering, "niet heel veel ingewikkelder dan de streepjescode op de kaft van een bibliotheekboek." Ieder cijfer betreft een categorisering van de informatie, aflopend van groot naar klein.

Mijn Paintweergave van een min of meer even primitieve slide uit Davies' presentatie

De volgorde van de cijfers is voorwaardelijk, beginnend bij het breedste veld. De index is dus een soort boomstronk met allerlei verdere vertakkingen (heel typisch voor bomen). Dus als je de discipline 'biologie' selecteert, krijg je daarna een vertakking naar 'mariene biologie', 'microbiologie' en dat soort dingen. Per stap specificeer je dus wat relevant is voor het artikel dat je aan het indexeren bent. Naast de zeven inhoudelijke categorieën (die al een slordige vijf miljoen subdivisies opleveren voor bijvoorbeeld het topic mensenrechten), zijn er drie velden toegevoegd waarin je ieder land en iedere officiële taal kan selecteren. Dan heb je nog de mogelijkheid om onder 'media' aan te geven of het stuk informatie een document, blogpost of bijvoorbeeld een video betreft. "Ten slotte – en we zijn ongelooflijk enthousiast over deze innovatie – is er het 'controleveld' waarin je aangeeft of het materiaal volledig publiek, beperkt toegankelijk of geheim is," aldus de trotse geestelijk vader van de Freedom Index. Op die manier wordt dus ook als het gaat om (semi-)geheim materiaal, op z'n minst duidelijk wáár je het moet zoeken.

Een sociaalwetenschappelijk artikel over schoon drinkwater op basisscholen in Botswana, zou door de auteur dus kunnen worden geïndexeerd als 'antropologie' → 'international development studies' → 'primaire levensbehoeften' → 'bottom-up projecten' → 'basisonderwijs' etc. en dat komt dan bijvoorbeeld als 1 1 4 5 3 4 4 4 3 1 1 2 in de database van de Freedom Index te staan. Wanneer een Franse biomedische onderzoeker met beperkte kennis van het Engels een artikel zoekt voor haar onderzoek naar kleinschalige projecten voor het drinkbaar maken van regenwater op middelbare scholen in Zimbabwe, zou ze in het conventionele Google niet bij dit eventueel mega-relevante artikel terechtkomen. Via de Freedom Index dus wel.

De Freedom Index is dus een heilige graal voor het doorspitten van het wetenschappelijke wereldwijde web. Cijfers hebben geen last van taalbarrières en bovendien biedt de Index gettovorming het hoofd doordat het de silostructuur op het internet doorkruist. Je hoeft dus godzijdank niet meer van het bestaan van niche-achtige achterafsites met krakkemikkige inlog af te weten: de Index leidt je naar de juiste portalen. Doordat je simpelweg op relevantie van de informatie kunt zoeken op basis van die indexering, hoeft die informatie niet weg te kwijnen in een achterstandssilo samen met andere zielige, achtergestelde informatiebronnetjes.

Op de vraag of iemand anders dit simpele idee niet al eens eerder heeft bedacht, antwoordt Davies bevestigend. "Maar het grootste struikelblok is het genereren van de index." Inderdaad, mensen zijn gewoon te lui om dit uit te voeren, hoe groot de voordelen uiteindelijk ook zijn. Daarom gaat Davies met zijn team van Code Red een eerste lichting artikelen coderen, want als het systeem eenmaal loopt, wordt de investering relatief steeds kleiner en wordt de kans op succes vergroot. "Maar uiteindelijk gaat ook online voor niets de zon op. Mensen zullen gewoon, net als decennialang is gedaan bij boeken, een paar minuten van hun tijd moeten investeren in het indexeren van hun online content, zodat de rest van de wereld jouw informatie kan vinden."

Davies ontkent niet dat het project vrij ambitieus is: "Het is een enorme onderneming en het is zonder twijfel het grootste project waar ik in mijn hele leven aan ben begonnen! De omvang ervan beangstigt me soms. Maar er moet iets gedaan worden voordat het zoekproces volledig in elkaar dondert, door de oneindige hoeveelheid en diversiteit van inhoud." Om het allemaal nog enigszins behapbaar te maken, beperkt de Freedom Index zich nu tot data over mensenrechten: "Dat gaat al enorm veel werk en tijd kosten. Laten we hier maar eens mee beginnen."

Hoe simpel dit idee ook moge zijn, volgens Davies is dit "waarschijnlijk de grootste impuls in online onderzoek sinds Google." Dat is een aardige claim.