Grote gegevens. Part two.

Data

Aarzelingen

In het vorige deel van ‘grote gegevens’ besprak ik Big Data in zijn ideaalvorm, toch ongeveer. Er zijn echter een heel aantal twijfels en bedenkingen die ik toen niet vernoemd heb. Big Data is zeker en vast niet overal de oplossing voor of een goeie stap vooruit. Dat wil ik in dit deel aantonen. Laten zien dat er echt punten van kritiek en nadelen aan zijn. Big Data botst namelijk al eens met ons juridisch systeem, maar in dit deel focus ik vooral op de sociale en maatshappelijke pijnpunten die de inzet van Big Data met zich meebrengt. Een bloemlezing…

Shots on target

Ik ben zelf geen voetballiefhebber, maar een groot deel van de Belgen ongetwijfeld wel, vandaar een herkenbare statistiek, shots on target. Het aantal keer je ploeg op doel geschoten heeft, maar de bal wel effectief tussen de palen zou beland zijn. Een belangrijk statistisch gegeven om de efficiëntie van je ploeg te meten. Hoeveel op schoten, hoeveel binnen de palen en hoeveel ervan gaan echt binnen. Bij Big Data zou dat percentage niet bijster hoog liggen. Vaak is die effectiviteit ver te zoeken.

Bill Binney was een voormalig medewerker van de NSA, iemand die er aan het werk was toen de mass-surveillance activiteiten op poten werden gezet. Nog voor de onthullingen van klokkenluiders als Manning en Snowden, die met hun onthullingen grote vraagtekens stelden bij die dataverzameling- en verwerkingspraktijken, was Binney al een van de grootste criticasters van de NSA. Hij beweerde dat het zinloos was om zoveel datapunten te verzamelen. Je zou veel meer zijn met een specifieke set van bijvoorbeeld een dozijn datapunten. Dat zou voor een betere inschatting zorgen. Binney beweert dat de meeste data die de NSA verzamelt compleet nutteloos is, meer nog, ze zouden het het beeld zelfs vervuilen. De voorspellende waarde zou dalen omwille van die ‘vervuilde’ data.

Wat je er ook mee doet, slechte data blijft slechte data.

Hier wil ik nog even op doorgaan. Er zijn namelijk in het algemeen weinig aanwijzingen voor de stelling dat de grootschalige gegevensverzameling van bepaalde inlichtingendiensten, de strijd tegen terrorisme ten goede komen. Achteraf kunnen ze weliswaar een perfect beeld opstellen van de persoon, zijn contacten, reisgegevens, enz. De aanslag voorkomen daarentegen, blijkt een pak lastiger. Laat dat even bezinken, want het gaat tegen ons buikgevoel in. Het gaat in tegen de gedachte dat, als we maar genoeg weten, we alles kunnen voorspellen.

Big Data-analyses geven inlichtingendiensten uiteraard geen ja/nee uitkomst op de vraag: gaat deze persoon een aanslag plegen. Ze werken met risicoanalyses. Die analyses worden dan opgevolgd door nader onderzoek. Vaak gaat het echter om zoveel personen dat het niet realistisch is om al die analyses op te volgen. Bij sommige inlichtingendiensten gaat het om tienduizenden mensen waar een rode vlag opduikt. Goed onderzoek naar een persoon kost weken of zelfs maanden. Experts beweren daarom dat het weinig nut heeft om van zoveel mensen te weten dat ze een bedreiging vormen. De groep moet veel kleiner worden om bruikbaar te zijn.

Hoge verwachtingen

Kan Big Data überhaupt de hoge verwachtingen inlossen? Bij inlichtingendiensten blijft dat moeilijk, die zijn namelijk van oudsher vrij gesloten. In andere sectoren is er een pak meer bekend, maar blijft de vraag evenzeer in hoeverre investeringen in Big Data vruchten afwerpt. De toepassing waar wellicht het meeste gegevens verzameld worden is die van de digitale advertentiemarkt. Ook hier wordt vaak gezegd dat, ondanks de gigantische hoeveelheden data, vele reclames vaak misplaatst zijn. De gekochte wasmachine die je overal blijft achtervolgen, de eenmalige citytrip naar Firenze van vorige maand blijft je aangeraden worden. Er is maar weinig wetenschappelijk bewijs dat persoonlijke advertenties echt beter bekeken worden en vaker tot een aankoop leiden dan andere vormen van reclame. Effectiever is het misschien wel om aan contextgebonden reclame te doen.

Een voorbeeld van contextgebonden reclame: je surft naar Sporza om er het verslag van de vorige wedstrijd van de Red Lions te kijken, tegelijk krijg je een aanbieding om tickets te kopen voor hun volgende thuiswedstrijd. “Maar Google en Facebook verdienen toch bakken geld aan ‘persoonlijke’ reclames”, dat kan absoluut waar zijn, maar is geen enkel bewijs dat persoonsgebonden reclame effectief is. Hoe meer mensen je product zien, hoe groter de kans is dat het gekocht wordt.

Waarschijnlijk zal blijken dat Big Data op bepaalde wijzen goed kan worden ingezet, terwijl andere toepassingen niet effectief blijken. Helaas wordt Big Data vaak als een wondermiddel gepresenteerd dat voor vrijwel ieder probleem een oplossing kan bieden.

Bart Van Der Sloot – Senior onderzoeker Tilburg Institute for Law, Technology and Society

To flu or not to flu

In 2009 deed Google de volgende uitspraak: “wij kunnen de uitbraak van griep met meer dan 97% zekerheid voorspellen”. Een ongekende accuraatheid in een gezondheidsonderzoek. Helaas, bleek wat later uit een onafhankelijke studie dat in het jaar 2013 twee keer zoveel griepgevallen werden voorspeld door Google dan gemeten door officiële instanties. Google deed blijkbaar wel meer innacurate voorspellingen zoals zijn ‘Google Flu Trends service’. Die is dan ook afgevoerd en ze zijn helemaal gestopt met metingen en voorspellingen in dit gebied. (Ottes, 2016)

Kennis van zaken

Ooit al in aanraking gekomen met statistiek? Dan besef je dat het geen sinecure is om een goeie onderzoeksmethodologie te ontwerpen, betrouwbare gegevens te verzamelen en daar dan relevante en significante verbanden uit te halen. Veel grote woorden om aan te geven dat echt dataonderzoek helemaal niet simpel is. Je hebt er kennis van zake voor nodig, kennis van statistiek en wiskunde. Al te vaak wordt zo’n werk helaas uitgevoerd door personen die er weinig kaas van gegeten hebben en dat leidt tot veel voorkomende problemen.

Representativiteit

Data moet representatief zijn. Als je iets over koopgedrag wil weten in een bepaalde supermarkt en je weet dat 66 percent van de klanten vrouw is en 34 percent man, maar je dataset bevat negenduizend vrouwen en duizend mannen, moet je dit corrigeren. Dat kan door de data over mannen gemiddeld zwaarder te laten doorwegen, maar dat is in de praktijk echt niet simpel en vergt een complexe correctie. Geavanceerde en zeer professionele partijen zijn daar vaak voor op hun hoede, maar mensen of bedrijven die gedreven worden door een soort data-enthousiasme zijn dat vaak niet en trekken dan misschien heel foute conclusies.

Ook bij nieuwe data moet je hiervoor op je hoede zijn. Neem de politie, die patrouilleert van oudsher meer in bepaalde buurten dan anderen. Neem bijvoorbeeld Molenbeek, politie zal daar meer patrouilleren aangezien er redenen zijn om te veronderstellen dat er meer onregelmatigheden verwacht worden in deze of andere buurten. Het gevolg daarvan is wel dat er een pak meer informatie wordt opgeslagen over deze wijken. Dat lijdt tot een bias. Dat kan belangrijke gevolgen hebben, omdat de bevolkingssamenstelling in dergelijke wijken niet gemiddeld is. Het gevolg: mensen met een migratieachtergrond worden bovenmatig vertegenwoordigt in de criminaliteitscijfers. Dat terwijl het eigenlijk de dataverzameling is die niet representatief is.

Het Algoritme

Ik kan het niet over Big Data hebben, zonder toch even het concept van algoritme aangeraakt te hebben. We gebruiken algoritmes om data te analyseren en er patronen in te herkennen. Algoritmes worden geprogrammeerd en daarin worden aannames gedaan. Een aanname kan bijvoorbeeld zijn dat iemand die make-up koopt ook vaak geïnteresseerd zal zijn in shampooreclames. Het zou ook een keuze kunnen zijn om alleen de data te gaan analyseren over potentiële shampookopers als het vrouwen van middelbare leeftijd zijn. Je stelt een soort criteria in en laat dan je algoritme over je data lopen om dingen / personen te gaan herkennen.

Hier een belangrijk feit. Algoritmes en doorgedreven analyses worden vaak gepresenteerd als zijnde neutraal en objectief. “We laten het algoritme beslissen, iedereen is gelijk voor het algoritme”. Maar dat klopt dus niet. Algoritmes zijn altijd gebaseerd op vooraannames en subjectieve keuzes. Wat uiteraard niet wil zeggen dat die analyses niet waardevol kunnen zijn. Wel wil het zeggen dat de uitkomst deels het resultaat is van de keuzes die gemaakt zijn in het analyseproces vooraf.

Take Google Maps or Waze. On the one hand, they amplify human ability – you are able to reach your destination faster and more easily. But at the same time, you are shifting the authority to the algorithm and losing your ability to find your own way.

Yuval Noah Harari

Nog een vaak voorkomend probleem: het verschil tussen een correlatie en causaliteit. Het kan zijn dat mensen die een bierviltje onder hun stoel steken wanneer die wankelt, ook altijd hun lening tijdig afbetalen. Da’s geheel mogelijk en kan een correlatie zijn, dingen die samenvallen of samen voorkomen. Maar het ene heeft hoogstwaarschijnlijk niets met het andere te maken. Je mag er dus niet een ‘dit gebeurt, dus dat gebeurt ook’ verhaal van maken.

Een grappig voorbeeld: in Amerika zag een gouverneur met lede ogen aan hoe schoolgaande kinderen slechter en slechter presteerden, en zo ook moeilijker doorstroomden naar hogere opleidingen. Er werd een groot datagedreven onderzoek gedaan naar de schoolprestaties van de kinderen. Wat bleek? Een van de factoren met de grootste voorspellende waarde voor schoolprestatie was het aantal boeken dat in het huis waar de kinderen opgroeiden, gevonden werd. Daarop besloot de gouverneur een boekenplan op te stellen: naar alle huishoudens waar kinderen opgroeiden zouden boeken verstuurd worden om zo de schoolprestaties te bevorderen. Pas op het laatste moment is het plan (gelukkig) afgeblazen. De causale relatie zou onbestaande geweest zijn: het een had niks met het ander te maken. Het is niet zo dat kinderen slim worden omdat er veel boeken in huis zijn. Waarschijnlijker is het dat hoogopgeleide ouders én veel boeken in huis hebben én hun kinderen stimuleren en ondersteunen in hun schoolprestaties.

Image result for causality correlation
XKCD

Correlatie ≠ causaliteit

The Chilling Effect

In de 18de eeuw was er een filosoof die zich erop toelegde de meest efficiënte gevangenis ooit te ontwerpen. Hoe kunnen gevangen goed en constant in de gaten gehouden worden zonder veel mankracht nodig te hebben? Met die vraag ontwierp Jeremy Bentham een eigen gevangenis. De kern daarvan is dat de gevangenis zich aan de buitenkanten van een rond gebouw bevinden. De gevangenisbewaker zit in het midden, zo ziet hij alle cellen en gevangen. Aangezien het licht ook naar binnen schijnt, kan hij alle silhouetten van de gevangenen onderscheiden. Er is dus eigelijk maar één bewaker nodig, maar Bentham gaat verder, hij zet de bewaker in een verduisterde ruimte. Zo kunnen de gevangen niet zien of ze in de gaten gehouden worden. De gedachte hierachter: als je weet dat je in de gaten zou kunnen worden gehouden, zonder dat er een manier is om dit te verifiëren, dit voor veel mensen al genoeg is om hun gedrag op voorhand aan te passen.

De ‘Panopticon’-gevangenis van Bentham

Bijna een analogie met de huidige samenleving, niet? We worden meer en meer, overal en altijd in de gaten gehouden. Gedrag dat aangepast wordt omdat de persoon in kwestie denkt dat die in de gaten gehouden worden, dat wordt in de literatuur het ‘chilling effect’ genoemd. Dit effect kan een grote impact hebben op een bevolking. Uit onderzoek blijkt dat mensen die constant in de gaten gehouden worden stelselmatig angstiger en onzekerder worden dan mensen die niet in de gaten gehouden worden. Het is ook geen goed idee je kinderen constant te monitoren, daar blijkt namelijk dat die kinderen minder snel en een minder grote mate van zelfstandigheid bereiken als ze constant in de gaten gehouden worden door gps-trackers of een chip in de arm.

Het streven naar een risicovrije samenleving (Beck, 1986) leid vaak tot controledrift die wordt gedreven door angst en die angst kan doorslaan naar wantrouwen. Het blijkt dat, hoewel misdaadcijfers blijven dalen, mensen toch nog steeds angstiger worden. Waarom?

Veel komt voort uit het feit dat we als mens enorm slecht zijn in risico’s inschatten. Door Big Data worden die risico’s steeds zichtbaarder, het geeft een gevoel van controle om die risico’s in kaart te brengen, maar de perceptie zit vaak helemaal fout. We zijn zo bijvoorbeeld verschrikkelijk vatbaar voor de angst van terrorisme. Media geven buitensporig veel aandacht aan minimale gebeurtenissen. Zij wekken het gevoel op dat het gevaar aan de deur staat. Kort in cijfers, de kans dat je overlijdt door:

  • Kanker – 1 op 4
  • Hartaanval – 1 op 1000
  • Verkeersongeluk – 1 op 15 000
  • Verdrinken in een badkuip – 1 op 685 000
  • Terroristische aanslag – 1 op 1 000 000

We zitten dus met een gigantisch perceptieprobleem. Ik stel me luidop de vraag: helpt Big Data ons genoeg om de nadruk te leggen op de juiste risico’s? Of wordt Big Data te vaak ingezet om ons bang te maken en misschien zelfs te houden?

Filter Bubble

De laatste valkuil die ik hier ga bespreken hangt samen met de inzet van profiling, waar ik daarstraks over sprak bij de digitale advertentieprofielen. Daarbij wordt uitgegaan van patronen en gebruik gemaakt van data uit het verleden. Die gebruiken ze dan om voorspellingen te doen over de toekomst. Een van de potentiële problemen die dit veroorzaakt is dat het oude patroon enorm bepalend wordt voor de mogelijkheden en kansen van de toekomst. We noemen dit fenomeen, het gevaar van de echokamer of de filter bubble. Op het internet wordt de content die mensen te zien krijgen meer en meer gepersonaliseerd op basis van profielen. Als ‘rechts-conservatieve-laagopgeleide man’ krijg je andere zoekresultaten, reclames, nieuws en video’s te zien dan de ‘links-progressieve-hoogopgeleide vrouw’

Je krijgt dus bijna uitsluitend content te zien die je aanvankelijke wereldbeeld versterkt. Die persoonlijke wereldbeelden en die van groepen worden absoluter en lopen verder uit elkaar (The Guardian, 2017). Heb je hier graag een pijnlijk voorbeeld van? Microsoft lanceerde een zelf-lerende robot, eentje bedoeld om klachten en vragen van klanten te beantwoorden of hen de juiste richting op te sturen. Ze wilden de robot ook leren om mee te discussiëren op online fora. Na enkele uren werd de robot alweer offline gehaald. De robot had namelijk geleerd dat het normaal was om op het internet sterk racistische, seksistische en nazistische teksten uit te slaan (The Verge, 2016).

De filter bubble slaat niet enkel op sociale media of gedachtegoed op het internet. Ook de bestaande sociale ongelijkheid in de samenleving wordt door de gebruikte algoritmes herhaald en versterkt. Daarstraks gaf ik het voorbeeld van bepaalde wijken die meer worden gesurveilleerd en daar worden dus ook meer incidenten geregistreerd. Hetzelfde gebeurt wanneer verzekeraars of banken op basis van datagedreven processen beslissingen nemen over wie een lening / verzekering aan te bieden. De personen uit de rijkere wijken zullen leningen krijgen aan betere voorwaarden, terwijl personen uit armere wijken hogere premies betalen. Aangezien uit de analyse blijkt dat de bank een groter risico loopt met de persoon uit de armere wijk. De rijken zijn er dus nog beter mee af, terwijl de armere nog meer geld kwijt is.

Decency is the new punk

Ik wil graag nóg eens eindigen met een vraagstelling. Ik ben namelijk maar een student en ben zeker en vast niet degene om antwoorden aan te vragen. Ondermijnt Big Data op deze en de voorgaande ‘pijnpunten’ beetje bij beetje de solidariteit in onze samenleving? We gaan in de toekomst immers beter en beter kunnen berekenen welk gedrag leidt tot welk risico. Het zal niet enkel meer gaan om de gezondheidseffecten van roken of de kans op een botbreuk bij het skiën. Door allerhande apps, fitbits, apparaten in je smarthome, … zal in feite je hele leven in kaart gebracht worden. Elk gedrag zal zo gekoppeld kunnen worden aan een consequentie. Het idee dat iedereen voor elkaar betaalt komt daarmee onder druk te staan. Kinderlozen betalen voor kinderopvang van anderen, de niet-roker betaalt de medische behandeling van de roker. Wil je een extra chocolaatje, oké maar dan wordt je zorgverzekering wel duurder; rij je ‘s nachts met je auto, dat kan maar dat is een extra risico en brengt een extra premie met zich mee.

Het is nog niet zover, maar de tekenen zijn er. Zijn we beetje bij beetje onze solidariteit aan het uithollen? Moeten we ons schip hier naartoe sturen of van wegleiden? Kunnen we deze nieuwe soort technologie ombuigen en mensen verbinden in plaats van verdelen. Hoe en waar beginnen we? Ik luister.

Bronnen

Elementaire deeltjes #62: Big Data – Bart Van Der Sloot (boek)
Waarom iedereen altijd gelijk heeft – Ruben Mersch (boek)

One Reply to “Grote gegevens. Part two.”

Leave a Reply

Your email address will not be published. Required fields are marked *