Leve het algoritme
Donderdag 29/8, 21.35 – Canvas
De politie van L.A. die op basis van bestudeerde gegevens de misdaad probeert voor te zijn? Of een beursmakelaar die via een algoritme forse winsten voorspelt? Volgens de BBC-documentaire die Panorama deze week uitzendt, is dat geen sciencefiction maar de realiteit, doordat we de afgelopen jaren een overvloed aan gegevens (big data) hebben opgeslagen. ‘Big data zijn verzamelingen van gegevens die zó groot worden dat ze vaak nauwelijks beheersbaar zijn’, zegt Frederik Tibau van het ICT- vakblad Data News. ‘Op enkele jaren tijd hebben we allemaal via toepassingen zoals Facebook, Twitter, Instagram, mail, blogs, websites, bedrijfsdatabases, Flickr en Office meer gegevens geproduceerd dan ooit tevoren in de hele menselijke geschiedenis. Door de alsmaar groter wordende opslagcapaciteit van onze computers en datacenters kunnen die data nu mooi gestockeerd worden, waardoor ze doorzoekbaar en analyseerbaar worden.’
Wie doet daar zijn voordeel mee?
Frederik Tibau: Bedrijven uiteraard. Als zij de opgeslagen data waarover ze beschikken – en voor een bedrijf met 1.000 werknemers is dat vandaag gemiddeld al 200 terrabytes – op een doordachte manier ontginnen dan krijgen ze erg waardevolle informatie en kunnen ze behoorlijk accurate voorspellingen doen.
Hoe ver kan dat gaan?
Tibau: Er zijn enkele frappante voorbeelden. De Amerikaanse retailgigant Wal-Mart ontdekte bijvoorbeeld dat één procent van zijn pas aangeworven werknemers criminelen waren… Wal-Mart had ze zelf doorgegeven aan de politie nadat ze spullen uit de supermarkt hadden gestolen. Business intelligence specialist ParAccel gebruikt dan weer data afkomstig van enkelbanden om te voorspellen wanneer voormalige gevangenen hun volgende misdaad gaan plegen.
Werkt het ook elders?
Tibau: In de zorgsector en bij de overheid. Het Brusselse bedrijfje Agilos heeft een toepassing ontwikkeld waarmee de anesthesiedata in een operatiekwartier in real time kunnen worden geanalyseerd. En de sociale inspectie snuffelt in de historiek van ondernemingen om te achterhalen bij welke bedrijven er een groot risico op fraude bestaat. Met resultaat, want bij hoge risicoscores kan de inspectie van 15 naar 55 procent positieve controles gaan. Het strafste voorbeeld komt uit Japan: daar slaagden de spoorwegen in om dankzij de data van seismografen te voorspellen dat er een grote aardbeving zou plaatsvinden, waardoor ze hun hogesnelheidstreinen 43 seconden ervoor tot stilstand konden brengen.
Kan men het ondanks de hoeveelheid aan gegevens nog steeds mis hebben?
Tibau: Een belangrijk probleem is ‘ruis’. Data zijn niet altijd zuiver. Steeds vaker gebeurt het dat er zo veel gegevens beschikbaar zijn dat het moeilijk wordt om er nog relevante informatie uit te distilleren. De ruis gaat overheersen, en het signaal verliest aan kracht. De overgrote meerderheid van de data die verzameld wordt, is ruis. Dat is niet zonder gevaar.
En dan denken we al vlug aan bankiers of aan de huidige crisis?
Tibau: Klopt, kredietbeoordelaars extrapoleerden oude cijfers over de huizenmarkt naar het heden en onderschatten de kans op een crash. En de Amerikaanse inlichtingendiensten die al onze geproduceerde data inkijken, kunnen nog steeds niet alle aanslagen voorkomen. Allicht omdat ze door de bomen het bos niet meer zien. Er moeten nog waterdichte manieren gevonden worden om de ruis te filteren, om het belangrijke van het onbelangrijke te onderscheiden. Blindelings op big data vertrouwen zou ik nog niet doen.
(H.V.G.)
Fout opgemerkt of meer nieuws? Meld het hier