NAP Contactbijeenkomst 'Ontdekkingsreis in Big Data' 9 november 2017
Big data: de goudwinning van de 21e eeuw
Op de vierde NAP contactbijeenkomst van 2017 is een ontdekkingsreis gemaakt door de wereld van de Big Data, met als gids Femke de Jager. De tocht begon met een toelichting van begrippen, om ook degenen die nog onbekend zijn met dit fenomeen de tools mee te geven om deze ontdekkingsreis zonder kleerscheuren door te komen en de wondere werking ervan enigszins te kunnen doorgronden.
De tocht eindigde met de toelichting van een aantal bijzondere cases, die de enorme potentie liet zien die Big Data heeft, ook voor de procesindustrie. Niet verwonderlijk daarom dat op deze 9e november ook het startschot werd gegeven van de SIG Big Data.
De eerste spreker was Youssef El Bouhassani van LINK Data Science. Hij begon zijn presentatie met de vraag waarom Big Data juist nu in opkomst is. Als eerste werd genoemd dat er door de digitale revolutie nog nooit zoveel data is gecreëerd als nu. Een recent onderzoek leerde dat 90% van alle data ooit in de geschiedenis is geproduceerd tussen 2011 en 2013, dat wil zeggen in de lange menselijke geschiedenis tot 2011 is slechts 10% van alle data geproduceerd. Ondertussen is slechts een hele kleine fractie van die data geanalyseerd, terwijl de verwachting is dat 25% van de data een toegevoegde waarde heeft. Niet voor niets een goudmijn die nog te ontdekken valt. Hinderpalen daarbij zijn beschikbare budgetten, bedrijfscultuur en skills van mensen; privacy is een andere aspect om rekening mee te houden om niet voor de volle 25% te gaan. Een andere enabler voor de Big Data opkomst zijn de kosten van opslag. Kost de opslag van drie terabyte aan data nu hooguit rond € 100; twintig jaar geleden was dat nog in de orde van miljoenen euro’s. Tenslotte heeft de ontwikkeling van rekenkracht en cloud technologie de komst van Big Data mogelijk gemaakt; daarmee kunnen complexe algoritmes worden geïmplementeerd.
Youssel El Bouhassani | Youssef El Bouhassani |
Voor Big Data bestaan ingewikkelde definities, maar Youssef houdt liever de eenvoudige stelregel aan dat sprake is van Big Data als de hoeveelheid data te groot is om op één computer op te slaan en te verwerken. Net als met een glas dat te vol raakt met water, zijn er twee oplossingsrichtingen: een groter glas of meerdere glazen. De supercomputer is daarbij erg duur; meerdere computers zijn naar behoefte flexibel aan te schaffen.
Youssef maakte een onderscheid tussen twee verschillende aspecten van de Big Data techniek. Enerzijds het omgaan met data, zoals data verzameling, opslag en processing. Anderzijds de uit te voeren analyses en afgeleid daarvan machine learning.
Wat betreft het omgaan met data komen vragen op als: hoe grote hoeveelheden data zijn op te slaan zodat deze daarna veilig en betaalbaar beschikbaar zijn en hoe snel data vervolgens gebruikt kan worden gezien de beperkingen in rekenkracht van een enkele computer. Hier worden ondersteunende technieken als Hadoop en Mapreduce genoemd. Als toelichting noemt Youssef hierbij de vraag hoe snel de gemiddelde leeftijd in een klas bepaald kan worden. Enerzijds kan dit door één voor één aan iedere student de leeftijd te vragen en dan het gemiddelde te berekenen. Sneller gaat dat door tegelijk per rij de gemiddelde leeftijd te vragen en dan het gemiddelde te bepalen. Door parallel te werken wordt sneller resultaat bereikt.
Belangrijk uitgangspunt bij het maken analyses is dat wordt aangenomen dat data patronen bevat die gegeneraliseerd kunnen worden; daarnaast bevat de data ook ruis. Wat betreft de analyses is onderscheid te maken in drie typen. Bij de zogenoemde descriptive analyse wordt teruggekeken ofwel een analyse van het verleden. Bij de predictive analyse wordt een voorspelling gedaan door het modelleren van historische patronen en trends. Bij prescriptive analyse wordt nog een stap verder gegaan: inzichten zijn in acties te vertalen. In deze volgorde is ook steeds minder menselijk denkwerk nodig om de analyse om te zetten in acties. Met de laatste twee typen wordt ook de wereld van zogenoemde machine learning betreden. Hier zijn vele mogelijkheden te onderscheiden afhankelijk van gebruikte techniek en de soort voorspelling die nodig is. Bijvoorbeeld de verwachte wachttijd in een rij bij de supermarkt, het herkennen van een voorwerp in een plaatje tot en met de actie van een robot om een item op te pakken en te verplaatsen.
Ter afsluiting benoemde Youssef nog de skills die nodig zijn voor een goede data scientist. Met alle kennis van statistiek, wiskundige technieken, databases, software engineering en visualisatie is eigenlijk een schaap met vijf poten nodig. Zijn conclusie was dan ook om goede teams samen te stellen. Klik hier voor de presentatie van Youssef.
Frans van Tilborg van IAC heeft de Masterclass bij Youssef gevolgd en verhaalde enthousiast over de case van Tata steel die daar is uitgewerkt. De kwaliteit van plaatstaal kon aan de hand van historische patronen goed voorspeld worden. Dit creëert een meerwaarde voor Tata; niet iedere klant heeft immers dezelfde vereisten. Frans wil zichzelf geen expert noemen na de Masterclass maar heeft wel de smaak te pakken gekregen.
vlnr: Femke de Jager, Youssef El Bouhassani, Frans van Tilborg | vlnr: Frans van Tilborg, Youssef El Bouhassani |
Als laatste besprak Paul Rooijmans van Lynxx enkele cases uit zijn praktijk. Hij liet in al zijn cases zien dat anders naar de wereld kijken zoveel meer kan opleveren dan op het eerste gezicht lijkt. Problemen kunnen met bestaande gegevens goed opgelost worden als maar goed naar data gezocht wordt. Nieuwe mogelijkheden komen op als een bestaand product iets wordt aangepast met bijvoorbeeld extra sensoren.
De eerste case betrof de levering van een lift op een NS station. Eis was een levensduur van 25 jaar en 99% beschikbaarheid. Reflecterend hierop kan dat betekenen dat de lift 180 werkdagen per jaar tussen 8 en half 9 in de ochtend stilstaat. Niet echt wat de bedoeling is. Dit was de start om de KPI anders in te richten. Daarbij is ook nagegaan wat de leverancier van de lift allemaal aan data vastlegt: aantal keren op en neer, tijdstip van dag, onderdelenwissels, en vele andere operationele gegevens. Maar bijvoorbeeld niet of iemand heeft geürineerd in de lift terwijl die dan toch langdurig niet gebruikt wordt. Ook niet het detecteren van graffiti en opgekalkte racistische leuzen. Uiteindelijk wordt zo een lift ontwikkeld die zichzelf leert welk gebruik ervan wordt gemaakt, van rustige nachturen, tot drukke ochtendspitsen en Koningsdagen. Soms moet men kijken wat er niet is; dat vertelt ook het verhaal, zo sloot Paul deze case af.
De case die voor een verzekeringsmaatschappij het aantal benodigde werkplekken in een nieuw gebouw moest voorspellen, gaf goed aan waar overal data is te halen. Eigenlijk moet die op het laagste niveau worden gezocht, met het meeste detail. Bijvoorbeeld door de data van toegangspoortjes te gebruiken; bedenk dat daarin ook het in- en uitlopen tijdens de lunch staat opgenomen. De brandmeldinrichting doet een CO-meting, die gebuikt kan worden om per gebouwdeel een indicatie te geven van het aantal mensen dat aanwezig is; mensen stoten immers CO uit. De Wifi-router is een andere bron die aangeeft waar mensen zich bevinden. Ten slotte wordt in koffiemachines bijgehouden hoeveel koffie wanneer wordt gedronken; weer een indicatie waar in het gebouw mensen zich bevinden. Zo scheelde dit uiteindelijk bijvoorbeeld 3 FTE, door de IT afdeling bij de ingang te plaatsen; eenvoudig door het verminderen van het lopen door het pand.
Paul Rooijmans |
Een volgende case betrof een transportbedrijf in de UK. Hier was sprake van veel ongelukken op stations en men had geen idee waardoor dit kwam. Ook hier zijn diverse databronnen gebruikt; eerst gewoon rondlopen, dan in databases rondneuzen. Daarin werd veel geregistreerd en bij een analyse van woorden kwamen ‘alcohol’ en ‘dronken’ redelijk vaak voor. Uiteindelijk is met behulp van het uitzetten van tijdassen de oplossing gevonden. Eerst op jaarbasis toen niets te zien was, toen op maandbasis met vier maal een piek en toen op weekbasis met een piek op maandagmiddag. Uiteindelijk bleek een en ander te herleiden naar armoede, uitbetaling per week, dronken worden op die dag van uitbetaling en met het laatste geld nog wel boodschappen halen om de geslonken voedselvoorraad aan te vullen. En dan sta je beneveld op de roltrap met een tas vol boodschappen en hel je voorover om te kijken of je de metro nog wel gaat halen.
Een andere case betrof een busvervoerbedrijf dat een offerte deed voor het vervoer in een stad. Zij noemden daarbij de voorwaarde dat ze ook eigenaar van de data wilden worden en die wilden gebruiken. En dan niet alleen om het aantal mensen en kilometers te registeren en voorspellingen daarvoor te doen. Zij wilden de bus uitdossen als een soort google street car en bijvoorbeeld ook de kwaliteit van het wegdek en de fijnstof meten. Andere mogelijkheid met ethische component is het bepalen van de BMI-index per wijk.
Net als Youssef wees Paul erop hoe belangrijk het is de mensen met juiste skills aan te trekken en gemotiveerd te houden. Studies aan Stanford en MIT, reizen naar Silicon Valley, uitwisseling met een vestiging in Sydney, werkelijk alles wordt hiervoor gedaan. Helaas voor de meeste aanwezigen deze avond, want de leeftijd van geschikte mensen stopt bij 35 jaar; daarna wordt het denken trager… Klik hier voor de presentatie van Paul Rooijmans.
Netwerken tijdens het diner | Tijdens de presentaties is de zaal vol aandacht |
Netwerken tijdens het diner | Onderonsje |