LOFAR, de radiotelescoop met thuisbasis in Drenthe en stations van Ierland tot Polen, is een belangrijk exportproduct van Noord-Nederland en het wellicht grootste big data-project van Nederland. Assen was dan ook een passende locatie voor de bijeenkomst die het Innovatiecluster Drachten (ICD) en Berenschot eind september bij ICD-lid Resato organiseerden in samenwerking met Link Magazine en Siemens PLM Software. ‘Zonder domeinkennis zijn data scientists waardeloos.’
Astronomische databases opzetten of kleinschalig beginnen
Wilma Mulder, directeur KxA Data Solutions, introduceert het begrip ‘big data’: datasets die zo groot of zo complex zijn dat traditionele verwerking niet meer adequaat is. Dat wil zeggen: de dataprocessingsoftware kan het niet aan, de conventionele databases zijn te traag en kunnen streaming data niet meer verwerken, of de combinatie van data uit verschillende bronnen is te lastig. Voor big data onderscheidt ze vijf fasen: meten, ophalen, opslaan, interpreteren en handelen. Als mogelijke toepassingen noemt ze track & trace, predictive maintenance en datagedreven faalanalyse en optimalisatie. ‘Maak gebruik van specialisten, data science is een vak’, geeft Mulder de aanwezigen mee. ‘Blijf niet doorgaan met oude databasetechnieken, ga ruwe data opslaan en begin niet te groot.’ De breedte van het toepassingspalet illustreren vervolgens de presentaties van Lifelines (grootschalig bevolkingsonderzoek), ASTRON, Siemens en IJssel (beiden over predictive maintenance), Altheris (nu onderdeel van Althen Sensors & Controls, over maatwerk-sensoroplossingen voor het internet of things) en E11EVEN (cybersecurity). Hieronder enkele krenten uit de big data-pap.
Big science
Albert-Jan Boonstra, programmamanager technical research bij kersvers ICD-lid ASTRON, spreekt over de telescopen van het Nederlandse instituut voor radioastronomie, en de gigantische hoeveelheden data die deze verzamelen. De trend is richting grotere telescopen, omdat die gedetailleerdere opnamen van astronomische verschijnselen kunnen maken en dus meer inzicht verschaffen in bijvoorbeeld het ontstaan van ons heelal. Zo krijgen de bekende radiotelescopen van Westerbork een update waardoor ze een veertig keer zo groot deel van de sterrenhemel tegelijk kunnen observeren, met een navenant grotere datastroom tot gevolg, naar verwachting 20 petabyte (20 miljoen gigabyte) in vijf jaar. En LOFAR, de gedistribueerde radiotelescoop met stations over heel Noord-Europa, levert per dag 650.000 gigabyte aan ruwe data, waarvan na eerste bewerking 2,5 gigabyte per seconde overblijft. Het resultaat: een gigantisch archief, waaruit meer dan honderd onderzoekers naar believen gegevens kunnen plukken voor hun specifieke vragen. Inrichting en beheer van dat archief vormen een uitdaging op zich. ASTRON wil daarvoor het wiel niet alleen uitvinden. Sinds 2015 werkt het in een Europees project samen met andere onderzoeksconsortia in big science, meldt Boonstra.
Kinderschoenen
Na dit astronomische verhaal zet Martin Blenkers, manager predictive maintenance van IJssel, het gehoor weer met beide benen op de grond. Hij vertelt hoe de technisch dienstverlener big data in het onderhoud van industriële processen van klanten wil toepassen, waardoor de focus kan verschuiven van regelmatig acteren (bijvoorbeeld periodiek componenten vervangen) naar regelmatig meten (en componenten pas vervangen als de analyse op aanstaand falen wijst). De uitdagingen bij bedrijven zijn vaak nog heel basic. Zo is de onderhoudsdataverzameling veelal niet gedigitaliseerd. Veel onderhoudsprocessen, zoals inspecties, maar ook werkbonnen en terugkoppelingen van uitgevoerde werkzaamheden, moeten nog worden gedigitaliseerd. Vervolgens gebeurt analyse van de conditiemetingen nog vaak door personen, bijvoorbeeld operators of technici. Hun kennis moet in systemen worden gestopt, zodat analyse altijd en overal kan plaatsvinden onafhankelijk van de toevallige beschikbaarheid van een expert. De inzet van kunstmatige intelligentie (machine learning) staat echter nog in de kinderschoenen bij IJssel, meldt Blenkers. ‘Een probleem daarbij is dat we nog geen historie van falen hebben opgebouwd, er zijn nog te weinig data van faalmodellen beschikbaar om de analyse op te baseren.’
Een belangrijke driver achter big data voor voorspelbaar onderhoud is dat sensoren steeds goedkoper worden en tegenwoordig met standaardprotocol aan het internet kunnen worden gehangen. IJssel heeft er het softwareplatform Uptime Works voor ontwikkeld. Een project begint altijd met een analyse van de situatie bij de klant om de juiste sensoren te kunnen plaatsen. Blenkers pleit ervoor om dergelijke projecten kleinschalig te beginnen. Wel moet alle benodigde expertise worden ingeschakeld, tekent hij aan. ‘Zonder domeinkennis zijn data scientists waardeloos. Alleen door hen goed met domeinexperts te laten samenwerken, kom je tot goede algoritmes voor data-analyse.’ Bijkomend probleem: als data zoals druk, temperatuur, enzovoort naar buiten gaan, kom je dicht bij het recept van het betreffende proces. Beveiliging van de data is dus geboden.
Big risk
Dat is koren op de molen van Kevin Morssink, die na alle inspirerende verhalen tot slot een ‘bommetje komt droppen’, zoals hij het omschrijft: ‘big data, big risk’. Morssink is ethical hacker bij E11EVEN, gevestigd in het vernieuwde Thialf-stadion in Heerenveen. In 2011 startte E11EVEN met forensisch financieel en digitaal onderzoek. Ook bij forensisch onderzoek is het belangrijk de data goed te beveiligen. Met een eigen dataplatform is E11EVEN steeds vaker cliënten gaan helpen bij ict-beveiliging. Hij vertelt hoe big data de ict-beveiliging kan faciliteren bij het opsporen van kwetsbaarheden – hacking on demand – met behulp van penetratietesten en geautomatiseerde scans; hij toont verontrustende statistieken. Bij de analyse van de resultaten die deze ‘vangnetten’ opleveren, is het de kunst een balans te vinden tussen vals positief en vals negatief (niet te veel gevaren onterecht benoemen, maar ook niet te veel reële gevaren missen). Zelflerende analysesystemen moeten uitkomst brengen. Vervolgens schetst Morssink de andere kant van de medaille: hoe zit het met de ict-beveiliging van big data-oplossingen? Dat is waar hij zijn bommetje loslaat. Bedrijven gaan enthousiast aan de slag en koppelen allerlei ict-systemen en databases aan elkaar, maar besteden vaak te weinig aandacht aan de beveiliging.
‘Ze hebben moeite om de balans te vinden.’ Hij verwijst naar het concept van ‘layered security’: Een hek om een datacentrum volstaat niet, ook de toegang tot de systemen in dat centrum moet goed geregeld zijn, het netwerk moet goed beveiligd zijn tegen inbraken, enzovoort. ‘Ze vertrouwen te vaak op één beveiligingslaag.’ Ook heeft men onvoldoende inzicht in de gevaren omdat de monitoring veelal ontoereikend is. Kortom, big data blijft nog wel even een explosief onderwerp.
Hoofdorganisator van de bijeenkomst is het Innovatiecluster Drachten. ICD presenteert zich als een internationaal werkend ecosysteem van samenwerkende hightech bedrijven en kennisinstellingen in Noord-Nederland. ICD-bedrijven werken samen aan oplossingen voor de grote uitdagingen van de toekomst, aangeduid als de ‘Big 5’: 3D metal printing; remote sensoring en big data; robotics; visual intelligence; all-electric propulsion. Het thema ‘remote sensoring en big data’ bestrijkt het op afstand verbinden van apparaten, instrumenten en machines, het verzamelen, overbrengen, opslaan en analyseren van data en het handelen op basis daarvan. Zo heeft het project ‘Smart Machines’ tot doel via remote sensoring & big data de stap te zetten naar predictive maintenance.
Het cluster telt nu zeventien leden, bedrijven uit Drachten en inmiddels ook overig Noord-Nederland. Onder hen BD, Neopost Technologies, Norma, Philips Drachten, Resato en Variass. Jongste aanwinst is ASTRON. ICD-voorzitter Kor Visscher (Philips) is er blij mee: ‘We kunnen veel leren van onze nieuwe wetenschappelijke partner, en dan heb ik het niet alleen over sterren en planeten.’
Link Café: Big data is zinloos zonder handelen?!
Onderdeel van de bijeenkomst is een Link Café powered by Siemens Industry Software. In groepjes discussiëren de deelnemers over de stelling: ‘Big data is zinloos zonder handelen.’ Achterliggende gedachte is dat het verzamelen van big data geen doel op zich is, maar – om zinvol te kunnen zijn – moet leiden tot handelen. Hoewel de stelling een open deur lijkt, komt het tot geanimeerde discussies waarin de voors en tegens elkaar aardig in balans houden.
Voor:
- maak geen kosten voor niks;
- gebruik niet de big data-technologie alleen omwille van de technologie;
- als het écht nooit tot handelen komt, is het inderdaad zinloos (zonde van het geld);
- het verzamelen van persoonsdata zonder duidelijk doel (en toestemming) is niet toegestaan.
Tegen:
- langdurig data alleen maar opslaan is niet per se heel duur;
- het zorgt in ieder geval voor historieopbouw;
- de gevonden correlaties kunnen onvoorziene mogelijkheden voor handelen bieden;
- soms komt het handelen pas later, bijvoorbeeld als er dan problemen zijn, of als de benodigde handeling nog moet worden ‘uitgevonden’.
Aan het eind staat nog een tweede stelling geagendeerd: ‘Ik heb die machine geleverd, die data is van mij.’ Een prikkelende stelling, maar vanwege de ‘data-overload’ (zeven presentaties!) bij de deelnemers besluit de organisatie om meteen tot de afsluitende borrel over te gaan. Die discussie komt ongetwijfeld terug.