08-04-2018 Door: Sjoerd Janssen

DW&BI Summit 2018: Data First! en veel praktijkcases

Deel dit bericht

'Data first!' was het thema van de vijfde editie van de Data Warehousing en Business Intelligence Summit die op 20 en 21 maart in Utrecht plaatsvond. Een thema dat goed past bij de ontwikkeling waarin steeds meer organisaties data centraal stellen in hun bedrijfsvoering.

Verschillende sessies van deze Summit waren gericht op de nieuwe toepassingen die met al deze data kunnen worden gerealiseerd: meer doen met je data. Analytics, data science en artificial intelligence kwamen daarbij uiteraard aan bod. Ook waren er sessies gericht op de architecturen die nodig zijn om dit nieuwe gebruik te kunnen ondersteunen: niet-relationele databases, cloud computing, data lakes en datavirtualisatie. Weer andere sessies waren gericht op de eisen die, mede door dit nieuwe gebruik, worden gesteld aan de inrichting en de organisatie rondom de data. Zaken als data management, security, privacy, governance en compliance kwamen uitgebreid aan bod.

Data heeft eigen supply chain
Ook op deze editie van de Summit kwam de term Big Data weer naar voren. Maar deze keer dan toch vooral om aan te geven dat Big Data eigenlijk niet zo nieuw is. In de industrie worden namelijk al jarenlang enorme hoeveelheden data gegenereerd. Maar er zijn natuurlijk wel verschillen met het verleden. Een verschil is dat door de opkomst van social media, internet of things en de interneteconomie, veel meer bedrijven nu over enorme hoeveelheden data beschikken. Maar het belangrijkste verschil is toch dat het gebruik en de gebruikers behoorlijk zijn veranderd. Het gebruik is veranderd met de opkomst van self-service en data science. En waar voorheen de data vooral voor intern gebruik was, wordt er nu ook door andere partijen en consumenten van deze data gebruikgemaakt. Vergelijkbaar met een traditionele productieketen, zijn er door de huidige focus op data zelfs hele data supply chains aan het ontstaan bestaande uit dataproducenten, -providers, -distributeurs, -retailers, -verrijkers, -inkopers tot en met de uiteindelijke consument van deze data.

Uitgangspunten voor nieuwe architectuur
Dat een datawarehouse niet de oplossing is om al deze vormen van gebruik en al deze gebruikers te ondersteunen, is al langer bekend. Dat verklaart de opkomst van data lakes, data services en data streaming oplossingen. Maar met het introduceren van deze concepten en technologieën alleen komen we er niet. Al deze verschillende oplossingen leiden vervolgens immers tot verschillende datastromen, datasilo’s en duplicatie van metadata. Met metadata bedoelen we hier dan specificaties van de datastructuur, integratie, de transformaties, de cleansing-stappen, de analytical specificaties en de visualisatiespecificaties. En deze verschillende datastromen, datasilo’s en dataduplicaties resulteren vervolgens in inconsistenties en onnodige kosten. En dat lijkt toch niet de bedoeling.
Waar we volgens spreker en tevens dagvoorzitter Rick van der Lans dan ook behoefte aan hebben is een data delivery architectuur die tenminste voldoet aan de volgende principes:
• 1 universele architectuur voor alle data: transactiedata, externe data, streaming data
• Data-opslag en -toegang moeten technologie-agnostisch zijn
• Dataprocessing moet zoveel mogelijk bij de data zelf plaats vinden. Geen kopieerslagen om de data centraal te verwerken.
• 1 universele architectuur voor gecentraliseerde en actieve metadataspecificatie

Grote uitdagingen in managen van data
Op dat laatste punt haakt ook spreker Mike Ferguson in. Hij ging namelijk in op de uitdagingen en de oplossingen voor het managen van al deze data. In zijn eerste sessie besprak Mike welke extra uitdagingen cloud computing op dit gebied veroorzaakt. Want hoewel Europa in cloud computing nog wat achterloopt op de V.S., zijn we hier bezig met een grote inhaalslag. Steeds meer organisaties beschikken daardoor nu over een hybride omgeving met zowel on-premise als cloudapplicaties. En niet alleen applicaties, maar zelfs operationele en analytical databases bevinden zich meer en meer in de cloud. De toename van verschillende cloudomgevingen zorgt er vervolgens voor dat het aantal API’s en interfaces enorm toeneemt. Dat leidt, wanneer dit niet goed wordt gemanaged, tot een spaghetti van punt-tot-punt oplossingen. Er is daarom behoefte aan ontkoppeling, maar vooral ook aan een gemeenschappelijke vocabulaire, en gedeelde metadata over al deze omgevingen heen. Zeker nu data in organisaties centraal wordt gesteld, is er behoefte aan een gemeenschappelijk begrip over, en vertrouwen in, deze data.

Gelukkig bood Mike Ferguson ook een perspectief over hoe tooling hierin de organisatie kan ondersteunen: een gemeenschappelijk dataplatform waar de metadata kan worden gemanaged en welke het delen van metadata faciliteert. Een information catalog applicatie is daar een centraal onderdeel van. Welke mogelijkheden deze applicaties bieden, besprak Mike in zijn tweede sessie. Van het (automatisch) ontdekken, profileren en taggen van de data en dataproducten, het bieden van glossary en data linage functionaliteiten tot ook het relateren van compliance- en privacyregels aan de data. Daarmee bieden deze tools een marktplaats voor data- en analyticsproducten en faciliteren ze hergebruik.

IT als winkelier
Analoog aan het beeld van de marktplaats, had ook spreker Donald Farmer, belangrijk persoon in de ontwikkeling en design van BI en analytics tools binnen Microsoft en Qlik, het over IT als winkelier. Dit in zijn eerste sessie op deze Summit, met als titel: “Governence and Compliance in the age of self-service”. Donald slaagde er in deze sessie in het, toch enigzins stoffig, onderwerp van governance en compliance op een zeer boeiende wijze te bespreken.

De macht van de gebruiker is met de opkomst van self-service behoorlijk veranderd. Tegelijkertijd stijgen de eisen die gesteld worden aan governance en compliance. Dat lijkt de IT-organisatie in een spagaat te drijven. Want hoe bewaak je zaken als privacy (het beschermen van persoonsgegevens), security (het beveiligen van gegevens), governance (een goed proces in plaats hebben) en compliance (het voldoen aan de regelgeving) in een self-service omgeving? Volgens Donald vraagt dit om een andere kijk op zaken: we moeten af van de term eindgebruiker. De meeste mensen in de organisatie zitten in een self-service omgeving immers niet aan het eind van de beslissing, het datagebruik of de data-opslag. Nee, zij zijn actieve deelnemers in het systeem en hebben daarom hun eigen verantwoordelijkheden. Dat vraagt om een andere opstelling van IT. Zij moeten zich niet opstellen als poortwachter, maar als winkelier. Winkelier in data, voorgedefinieerde analyses, tools en services. Zij zijn er niet om alle governance en compliance issues te voorkomen, maar wel om de risico’s te begrijpen en regels te definiëren om deze te reduceren. Zo zal een winkelier alleen alcohol en tabak verkopen aan iemand die 18 jaar of ouder is, maar is de winkelier niet verantwoordelijk wanneer een klant deze vervolgens aan een minderjarige geeft.

Succes met data science
Ook verschillende praktijkcases kwamen tijdens het Summit aan bod. Zo vertelde Emiel van Bockel, Manager information services bij CB, welke ervaringen CB heeft opgedaan met data science. Met een klein budget en een klein team, waaronder enkele data science studenten, is CB op een scrum-achtige wijze aan de slag gegaan. Dit resulteerde in enkele succesvolle voorstellen en prototypes op het gebied van Financial Performance, Risk Reduction, New Business, Customer Focus en Process Improvement. Belangrijke lessen die Emiel en zijn team in dit traject en het vervolg daarvan hebben getrokken zijn:
• Vind een goede business partner. Om succesvol te kunnen zijn met data science, is het van groot belang om een goede medestander aan de businesskant te identificeren. Deze weet immers het beste waar de toegevoegde waarde te vinden is. Daarnaast is deze essentieel om enige weerstand, die er bij veranderingen in de organisatie van nature is, te breken.
• Zorg dat je de juiste mensen in je team hebt. Voor data science is een combinatie van wiskunde, IT maar vooral ook domeinkennis noodzakelijk. Verder is het van belang dat je een juiste mix hebt van mensen die exploratief en risiconemend aan de slag gaan met mensen die goed kunnen nadenken over hoe dit nu in een gestructureerde, beheersbare oplossing gegoten kan worden.
Om succesvol te zijn met data science moet je als organisatie over ‘learning agility’ beschikken; het vermogen om op basis van nieuwe ervaringen snel effectief gedrag ontwikkelen. Mensen die hierover beschikken hebben een voortdurende nieuwsgierigheid, juist op nieuw onbekend terrein. Ze herkennen in complexe zaken snel nieuwe patronen, ze staan open voor anderen en verbinden. Daarnaast zoeken ze telkens naar de beste manier om resultaat te behalen.

Een belangrijke voorwaarde voor data science succes die Donald Farmer in zijn tweede sessie op de Summit hier aan toevoegde is de datageletterdheid. En hierbij gaat het dan niet om de kundigheid van de data scientist, maar de data geletterdheid van de gehele organisatie. Want als je als organisatie niet kunt denken in termen van waarschijnlijkheid en kansen, dan heeft het ook geen zin om daarover binnen de organisatie te communiceren. Om succesvol te zijn moet de organisatie om kunnen gaan met ambiguïteit: het gaat niet om het simplificeren en het brengen van dat ene mogelijke verhaal dat de data kan vertellen, maar het gaat om het op gang brengen van de conversatie rondom de data.

Mooie balans
Tijdens de Summit was er veel aandacht voor praktijkcases. Naast Emiel van Bockel (CB), was er ook in de sessies van Erik Fransen (connecteddatagroup) en Irene Salemink (CBS) aandacht voor de praktijk. In andere sessies werd juist ingegaan op de nieuwste ontwikkelingen. Zo gingen Cor Baars en Jan Velsink in op de nieuwste ontwikkelingen binnen AI en de combinatie van AI en BI, en was er zelfs een sessie van Sam Wouters over de invloed van blokchaintechnologie op data en Business Intelligence. Door een goede balans tussen theorie en praktijk, maar ook tussen de verschillende perspectieven op het thema ‘Data First!’ bood de Summit een mooi gebalanceerd programma. Dat was ook terug te zien in de beoordeling van de vele bezoekers. Daarmee kunnen we terugblikken op een succesvolle vijfde editie van de Data Warehousing en Business Intelligence Summit. Op naar de volgende!

Sjoerd Janssen

Sjoerd Janssen is Data Governance Architect bij ASML en lid redactieadviesraad BI-Platform.

Alle blogs van deze auteur

Partners