04-04-2022 Door: Sjoerd Janssen

DW&BI Summit 2022: Het draait allemaal om data

Deel dit bericht

Trends als Data Mesh, Data Fabric en Data Ops komen uitgebreid aan bod tijdens het Data Warehousing en Business Intelligence Summit. Maar ze worden vooral ook geplaatst in de context van de data uitdagingen waar organisaties nog steeds tegen aan lopen: Hoe modelleer en contextualiseer je de data? Hoe beheer en organiseer je de data? Hoe verwerk je de data? Hoe sla je de data op? En hoe gebruik je vervolgens deze data?

Hoe modelleer (en contextualiseer!) je de data?
Tijdens de Summit zijn er drie verschillende sessies gerelateerd aan data modelering. Lawrence Corr heeft het in zijn sessie echter vooral over hoe je een online datamodeleringssessie kunt faciliteren met de online visuele samenwerkingsplatformen die, mede door de coronapandemie, de laatste jaren sterk in opkomst zijn.

De vele functionaliteiten die tools zoals Miro, Mural, LucidSpark, Freehand, Conceptboard en andere bieden worden steeds beter, zo toont Lawrence Corr in zijn online sessie aan. Update notificaties, versie historie, tags, voting, comments, timers en goede integratie met andere online en offline tools zijn voorbeelden van deze functionaliteit. En voor online modeleringsessies zijn uitgebreide diagrammen, tabellen, grids en smart containers (die automatisch resizen) zeer bruikbaar.

Alex Sharp bespreekt in zijn sessie op de Summit hoe je data conceptueel modelleert. Een conceptueel model beschrijft de business in termen van dingen die vastgelegd moeten worden - entiteiten, feiten over deze dingen - relaties en attributen, en de regels die verbonden zijn aan deze feiten en dingen – constraints. De ‘wat’ vraag, bijvoorbeeld ‘Wat is een klant?’, staat dan ook voorop. Het is van belang het antwoord daarop eenduidig vast te leggen. Dat doe je door daarin de precieze scope, enkele voorbeelden en voorkomende onregelmatigheden op te nemen.

Wat volgens Alec erg goed werkt in sessies met de business is om bottom-up te werken. Dit op basis van alledaagse herkenbare voorbeelden. Dit zodat het voor iedereen, zonder oordeel, makkelijk is om bij te dragen. Daarbij kun je eenvoudige handvatten bieden om de essentie vast te leggen en later naar hoger liggende concepten toe te werken.

Dat de business goed betrokken kan worden bij een conceptuele modeleringsessie komt ook omdat het hierin gaat over datgene waarover de business praat (problem space) in plaats van over hoe het in systemen wordt vastgelegd (solution space). Marco Brattinga geeft in zijn sessie op de Summit aan dat wanneer we de kennis van de problem space modelleren en zo de context vastleggen, we veel beter gebruik kunnen maken van de data. Data zonder context is betekenisloos en leidt tot verkeerd gebruik van de data. Semantisch modeleren is een top-down benadering om deze context te modeleren. Een knowledge graph is een manier om deze kennis expliciet vast te leggen, zo legt Marco uit.

Hoe verwerk je de data en hoe sla je deze op?
Data Mesh en Data Fabric zijn twee verschillende concepten voor het verwerken, transformeren, opslaan en beschikbaar stellen van data voor analytics die Barry Devlin in zijn sessie tegen het licht houdt. Hij doet dit door ze op zijn eigen eigen Digital Information Systems Architecture (DISA) te plotten.

De Data Mesh architectuur is eigenlijk een service oriented architectuur voor data, welke uitgaat van gedecentraliseerde ‘data product quantums’. Een ‘data product quantum’ bestaat uit de code, de data en metadata en de benodigde infrastructuur voor een dataproduct. Ook de governance hiervan vindt gedecentraliseerd binnen data domains plaats. Het probleem dat Barry Devlin, als ‘founding father’ van het data warehouse, daarbij ziet is het reconciliëren van de data over de datadomeinen en producten heen.

De Data Fabric legt de nadruk op automation op basis van AI/ML algoritmes die gebruik maken van metadata die real-time wordt bijgewerkt, active metadata. Deze active metadata, ook in de vorm van de knowledge graph waarover Marco Battinga het in zijn sessie heeft, ondersteunt daarbij het hergebruik en de analyse van de beschikbare data. Hoe meer data warehouses, data marts, data lakes en data pipelines je hebt, des te meer behoefte je logischerwijze aan een dergelijk concept zult hebben.

Eigenlijk is het helemaal niet zo wenselijk dat organisaties over zoveel verschillende data warehouses, data marts, data lakes en data pipelines beschikken. Er worden veel te veel kopieslagen gemaakt in de data warehouse architectuur maar ook in de business zelf. En dat heeft veel nadelen, zo betoogt Rick van der Lans in zijn sessie met de uitdagende titel Data Minimization. Het is in deze tijd van video on demand, music on demand en messaging on demand opvallend dat we nog zoveel kopiëren in plaats van een echte data on demand architectuur te implementeren, waarbij we toegang tot de originele data verschaffen. Al die kopieerslagen zijn helemaal niet wenselijk en zijn met technieken als datavirtualisatie vaak zelfs overbodig. Ook performance zou daarbij geen argument meer moeten zijn. Kijk maar eens naar de hoeveelheid data die diensten als Youtube dagelijks verwerken.

Hoe beheer en organiseer je de data?
Voordat je je afvraagt hoe je de organisatie en het beheer van je enterprise data inricht, is het van belang om eerst een duidelijk beeld van deze data te hebben. Dat beargumenteert Donald Farmer. ‘Desktopdata’ met gegevens die niet centraal worden vastgelegd en gedownloade data die inzicht geeft in de macroeconomische situatie worden alom gebruikt in managementmeetings. Het is dus van belang deze in je scope mee te nemen. Veel data wordt alleen informeel gedeeld.

Zijn advies is om al deze data te catalogiseren en daarbij vast te leggen waar deze data vandaan komt en welke compliance aspecten hierbij een rol spelen. Het beleid zou vervolgens moeten zijn dat er niets wordt gedeeld dat niet in de catalog is opgenomen. Daarnaast zal het gebruik van de data ook moeten passen binnen de vastgelegde doelen waarvoor de data mag worden gebruikt. En vergeet vervolgens niet om je mensen in dit beleid en de tooling die daarbij gebruikt wordt te trainen.

Hoe gebruik je de data?
Tijdens de Summit verzorgen Tanja Ubert en Gabriella Obispa, beiden mede-ontwikkelaars voor de nieuwe bachelor Applied Data Science & AI aan de Hogeschool Rotterdam, een interactieve workshop rondom het onderwerp Responsible Data Science. Sprekende voorbeelden zoals Cambridge Analytica en Tesla's autopilot ongeluk tonen aan dat we, als data engineer, een belangrijke verantwoordelijkheid hebben om vooraf de bedoelde maar ook onbedoelde gevolgen van data science oplossingen te scannen. Om dat goed te doen moeten we samenwerken in een responsible business team waarin verschillende disciplines en belanghebbenden vertegenwoordigd zijn. De vragen die we vervolgens samen moeten beantwoorden zijn:
- Wat zijn de bedoelde en onbedoelde consequenties van dit product of deze feature?
- Wat zijn de positieve consequenties waarop we willen focussen?
- Wat zijn de consequenties die we willen mitigeren?
En dat is natuurlijk geen eenmalige actie, maar zal in de iteraties van productontwikkeling moeten worden ingebed.

Het gebruik van data voor data science is ook een belangrijk onderdeel van de sessie die Keith McCormick op de Summit verzorgt. Hij prikt daarbij door nogal wat misverstanden en mythes heen. Zo is het niet zo dat supervised machine learning algoritmes leren zoals een mens leert van fouten. Sterker nog, de resultaten van het algoritme zullen verslechteren als je het niet hertraint en met nieuwe data voedt: het algoritme is zo goed als de data die je het voedt. Toch zijn deze traditionele machine learning algoritmes voor de meeste use cases de beste oplossing. Dit omdat ze transparant zijn. Je krijgt in tegenstelling tot deep learning algoritmes immers goed inzicht in het onderliggende model. Daarbij zijn veel use cases terug te leiden tot binaire classificatieproblemen waarbij je wil voorspellen welke uitkomst het meest waarschijnlijk is (Welke kans is er dat deze klant op deze promotie gaat reageren? Welke kans is er dat deze persoon zijn financiële verplichtingen niet kan nakomen?). Daarbij is supervised machine learning zeer geschikt en levert het ook nog het transparante classificatiemodel waaraan vaak behoefte is. Wat zijn dan wel goede use cases voor deep learning? Keith geeft aan dat er enorme vooruitgang is geboekt in image en video recognition welke worden toegepast in use cases als zelfrijdende voertuigen en gezichtsherkenning.

Data staat centraal, maar wel gelinkt aan business waarde!
Met deze perspectieven kunnen we gerust stellen dat data centraal staat tijdens deze editie van de Data Warehousing en Business Intelligence Summit. Maar dan wel gelinkt aan business waarde. Dat wordt ook benadrukt in andere sessies tijdens het event. Als je data vasthoudt zonder het te linken aan doel, relevantie en context dan ben je slechts een ‘data hamsteraar’ zo geeft Jan Henderyckx in zijn sessie aan. Deze sessie staat overigens volledig in het teken van data centric business value. Ook John O'Brien geeft in zijn sessie, getiteld ‘Building a business-driven roadmap for modern cloud architecture’, aan dat het allemaal start met het identificeren van de business strategy: welke waarde willen we bereiken?

Met sessies van internationele en nationale, bekende en minder bekende sprekers geeft deze mooie Summit niet alleen boeiende inzichten in hoe je het aanpakt, maar zet deze tegelijkertijd ook aan tot nadenken: wat willen we eigenlijk echt bereiken?

[Noot van de redactie: enkele van deze sprekers verzorgen workshops voor BI-Platform. Variërend van een halve dag online tot drie volle dagen in Van der Valk Utrecht. Zie onze Events-pagina voor een overzicht.]

Sjoerd Janssen

Sjoerd Janssen is Data Governance Architect bij ASML en lid redactieadviesraad BI-Platform.

Alle blogs van deze auteur

Partners