28-04-2023 Door: Sjoerd Janssen

DW&BI Summit 2023: Data Management centraal

Deel dit bericht

Naast inspirerende sessies over data lakehouses en artificial intelligence is er op de tiende editie van de Data Warehousing en Business Intelligence Summit veel aandacht voor het bredere vakgebied van data management: hoe implementeer je data management in een organisatie, hoe ga je om met zaken als privacy, hoe publiceer en beheer je dataproducten, hoe ga je om met datakwaliteit in een gedistribueerd landschap en welke datamodellen en datamodelleringstechnieken gebruik je waarvoor?

Er zijn de laatste jaren immers allerlei nieuwe concepten, technologieën en architecturen binnen het analyticsgebied geïntroduceerd waarvan organisaties nu de vruchten willen plukken. Maar dat lukt alleen als je het data management, je datahuishouden, goed op orde hebt.

Datakwaliteit in een Data Mesh en Data Fabric
Mede doordat toonaangevende analistenbureau’s zoals Gartner en Forrester er veel over publiceren is er de laatste jaren steeds meer aandacht voor twee nieuwe concepten in data managent: Data Mesh en Data Fabric. Dit zijn twee verschillende concepten met ieder hun eigen werkwijzen. Nigel Turner geeft in zijn sessie op de Summit een overzicht van beide concepten en welke implicaties deze hebben voor datakwaliteit. Waar Data Mesh vooral gaat over hoe je data management organiseert, gaat Data Fabric meer over de technologie en het automatiseren van data management met behulp van 'active metadata'. Binnen een Data Fabric worden technologieën als artificial intelligence, machine learning en concepten als knowledge graphs ingezet voor het definiëren, genereren en onderhouden van deze 'active metadata'.

Vanuit het oogpunt van datakwaliteit heeft een Data Mesh als belangrijkste voordeel dat het data als een (kwaliteits)product behandelt. Bovendien is de verantwoordelijkheid voor datakwaliteit binnen een Data Mesh goed belegd. Deze zit ligt hierbij namelijk bij de producenten van de data. Maar er zitten, voor data kwaliteit, ook enkele nadelen aan deze aanpak. Zo gaat het Data Mesh concept uit van het soevereiniteitsprincipe, waarbij ieder domein zelf verantwoordelijk is voor haar eigen dataproducten. Dit kan ervoor zorgen dat, de vaak al bestaande, silo’s binnen een organisatie worden versterkt. Daarnaast is Data Mesh vooral gericht op analytische data en adresseert het daarmeedata kwaliteit nog niet aan de bron.

Ook een data fabric heeft vanuit het oogpunt van datakwaliteit niet alleen positieve eigenschappen. Zo kan de focus op analytics voor het management van de data het belang van het aanpakken van datakwaliteitsproblemen door de business ondermijnen. Een belangrijk voordeel van een Data Fabric is wel dat het nieuwe technologische mogelijkheden biedt voor het automatisch opsporen en adresseren van datakwaliteitsproblemen.


Van datakwaliteit naar data observability
Mike Ferguson heeft op de Summit een sessie gegeven waarin datakwaliteit centraal staat. Zijn sessie gaat namelijk over data observability. Tooling die niet alleen de kwaliteit van je data continu meet, maar die ook je data pipelines monitort. Binnen deze pipelines vinden immers data cleansing en transformatie-activiteiten plaats. En deze activiteiten hebben weer een positieve of negatieve impact op je datakwaliteit. Het is dus van belang om deze pipelines ook goed te monitoren. Zeker in het huidige, gedistribueerde, landschap is dat nog niet zo eenvoudig. Bovendien is de verwachting dat met de toenemende populariteit van concepten als data mesh, het aantal pipelines en pipeline afhankelijkheden alleen maar zal toenemen. Binnen een data mesh werk je immers gedecentraliseerd. Data observability tooling kan dan helpen om alles te monitoren, issues te identificeren en aan te pakken.

Ook vanuit data governance perspectief heeft data observability een belangrijke rol. Veel data governance tooling biedt functionaliteit voor het profileren, classificeren en catalogiseren van data. Vaak ondersteunen ze het specificeren van bepaalde policy’s ten aanzien van deze data. Maar vervolgens wil je deze policy’s, in je gedistribueerde landschap, ook kunnen monitoren en zelfs afdwingen. Of zoals Mike het mooi omschrijft, "I want data governance to be like anti-virus". En dat is waar data observability tooling dan weer om de hoek komt kijken.

De enterprise data marketplace
In een tweede sessie op de Summit behandelt Mike Ferguson het concept van een enterprise data marketplace. Omdat steeds meer organisaties datagedreven willen werken is er veel behoefte aan het snel beschikbaar krijgen van de juiste data. Het creëren van herbruikbare dataproducten is dan ook een aanpak die steeds meer organisaties omarmen. Om deze dataproducten op een gecontroleerde manier te beheren, publiceren, delen en te consumeren kunnen organisaties gebruik maken van een enterprise data marketplace.
En ook hier komt het concept van een Data Mesh weer naar voren. Bij deze gedecentraliseerde aanpak van data engineering en dataproductontwikkeling wordt de behoefte aan het centraal publiceren van dataproducten immers alleen maar groter. Een data marketplace kan dan helpen in het veilig, en met inachtneming van de regels die van toepassing zijn, beschikbaar stellen van de data. Zo kan de data marketplace ook afdwingen dat gebruiksvoorwaarden eerst worden geaccordeerd voordat de data beschikbaar wordt gesteld. Het kan daarvan ook een audit trail bijhouden.

Maar ook voor de consumerende kant kan een data marketplace belangrijke functionaliteiten bieden. Het kunnen zoeken, filteren en navigeren op eigenschappen van het dataproduct, het combineren van dataproducten en het personaliseren van een dataproduct op basis van de behoefte van de consument zijn belangrijke functionaliteiten die een data marketplace kan bieden.

Data Modellen
Tijdens de summit zijn er drie verschillende sessies geweest over datamodellen en -modellering. Tanja Ubert geeft in haar sessie een overzicht van de meest gebruikte modellen en welk model te kiezen binnen welke context en met welke noodzaak.
Alec Sharp gaat meer op het datamodelleringsproces zelf in. Datamodelleurs maken het volgens Alec vaak te ingewikkeld. We hebben technieken nodig waarbij iedereen wordt betrokken. Technieken die herhaalbaar zijn voor leken en binnen afzienbare tijd kunnen worden ingezet. Zijn sessie op het summit gaat dan ook over het maken van een businessgeoriënteerd conceptueel model. De focus moet daarbij niet op data liggen, maar op de "dingen" die een organisatie belangrijk vindt. Een goed startpunt om "dingen" te kunnen identificeren is te luisteren naar de taal die de business spreekt. De zelfstandige naamwoorden die gebruikt worden door de business zijn goede kandidaten voor de entiteiten die je in je conceptueel model wil opnemen. Wanner je de belangrijkste entiteiten hebt geïdentificeerd kun je gaan kijken hoe ze met elkaar zijn verbonden en wat de organisatie over deze "dingen" wil weten. Op basis daarvan kun je het conceptueel model aanvullen met relaties en attributen.

Tijdens zijn interactieve sessie spendeert Alec Sharp veel aandacht aan de diagramconventies die hij hanteert. Je conceptueel model is immers een communicatiemiddel. Vraag jezelf dus af wat je wilt communiceren en of het model dat je voor ogen hebt het begrip echt zal vergroten. Ook gaat hij in op de relatie tussen conceptueel datamodelleren en ander technieken zoals business process modellering, user interface design, en business service design. Hij toont daarbij aan dat deze alle afhankelijk zijn van het conceptuele model. Het conceptuele model vormt dan ook een goede basis voor business analyse.

Knowledge graphs
De derde sessie over datamodellen en -modelering wordt gegeven door Thomas Frisendal, auteur van meerdere boeken over knowledge graphs. Hij gaat in zijn sessie op de summit vooral in op de topologie van knowledge graphs. Er zijn binnen deze topologie twee standaarden te onderscheiden: property graphs en resource description framework graphs. Resource description framework graphs komen uit de objectoriëntatie en het semantic web. Zij gaan uit van de "open world assumption" waarbij je maximale flexibiliteit en uitbreidbaarheid hebt en meerdere versies van de werkelijkheid kunt ondersteunen. Property graphs daarentegen gaan uit van een "closed world" assumptie waar integriteit en constraints in de data voorop staan.

Er zijn verschillende leveranciers van graph databases en graph algoritmes die voor verschillende vraagstukken ingezet kunnen worden. Van route planning (vind de kortste route tussen twee punten) tot bijvoorbeeld het toewijzen van een ranking aan een zoekresultaat. Deze kant en klare graph algoritmes kunnen significante tijdswinst opleveren voor organisaties die anders zelf een machine learning model voor dit soort toepassingen zouden ontwikkelen.

Maar er zitten zeker nog meer voordelen aan knowledge graphs, zo betoogd Thomas Frisendal. In tegenstelling tot relationele databases, waarbij je normalisatie- en denormalisatieslagen hebt, zit het logische model veel dichter tegen het conceptuele model. Daardoor zijn ze robuuster en flexibeler. Daarnaast is het zo dat de data en metadata in een knowledge graph meer een geheel vormen. Er is geen schema nodig voor het laden van de data, deze kan samen met de data evolueren.


Data Lakehouse
Naast alle aandacht voor data management is er op de summit ook voldoende aandacht voor recente en nieuwe ontwikkelingen in het vakgebied. Zo geeft Jan W. Veldsink een presentatie over datagerichte AI en wijdt Rick van der Lans zijn sessie aan het onderwerp data lakehouse.
Een data lakehouse architectuur combineert de flexibiliteit, kostenefficiency en schaalbaarheid van data lakes met de data management eigenschappen en ACID (atomic, consistent, isolated, durable) transacties van een datawarehouse. Althans dat is hoe Databricks, het bedrijf dat deze architectuur met hun tooling ondersteunt, het in de markt zet. Het adresseren van datalake- en datawarehousefunctionaliteit met een architectuur biedt als voordeel dat je de data niet twee keer hoeft te kopiëren. Bovendien kun je dan het management van zaken als security en privacy centraal regelen en voorkom je dubbele ontwikkelkosten en inconsistenties tussen beide use cases.

Maar, zo betoogt Rick in zijn presentatie, is het Data Lakehouse wel echt een architectuur? Zaken als ACID transacties zijn niet echt architectuurkenmerken maar meer een technologie. En zou een dergelijke architectuur zich niet vooral moeten focussen op de plaats waar de verwerking van de data plaatsvindt? Dat is immers waar nog altijd het merendeel van de activiteiten plaatsvindt. Biedt data lakehouse daar dan een goed antwoord op? Volgens Rick in ieder geval niet voldoende. Want hoe kun je de processing van meer experimentele use cases van data lakes en de sterk gecontroleerde processing die voor datawarehouse toepassingen wordt verlangd nu op een plaats implementeren? Heb je dan toch weer meerdere plaatsen nodig waar data wordt geprocessed en opgeslagen? Kortom welk probleem lossen we hier op?

Als we het concept data lakehouse vanuit een meer technologisch perspectief bekijken biedt het wel enkele interessante concepten. Het gebruik van open file formaten is natuurlijk een voordeel ten opzichte van de gesloten databaseformaten die gebruikt worden in veel data warehouses. En het feit dat in een data lakehouse zowel streaming als batch, gestructureerde en semi-gestructureerde data worden ondersteund en met SQL kunnen worden benaderd is ook krachtig. Maar dat maakt het nog niet meteen een volwassen architectuur.

En nu de praktijk
Op de summit zijn er twee organisaties die in hun presentaties ingaan op data management binnen hun eigen organisatie. Zo geeft Matthijs Stel van Evides Waterbedrijf een presentatie over hoe zij vanuit een datastrategie, stap voor stap data management binnen de organisatie invoeren. Herman Bennema van Vektis, een organisatie die in Nederland beschikt over alle zorgdeclaratiegegevens, beschrijft hoe zijn organisatie maximaal inzicht probeert te verschaffen in deze data zonder daarbij de privacy van de zorgnemers te schaden.
Hiermee biedt de summit een mooie combinatie van praktijk en theorie. En dat niet alleen op het gebied van Business Intelligence en datawarehousing, maar zeker ook op het bredere vakgebied: data management.

Sjoerd Janssen

Sjoerd Janssen is Data Governance Architect bij ASML en lid redactieadviesraad BI-Platform.

Alle blogs van deze auteur

Partners